DeepMind 开设 AI “线下桌游局”:Gemini3家族横扫扑克与狼人杀排行榜

2026年2月4日 10:22·AIBase

谷歌 DeepMind 联合 Kaggle 近日宣布对其公开基准测试平台 Game Arena（游戏竞技场）进行重大升级，正式引入“狼人杀”(Werewolf)与“扑克”(Poker)两款经典策略游戏。此举标志着 AI 性能评估已从单纯的逻辑运算(如国际象棋)向复杂的社交推理与不确定决策跨越。

测评维度:从逻辑思维到社交伪装

DeepMind 认为，传统测试已难以区分顶尖模型的细微差距。新加入的游戏旨在从不同维度极限测试 AI 的认知能力:

狼人杀: 侧重评估模型的沟通技巧、语言说服力以及识破/利用谎言的社交感应能力。
扑克: 模拟真实世界的复杂决策，测试模型在面对不完整信息和风险管理时的博弈能力。
国际象棋: 继续作为衡量纯粹逻辑思维与长程规划的基础指标。

战力排行:Gemini3家族全面制霸

根据最新公布的 Elo 排名，谷歌新一代模型 Gemini3Pro 与 Gemini3Flash 展现出统治级实力，在所有棋类与策略游戏中均位列第一梯队。令人意外的是，轻量级的 Flash 模型在某些需要快速迭代和即时反馈的博弈场景中表现尤为出色，而 Pro 模型则在深度规划上保持领先。

安全研究的双重价值

除了性能展示，DeepMind 还强调了“狼人杀”基准测试在 AI 安全领域的潜力。该场景模拟了现实中的操纵行为检测，让模型在受控、无实际后果的环境中学习识别恶意引导。谷歌 DeepMind 首席执行官 Demis Hassabis 对此表示，随着模型能力的指数级增长，行业亟需此类更具挑战性、更贴近现实动态的“压力测试”。

目前，Game Arena 已在 Kaggle 平台开放，开发者可实时观察全球顶尖模型在这些高压社交博弈中的表现。

DeepMind 开设 AI “线下桌游局”:Gemini3家族横扫扑克与狼人杀排行榜

测评维度:从逻辑思维到社交伪装

战力排行:Gemini3家族全面制霸

安全研究的双重价值

相关文章

国内首个AI原生游戏玩法落地！《超自然行动组》上线“AI大模型挑战”，千万玩家可与AI共演剧情