谷歌 DeepMind 联合 Kaggle 近日宣布对其公开基准测试平台 Game Arena(游戏竞技场)进行重大升级,正式引入“狼人杀”(Werewolf)与“扑克”(Poker)两款经典策略游戏。此举标志着 AI 性能评估已从单纯的逻辑运算(如国际象棋)向复杂的社交推理与不确定决策跨越。

QQ20260204-095537.png

测评维度:从逻辑思维到社交伪装

DeepMind 认为,传统测试已难以区分顶尖模型的细微差距。新加入的游戏旨在从不同维度极限测试 AI 的认知能力:

  • 狼人杀: 侧重评估模型的沟通技巧、语言说服力以及识破/利用谎言的社交感应能力。

  • 扑克: 模拟真实世界的复杂决策,测试模型在面对不完整信息和风险管理时的博弈能力。

  • 国际象棋: 继续作为衡量纯粹逻辑思维与长程规划的基础指标。

战力排行:Gemini3家族全面制霸

根据最新公布的 Elo 排名,谷歌新一代模型 Gemini3ProGemini3Flash 展现出统治级实力,在所有棋类与策略游戏中均位列第一梯队。令人意外的是,轻量级的 Flash 模型在某些需要快速迭代和即时反馈的博弈场景中表现尤为出色,而 Pro 模型则在深度规划上保持领先。

安全研究的双重价值

除了性能展示,DeepMind 还强调了“狼人杀”基准测试在 AI 安全领域的潜力。该场景模拟了现实中的操纵行为检测,让模型在受控、无实际后果的环境中学习识别恶意引导。谷歌 DeepMind 首席执行官 Demis Hassabis 对此表示,随着模型能力的指数级增长,行业亟需此类更具挑战性、更贴近现实动态的“压力测试”。

目前,Game Arena 已在 Kaggle 平台开放,开发者可实时观察全球顶尖模型在这些高压社交博弈中的表现。