文章
Benchmark,具身智能研究最缺乏的“基础设施”

Benchmark,具身智能研究最缺乏的“基础设施”

2026年3月20日 21:28·36kr

这项竞赛的目标井不是展示机器人已经能做什么,而是尽可能准确地界定它们暂时还做不到什么。

这正是产业决策最需要的信息。所以这次赛事,带来的不一定是榜单上的狂欢,但一定会帮助研究人员认清技术的真实状况。模型竟赛只是见证技术迅猛发展一方面,

如果 ManipArena 能够持续运行,它记录的将不仅是排行榜,更可能是具身智能走向产业化的时间刻度。

具身智能模型的结构性矛盾在于,一面是飞速迭代的模型,另一面则是滞后的基准线。

换句话说,具身模型一直没有一个科学、可靠的评测标准去让它从发散地“野蛮生长”到牟足劲儿地“向上生长”。 

“木受绳以直”,具身模型也需要一个科学的 Benchmark 去精细地评估、诊断甚至是指导未来研究方向。但现状是,由于长期缺乏统一、高标准的真机测评体系,模型的迭代与产业化进程正深受制约。

事实上,任何产业从技术探索走向规模化,都会经历一个从“百花齐放”到“标准收敛”的阶段。

这是从多个万亿级市场规模的产业中验证过的成功路径,互联网时代,协议标准让全球网络互联互通;深度学习的爆发也离不开评测体系。它们并不直接创造产品,却决定了技术进步的方向与速度。

具身智能正处在类似的早期阶段。过去两年,从 VLA(Vision-Language-Action)模型到世界模型,技术路径层出不穷,研究范式高度分散。但行业其实并不缺模型,也不缺演示视频,缺的是一个能够回答模型“在真实世界中究竟能做到什么程度”的统一标尺。

没有 Benchmark,模型提升还更多停留在叙事层面。有了 Benchmark,技术进步才具备可验证、可复现、可积累的产业价值。 

在这样的背景下,CVPR 2026 官方竞赛 ManipArena 的启动,其意义就不再是又多了一场比赛,而在于它试图补齐具身智能领域最关键、却长期缺位的一块基础设施:面向真实世界的统一评测体系。 

更重要的是,一个可持续运行的研发平台能够不断沉淀数据、验证结论并反哺模型迭代,形成“评测-改进-再评测”的正向循环,从而撬动整个领域从无序探索走向系统进化。

ManipArena的不是展示能力,而是测量模型边界

从表面看,ManipArena 是一项机器人操作竞赛,但其设计逻辑更接近一次系统化能力测量。

长期以来,机器人评测依赖于仿真环境或精心布置、高度简化的桌面抓取任务。这类基准虽然推动了算法进步,却难以反映真实世界的复杂性。而真正能还原物理世界的长时序决策、空间移动、多模态感知、不可预测的物理交互,往往被排除在评测之外。这便导致,研发人员只能蒙眼狂奔,无法精准迭代,模型也可能是在实验室表现亮眼,却难以迁移到现实场景。

ManipArena 的核心目标正是填补这一鸿沟。赛事共设置 20 个真实机器人任务,并在统一环境下进行真机评测,覆盖推理能力、泛化能力、长时序决策以及多模态感知等关键维度。相比过往那些“简单的抓取”测试,这更接近对完整操作能力的系统审视。

ManipArena 赛事花了很多时间进行科学设计。其中一个重要设计是“一个模型完成全部任务”(One Model for All Tasks)。参赛者不能针对不同任务分别训练模型,而必须依赖统一策略完成所有挑战。这一规则本质上是在筛选通用能力,而非单点技巧或任务过拟合。

另一项关键设计是分层 OOD(Out-of-Distribution)评估。每个任务通过物理属性、空间布局和语义组合等多维变化,构造不同难度等级,从域内变化到语义外推,系统测试模型在未知情况下的表现。这使评测不再只给出一个分数,而是呈现能力曲线,揭示模型究竟卡在感知、推理还是执行环节。

此外,ManipArena 将评测范围从桌面操作扩展到包含导航与全身控制的移动任务,例如整理衣物、挂画、收纳物品等,覆盖更接近真实生活的操作场景。这意味着它不再评估“机械臂技能”,而是评估“具身系统能力”。

换句话说,这项竞赛的目标并不是展示机器人已经能做什么,而是尽可能准确地界定它们暂时还做不到什么。

这正是产业决策最需要的信息。所以这次赛事,带来的不一定是榜单上的狂欢,但一定会帮助研究人员认清技术的真实状况。

从竞赛到研究基础设施,具身智能拐点已来

ManipArena 更深远的意义,或许在于它并不只是一次竞赛,而是一个可持续运行的研究平台,它有着“常态化评测”“持续性运营”“大幅降低门槛”等特色。

首先,它具备常态化评测能力。参赛者可以基于公开数据训练模型,通过远程接口提交算法,由平台完成真机测试并返回结果。这种机制不仅适用于比赛,也适用于日常研究验证,使其成为一个持续可用的 Benchmark,而非一次性活动。

其次,平台提供了高质量真实世界数据与精细评测体系,包括 188 小时高质量真机数据,并承诺未来持续开源数据,为模型训练与分析提供直接支撑。在机器人领域,获取真实数据的成本极高,这种集中供给本身就是重要的科研基础设施。

更关键的是,它显著降低了参与门槛。研究团队无需购买昂贵机器人设备,仅依托一台 GPU 服务器即可参与全流程评测。

这是一个非常关键的转折点,具身智能研究长期受制于硬件成本,只有少数实验室拥有设备优势,而大多数团队难以开展真实世界实验。远程真机评测机制使更多研究者能够参与竞争,扩大创新来源。

额外多说一点,这种统一硬件的方式,避免了硬件差异对结果的影响。而且,由于自变量的“量子一号”等硬件设施是 AI 原生、为模型而生,其能够更好的发挥模型性能。倘若 ManipArena 真能够长续发展,也将有助于形成统一的硬件标准。

当性能差异主要由算法而非设备决定时,研究重点将更像模型聚焦,从而加速软件层面的竞争与收敛。

“要想富,先修路”,今天的具身智能研究,想要从粗狂的野蛮生长走向规范化发展,正缺少这样稳定、科学的基础设施建设。

自变量成行业变量

外界可能会问,为什么是一家模型企业来推动这项工作?答案恰恰在于,只有真正开发过模型的人,才最清楚模型的能力边界与潜在漏洞。

首先要认识到,Benchmark 从来不是中性的。它隐含着对未来技术方向的假设:

- 比方说,ManipArena 将推理、长时序决策和多模态融合放在核心位置,实际上是在对具身智能的主流发展路径做出判断,是对过去简单任务评测的一次技术矫正; - 再者像,赛事中开源的多维数据里所特意强调的电机电流和关节速度,如官方所说“电机电流和关节速度可作为力和接触的代理信号,当前主流模型(VLA、World Model)均未有效利用电流和关节速度信号”,ManipArena 此举针对性开源将有助于推动力敏感策略研究;

 - 此外,官方在表态中多次强调 VLA 与世界模型同台竞技,是否各有千秋,到底孰优孰劣在赛中见真章,某种程度上也昭示出技术的趋势。

其次,做过模型的人更了解模型如何“取巧”。在许多基准测试中,模型可以通过统计偏差、环境规律或特定技巧获得高分,而不具备真正的通用能力。ManipArena 的设计明显试图规避这些问题,例如统一环境、均匀分布变化、跨任务通用模型要求等,都旨在防止过拟合和投机行为。

再次,真正科学有效的 Benchmark 设计往往来自大量经验的积累。只有那些从零到一全链路自研,趟踩过足够多的坑,才知道模型会在哪里崩溃。从这个角度看,“做题做多了的人更会出题”并非调侃,而是一种技术现实。评测体系本质上是对过去研究经验的结构化沉淀,也是对未来技术路径的引导。

而作为长期坚持端到端具身大模型路线的企业,自变量深度参与了从 VLA 到世界模型融合范式的演进过程,对模型在真实物理世界中的能力边界与失效模式有着一手认知。

其自研的 WALL-A 模型首创将 VLA 与世界模型深度融合,在统一多模态输入输出架构下引入具身多模态思维链,通过时空状态预测、视觉因果推理与可学习记忆机制,使机器人能够在非结构化环境中实现更强的零样本泛化能力 。同时,依托大规模真机强化学习,模型在持续与物理世界交互中积累高质量经验,自主修复长尾问题,形成“基础模型—真实交互—能力进化”的技术闭环 。而在此基础上开源的 WALL-OSS 也表现出优异的长程操作能力、因果推理与空间理解能力。

正是这种从模型架构、训练方法到真实部署的全链路实践,使自变量不仅深谙模型训练坑坑洼洼、与模型技术发展同频脉动,也成为具身智能能力评测体系的积极塑造者。 对于一项技术革命来说,其福泽社会从来不论到底是哪家企业的技术强弱,反而是从行业逐渐沉淀出可靠的标尺开始。放在具身智能领域,也是如此。

模型的竞赛只是见证技术迅猛发展一方面,如果 ManipArena 能够持续运行,它记录的将不仅是排行榜,更可能是具身智能走向产业化的时间刻度。

本文来自微信公众号“具身研习社”,作者:彭堃方,36氪经授权发布。