文章
宇树开源 UnifoLM-VLA-0 大模型,助力通用人形机器人操作

宇树开源 UnifoLM-VLA-0 大模型,助力通用人形机器人操作

2026年1月29日 20:36·ithome

大模型
人形机器人
开源
感谢IT之家网友 斯文当不了饭吃HH_KK 的线索投递!

IT之家 1 月 29 日消息,宇树今日宣布开源 UnifoLM-VLA-0 大模型。

据介绍,该模型是 UnifoLM 系列下面向通用人形机器人操作的视觉-语言-动作(VLA)大模型,旨在突破传统 VLM 在物理交互中的局限,通过在机器人操作数据上的继续预训练,实现了从通用“图文理解”向具备物理常识的“具身大脑”的进化

针对操作类任务中对指令理解与空间感知的高要求,模型通过继续预训练深度融合了文本指令与 2D/3D 空间细节,增强了模型的空间感知能力。

构建了全链路动力学预测数据,模型具备更好的任务泛化性。在真机验证中,仅需单一策略即可高质量完成 12 类复杂的操作任务。

基于 Qwen2.5-VL-7B 开源模型,宇树构建了覆盖机器人与通用场景的多任务数据集,并开展持续预训练。该数据集涵盖 2D 检测与分割、任务层级分解、3D 目标检测、空间位置推理及轨迹预测等多维数据,有效提升了模型对几何空间与语义逻辑的对齐能力。

针对操作类任务,宇树对开源数据集进行了系统化清洗,最终仅利用约 340 小时的真机数据,进行离散动作的预测训练。在此基础上,模型集成了动作分块预测,以及前向与逆向动力学约束,实现对动作序列的统一建模,从而使 VLM 具备对机器人与物体物理交互规律的深度理解能力,并支持长时序动作规划与决策。

基于上述构建的数据集开展持续预训练后,宇树获得了 UnifoLM-VLM-0。该模型在多类任务场景下展现出显著增强的空间推理能力与可靠的多模态感知性能,相关零样本测试示例如下:

宇树在三个空间理解基准上对模型进行了评估,结果显示:模型在空间感知与理解能力上较 Qwen2.5-VL-7B 有显著提升,并且在 "no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。

宇树在 UnifoLM-VLM-0 模型的基础上集成了动作预测头 (ActionHead),从而构建出 Uni-foLM-VLA-0。经由仿真环境与真机实验的多任务训练验证,结果显示该模型具备单模型处理多任务的通用能力,在 LIBERO 仿真基准测试中,宇树的多任务模型取得了接近最优的性能。

在宇树 G1 人形机器人平台上,宇树构建了覆盖 12 类复杂操作任务的高质量真机数据集,并基于此对 UnifoLM-VLA-0 进行单一策略网络的统一端到端训练。真机实验结果表明,该模型能够在同一策略 checkpoint 下,稳定完成全部 12 项任务,在外部扰动条件下仍保持良好的执行鲁棒性与抗干扰能力。

项目主页:https://unigen-x.github.io/unifolm-vla.github.io/

开源代码网址:https://github.com/unitreerobotics/unifolm-vla

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。