OpenClaw不会蛋炒饭,Ropedia放出人类经验,机器人「教科书」来了
2026年3月17日 15:24·36kr
【导读】当LeCun和李飞飞各自拿下10亿美元押注世界模型时,一个更底层的问题浮出水面:谁来为Physical AI提供真正能用的数据?Ropedia给出的答案,不是更多视频,而是一部结构化的、来自真实世界的「经验百科全书」。
最近,AI圈最热的一件事情就是,玩OpenClaw。
OpenClaw似乎无所不能:写代码、出报告、改方案、查资料。
但有一件事,OpenClaw做不到——它没办法帮你去厨房炒一盘蛋炒饭。
但当AI试图进入物理世界,一个隐藏已久的问题开始浮出水面:
机器人学习的数据在哪里,人类在真实世界中的经验和经历如何变成「高质量数据」?
2026年,AI世界的风向标开始转向了同一个方向:如何让智能真正走进真实物理世界。
给Physical AI一套,真正的「经验底座」
对于AI发展的路线之争,图灵奖得主Yann LeCun的坚持代表了一种态度,资本也给出的回应。
他离开Meta后创办的AMI Labs,以35亿美元估值拿下10.3亿美元种子轮——刷新欧洲AI创业史上最大种子轮纪录。
贝索斯、英伟达、三星、施密特,半个硅谷都在他的投资人名单上。
LeCun说得直白:「世界模型将成为下一个热词。六个月后,每家公司都会自称是世界模型来融资。」
就在AMI Labs官宣的两周前,「AI教母」李飞飞的World Labs刚刚完成10亿美元融资,估值飙至50亿美元。
AMD和英伟达两大芯片巨头同时入局,Autodesk更是一口气掏出2亿美元战略投资。
李飞飞在年初的访谈中反复强调一个判断:空间智能,是AI的下一个前沿。
两位学术界最具号召力的人物,不约而同押下了同一注:让AI理解真实的物理世界。
这是一个时代的信号。
从语言智能到物理智能:中间差了一座「数据大桥」
过去十年,AI的飞跃建立在互联网规模的文本、图像和视频之上。
大模型学会了理解语言、识别场景、生成内容,智能第一次大规模走入了人们的生活。
但当AI试图进一步踏入物理世界,问题开始变得截然不同。
机器人不仅要「看见」,还要「行动」;不仅要识别一个厨房长什么样,还要理解人在其中如何移动、如何操作、如何跟物体发生交互,以及每一个动作会带来什么物理后果。
这意味着,下一代智能系统——包括空间智能、具身智能、世界模型和Physical AI——需要的已经不只是更多视频,而是更接近人类真实行动过程的经验数据(Experience)。
可问题在于:这样的数据,几乎不存在。
今天互联网上有海量的视频,但绝大多数只是「被动观看」的素材——缺少深度信息、缺少空间结构、缺少手部交互轨迹、缺少动作与后果之间的因果关联。
对于想要在物理世界中执行任务的AI来说,一千小时的YouTube视频,远远不如一小时结构化的人类真实交互经验有用。
英伟达今年2月发布的EgoScale研究,用超过20,000小时的第一视角人类视频训练VLA模型,发现了一条近乎完美的对数线性Scaling Law——人类数据规模每扩大一倍,模型性能就稳定提升。
这第一次用硬数据证明了:大规模人类经验数据,是机器人学习灵巧操作的可预测监督来源。
谁能持续产出高质量结构化的人类经验数据,谁就握住了下一个智能时代的燃料。
但是,机器的养料,不该局限于枯燥的「工厂操作指南」,而更该是一部包罗万象的「人类经验百科」。
如同《黑客帝国》中多个版本的Neo救世主
真实世界的互动,充满了鲜活的复杂与多元。
一千万条Human Experience:一部「人类经验百科全书」
正是在这个背景下,Ropedia正式发布了一千万条,约10,000+小时的Human Experience数据集——Xperience-10M,并将以开放的方式向研究者公布。
现在,Xperience-10M已在Hugging Face上开源。
huggingface链接:https://huggingface.co/datasets/ropedia-ai/xperience-10m
正如「Ropedia」这个名字所承载的野心与浪漫——
为Robot(机器人)撰写一部全景式的Encyclopedia(百科全书),将人类流动的生命经验,化作AI跨越时代的通用底座。
这不是一套传统意义上的原始采集数据。
他们想做的不是「上传一批视频」,而是为机器构建一部通往物理世界的「经验百科全书」。
为什么叫「百科全书」?
因为对于具身智能和世界模型来说,真正缺的不是某一种信号,而是一整套多维度、多模态、像百科全书一样完整的数据——它需要有物理信息、三维空间信息、交互意图、行为轨迹,所有这些维度拼凑在一起,才能构成一幅生动写实的图景,而不是一个视频合集。
在同一段轨迹中,Ropedia同时提供了五个核心维度的数据:
- 视觉流信息(RGB第一视角连续观察,360°第一视角采集)
- 空间信息(深度、空间结构、环境拓扑)
- 动作信息(全身动作、手部灵巧操作、交互轨迹)
- 交互信息(人与物、人与场景、人与任务之间的作用关系)
- 以及语义信息(任务描述、状态变化、原子动作、行为意图)
更关键的是,这些维度并不是后期「拼起来」的,而是被统一对齐在同一时间轴和同一结构框架下。
视觉与动作天然同步,语义与物理变化可以对应,行为路径与空间结构可以追溯,整个任务执行过程都可以被重放、建模和学习。
这正是Ropedia与市面上大量数据集最本质的区别:它交付的不是一堆原始素材,而是一套真正可以直接喂入模型训练环节的结构化智能数据。
什么是4D Physical World?
在Ropedia的定义里,4D并不只是「3D加上时间」。
它真正指向的是一个更完整的框架:3D + Time + Interaction + Consequence。
拆开来看,就是四个维度的闭环——
空间(Where):智能体身处何处,周围环境结构如何;
行动(How):它如何移动、如何接触、如何操控;
交互(With What):它和什么对象发生了作用;
后果(What Changes):这些动作带来了怎样真实可观测的物理变化。
这四个维度,构成了机器理解物理世界的最小闭环。
道理很简单:如果没有交互,时间只是一段录像;如果没有后果,动作只是一条轨迹。
只有当「行为如何改变世界」这个信息被写入数据本体,Physical AI才真正拥有了学习现实的基础。
从这个意义上说,Ropedia发布的不只是一个数据集,更像是在定义一种面向具身智能的新型数据标准。
HOMIE:把人类经验采集,做成像戴眼镜一样自然
有了数据标准还不够,更核心的问题是:这样的数据从哪里来?
今天行业里不乏数据采集的努力。
特斯拉的Optimus项目招募大量人员,在专用设施里穿着动捕服反复做洗碗、叠衣服等动作,摄像头从最初的四个扩展到六个再到八个。
Figure则让操作者头戴Vision Pro进行遥操作数据采集。
这些方案各有所长,但都面临一个共同的限制:它们严重依赖专业设备和受控环境。
采集只能发生在Tesla的数据工厂里、Figure的样板房里、实验室的可控场景里。
一旦换一个不同的环境——整套数据闭环的能力就急剧下降。
真正的泛化,需要的是在真实世界的千千万万个末端场景里完成数据闭环。
为此,Ropedia早在2025年发布了自己的端到端采集平台——HOMIE。
HOMIE不是单一硬件,而是一整套围绕「无感化、可扩展、长期可用」设计的「人类经验捕捉系统」。
它的核心特点在于两个「不依赖」:不依赖重型专业设备,不依赖外部第三人称视角相机。
用户只需佩戴一个轻量化的头戴式多模态采集设备,就可以回到日常生活和工作环境中自然地完成数据采集。
这意味着高质量数据的闭环,可以真实地发生在每一个末端场景里——你家的厨房、办公桌、工厂产线、医院护理站——而不只是一间样板房或数据工厂。
HOMIE支持长时间佩戴、具备稳定的自运动追踪与定位能力、多传感器精准同步,以及面向真实世界任意场景的规模化部署。
从外部看,这是一套硬件采集系统;但从Ropedia的战略来看,它更像是「物理世界百科全书」的入口层,持续把真实世界中的人类行为转化为可被机器理解的知识单元。
真正拉开差距的,是结构化标注能力
但是,原始经验并不天然等于智能数据。
这是Ropedia反复强调的核心观点。
市面上不乏数据采集的方案——有人采了很多视频,随手放到网上,拼的是时长和体量。
但这种做法很容易沦为「又一个互联网数据集」。
有数据不等于「有用的数据」。没有高质量、结构化、可对齐的标注体系,海量采集只是一堆噪声。
Ropedia真正的核心竞争力,在于它背后那套空间基础模型(Spatial Foundation Model)与自动标注体系。
这套系统类似于特斯拉FSD的数据飞轮逻辑:
FSD最大的优势不在于某一版硬件有多强,而在于它能够产生数据飞轮效应——车辆在路上跑的同时不断回灌数据,持续提升模型在长尾场景下的能力。
Ropedia的数据管线也遵循同样的思路。
它并不纯依赖硬件——因为硬件迭代是慢的,哪怕以深圳速度也要三到六个月一版——而是依赖自研的空间基础模型来驱动整条数据管线。
几百上千名采集人员在外场采集的数据,一方面交付给下游客户使用,另一方面也在闭环Ropedia自身模型的能力。
模型越强,标注质量越高;标注质量越高,模型又进一步提升。
这种飞轮效应,使得Ropedia的数据质量迭代速度远超传统的硬件驱动或人力标注方式。
目前,这套系统已覆盖的关键能力包括:空间定位与深度恢复、手—物交互追踪、全身动作捕捉、物体与场景语义理解、任务描述与状态变化建模,以及更多持续扩展中的结构化维度。
换句话说,Ropedia真正交付的不是「我们拍到了很多」,而是「我们能把真实经验稳定地转译成高质量智能数据」。
这是它与大量无结构采集方案之间的关键分水岭。
「经验百科全书」如何重新定义机器人数据采集?
站在具身智能和世界模型的前沿来看,Ropedia发布的这套Human Experience数据集,实际上触及了一个整个行业悬而未决的根本性问题:
机器人要从什么样的数据中学会在物理世界里行动?
回顾机器人领域数据采集的演进脉络,你会发现它经历了三个清晰的阶段:
第一阶段是仿真数据主导。 在NVIDIA Isaac、MuJoCo等仿真器中生成大量虚拟轨迹,优势是成本极低、可无限复制,但致命缺陷是sim-to-real gap——仿真中完美运行的策略,一旦部署到真实世界就大幅退化。
第二阶段是遥操作(teleoperation)数据兴起。 Tesla Optimus招募大量人员在样板房里用人体动捕设备遥控机器人执行任务,Figure等公司用Vision Pro做数据采集,RT-2、ALOHA等项目也大量依赖遥操作。
这种方式的优势是动作数据直接来自真实机器人执行,可以端到端训练,但瓶颈同样明显——成本极高、采集不具备可扩展性,最关键的是,它只能在可控环境中进行,永远无法覆盖真实世界千变万化的长尾场景。
你可以在Tesla的数据工厂里搭一个标准厨房,但你搭不出全世界几十亿家庭各不相同的厨房。
第三阶段,也是正在发生的范式转移,是以人为中心(human-centric)的经验数据。 不再用机器人采集数据,而是让人类在真实生活场景中自然行动,通过轻量化的可穿戴设备记录第一视角的多模态信息,然后将这些人类经验转化为机器可学习的结构化数据。
这个转变的底层逻辑,其实和自动驾驶行业的演进如出一辙。
早期Waymo的方案是在有限的城市中用昂贵的传感器车队采集数据,数据质量很高但规模上不去;后来Tesla用每一辆量产车的摄像头做「影子模式」,海量采集真实驾驶场景,用规模和多样性碾压了精采数据的稀缺性。
从「昂贵的专业采集」到「低成本、渗透式的规模化采集」,这条路径在自动驾驶领域已经被验证过一遍了。
机器人领域正在重走这条路。
英伟达的例子很有说服力。
EgoScale研究表明,当第一视角人类视频数据规模提升至20,854小时后,机器人策略性能呈现出清晰的规模化收益;与无预训练基线相比,平均成功率提升54%。
第一视角人类数据对机器人泛化与迁移能力的作用,已经从「辅助路线」走向「主路径」。
这些信号汇聚起来,指向一个不可逆转的行业共识:
如果你真想构建能泛化到任意场景的机器人基础模型,以人为中心的、来自真实世界的经验数据,是唯一能实现规模化的路径。
而Ropedia的「经验百科全书」范式,恰恰在这个历史转折点上,给出了一套完整的答案——不只是采集人类数据,而是将人类在真实世界中的完整经验链条(感知-意图-动作-交互-后果)结构化为机器可读、可训练、可泛化的4D物理世界数据。
这是对「机器人该从什么数据中学习」这个根本问题的一次重新定义。
一个新的Physical AI玩家
作为关注Physical AI和具身智能赛道的观察者,当我们在世界模型融资狂潮、机器人本体军备竞赛和基础模型混战的嘈杂声中,梳理整个产业链的关键节点时,Ropedia的出现引起了我们的注意。
它的独特之处,在于它不是任何一个我们熟悉的品类。
它不是模型公司——不做世界模型,不做VLA,不和LeCun的AMI Labs或李飞飞的World Labs竞争。
它也不是机器人本体公司——不造人形机器人,不和Figure、Tesla Optimus、1X、Unitree争夺硬件份额。
Ropedia更像一家数据科学公司(Data Science Company)。
在大语言模型时代,Scale AI和Surge AI的故事告诉我们一件事:数据基础设施的价值,往往被低估到令人吃惊的程度。
Scale AI靠拼规模和吞吐量做到了百亿美元估值,但最终Surge AI用不到十分之一的团队、零外部融资,凭借对数据质量近乎偏执的追求,在营收上反超了前者。
这个故事的教训很清楚——在AI基础设施的竞争中,理解「模型到底需要什么样的数据」,比单纯的数据体量更值钱。
Ropedia走的是同样的逻辑,但它面对的赛道更加底层,也更加关键。
大语言模型时代,Scale AI标注的是文本和图像——这些数据形态是二维的、静态的、结构相对简单的。
而Physical AI时代,数据是4D的——三维空间加时间加交互加后果,数据的复杂度和结构化难度呈指数级上升。
在这个新赛道里,「拍了多少视频」远不如「能把真实经验转化为多少高质量结构化数据」重要。
这恰恰是Ropedia的核心定位:它不生产模型,也不生产机器人,它生产让模型和机器人变得更聪明的「燃料」——而且是高辛烷值的、精炼过的、可以直接进入训练管线的燃料。
它的客户画像也印证了这一点:北美和英国的科技大厂、明星机器人初创公司、视觉模型公司、空间智能公司——都是Physical AI赛道上最前沿的玩家。
它们选择Ropedia,不是因为缺视频,而是因为缺高质量的结构化经验数据。
一个时代的基础设施正在被重新定义
回头来看,一条清晰的主线正在浮现。
过去,大模型依靠互联网成长。文本互联网塑造了语言智能,图像与视频互联网推动了视觉智能。
而下一个时代,Physical AI需要的将不是另一套内容平台,而是一套能够持续积累、持续组织、持续更新的人类经验基础设施。
如果说过去的互联网沉淀的是「人类说了什么、写了什么、拍了什么」,那么属于Physical AI的基础设施,需要沉淀的是一个更加本质的东西:人类如何在真实世界中行动、交互,并改变世界。
LeCun和李飞飞用数十亿美元的融资规模,向全世界宣告了世界模型和空间智能的方向确定性。
但方向确定之后,真正的竞争焦点会迅速转移到一个更底层的问题上——数据从哪里来?什么样的数据才真正有用?谁能以可持续的方式大规模生产它?
从两百万条、10,000+小时Human Experience数据集出发,Ropedia正在为Physical AI建立一套可持续扩展的「经验百科全书」。
更长远来看,一个令人兴奋的图景已经隐约可见:未来,当机器人真正走进千家万户时,每一台都需要被「教会」你家的洗碗机怎么用、冰箱怎么开、你的生活习惯是什么——就像你教一个新来的钟点工熟悉环境一样,只不过这一次你教的是AI。
这个「教」的过程,本质上就是Human Experience的持续采集、结构化和闭环。
它所蕴含的,是一个比今天能想象到的大得多的数据基础设施市场。
当机器第一次能够系统性地学习人类如何在空间中行动并改变世界,Physical AI的真正时代,才会拉开帷幕。
One more thing,
值得一提的是,这次发布所记录下的人类双手与运动距离总和,就已经足够绕地球一圈 :)
参考资料:
https://ropedia.com/blog/20251216_introducing_ropedia
本文来自微信公众号“新智元”,编辑:定慧 犀牛 ,36氪经授权发布。




