OpenClaw不会蛋炒饭，Ropedia放出人类经验，机器人「教科书」来了

2026年3月17日 15:24·36kr

【导读】当LeCun和李飞飞各自拿下10亿美元押注世界模型时，一个更底层的问题浮出水面：谁来为Physical AI提供真正能用的数据？Ropedia给出的答案，不是更多视频，而是一部结构化的、来自真实世界的「经验百科全书」。

最近，AI圈最热的一件事情就是，玩OpenClaw。

OpenClaw似乎无所不能：写代码、出报告、改方案、查资料。

但有一件事，OpenClaw做不到——它没办法帮你去厨房炒一盘蛋炒饭。

但当AI试图进入物理世界，一个隐藏已久的问题开始浮出水面：

机器人学习的数据在哪里，人类在真实世界中的经验和经历如何变成「高质量数据」？

2026年，AI世界的风向标开始转向了同一个方向：如何让智能真正走进真实物理世界。

给Physical AI一套，真正的「经验底座」

对于AI发展的路线之争，图灵奖得主Yann LeCun的坚持代表了一种态度，资本也给出的回应。

他离开Meta后创办的AMI Labs，以35亿美元估值拿下10.3亿美元种子轮——刷新欧洲AI创业史上最大种子轮纪录。

贝索斯、英伟达、三星、施密特，半个硅谷都在他的投资人名单上。

LeCun说得直白：「世界模型将成为下一个热词。六个月后，每家公司都会自称是世界模型来融资。」

就在AMI Labs官宣的两周前，「AI教母」李飞飞的World Labs刚刚完成10亿美元融资，估值飙至50亿美元。

AMD和英伟达两大芯片巨头同时入局，Autodesk更是一口气掏出2亿美元战略投资。

李飞飞在年初的访谈中反复强调一个判断：空间智能，是AI的下一个前沿。

两位学术界最具号召力的人物，不约而同押下了同一注：让AI理解真实的物理世界。

这是一个时代的信号。

从语言智能到物理智能：中间差了一座「数据大桥」

过去十年，AI的飞跃建立在互联网规模的文本、图像和视频之上。

大模型学会了理解语言、识别场景、生成内容，智能第一次大规模走入了人们的生活。

但当AI试图进一步踏入物理世界，问题开始变得截然不同。

机器人不仅要「看见」，还要「行动」；不仅要识别一个厨房长什么样，还要理解人在其中如何移动、如何操作、如何跟物体发生交互，以及每一个动作会带来什么物理后果。

这意味着，下一代智能系统——包括空间智能、具身智能、世界模型和Physical AI——需要的已经不只是更多视频，而是更接近人类真实行动过程的经验数据（Experience）。

可问题在于：这样的数据，几乎不存在。

今天互联网上有海量的视频，但绝大多数只是「被动观看」的素材——缺少深度信息、缺少空间结构、缺少手部交互轨迹、缺少动作与后果之间的因果关联。

对于想要在物理世界中执行任务的AI来说，一千小时的YouTube视频，远远不如一小时结构化的人类真实交互经验有用。

英伟达今年2月发布的EgoScale研究，用超过20,000小时的第一视角人类视频训练VLA模型，发现了一条近乎完美的对数线性Scaling Law——人类数据规模每扩大一倍，模型性能就稳定提升。

这第一次用硬数据证明了：大规模人类经验数据，是机器人学习灵巧操作的可预测监督来源。

谁能持续产出高质量结构化的人类经验数据，谁就握住了下一个智能时代的燃料。

但是，机器的养料，不该局限于枯燥的「工厂操作指南」，而更该是一部包罗万象的「人类经验百科」。

如同《黑客帝国》中多个版本的Neo救世主

真实世界的互动，充满了鲜活的复杂与多元。

一千万条Human Experience：一部「人类经验百科全书」

正是在这个背景下，Ropedia正式发布了一千万条，约10,000+小时的Human Experience数据集——Xperience-10M，并将以开放的方式向研究者公布。

现在，Xperience-10M已在Hugging Face上开源。

huggingface链接：https://huggingface.co/datasets/ropedia-ai/xperience-10m

正如「Ropedia」这个名字所承载的野心与浪漫——

为Robot（机器人）撰写一部全景式的Encyclopedia（百科全书），将人类流动的生命经验，化作AI跨越时代的通用底座。

这不是一套传统意义上的原始采集数据。

他们想做的不是「上传一批视频」，而是为机器构建一部通往物理世界的「经验百科全书」。

为什么叫「百科全书」？

因为对于具身智能和世界模型来说，真正缺的不是某一种信号，而是一整套多维度、多模态、像百科全书一样完整的数据——它需要有物理信息、三维空间信息、交互意图、行为轨迹，所有这些维度拼凑在一起，才能构成一幅生动写实的图景，而不是一个视频合集。

在同一段轨迹中，Ropedia同时提供了五个核心维度的数据：

视觉流信息（RGB第一视角连续观察，360°第一视角采集）
空间信息（深度、空间结构、环境拓扑）
动作信息（全身动作、手部灵巧操作、交互轨迹）
交互信息（人与物、人与场景、人与任务之间的作用关系）
以及语义信息（任务描述、状态变化、原子动作、行为意图）

更关键的是，这些维度并不是后期「拼起来」的，而是被统一对齐在同一时间轴和同一结构框架下。

视觉与动作天然同步，语义与物理变化可以对应，行为路径与空间结构可以追溯，整个任务执行过程都可以被重放、建模和学习。

这正是Ropedia与市面上大量数据集最本质的区别：它交付的不是一堆原始素材，而是一套真正可以直接喂入模型训练环节的结构化智能数据。

什么是4D Physical World？

在Ropedia的定义里，4D并不只是「3D加上时间」。

它真正指向的是一个更完整的框架：3D + Time + Interaction + Consequence。

拆开来看，就是四个维度的闭环——

空间（Where）：智能体身处何处，周围环境结构如何；

行动（How）：它如何移动、如何接触、如何操控；

交互（With What）：它和什么对象发生了作用；

后果（What Changes）：这些动作带来了怎样真实可观测的物理变化。

这四个维度，构成了机器理解物理世界的最小闭环。

道理很简单：如果没有交互，时间只是一段录像；如果没有后果，动作只是一条轨迹。

只有当「行为如何改变世界」这个信息被写入数据本体，Physical AI才真正拥有了学习现实的基础。

从这个意义上说，Ropedia发布的不只是一个数据集，更像是在定义一种面向具身智能的新型数据标准。

HOMIE：把人类经验采集，做成像戴眼镜一样自然

有了数据标准还不够，更核心的问题是：这样的数据从哪里来？

今天行业里不乏数据采集的努力。

特斯拉的Optimus项目招募大量人员，在专用设施里穿着动捕服反复做洗碗、叠衣服等动作，摄像头从最初的四个扩展到六个再到八个。

Figure则让操作者头戴Vision Pro进行遥操作数据采集。

这些方案各有所长，但都面临一个共同的限制：它们严重依赖专业设备和受控环境。

采集只能发生在Tesla的数据工厂里、Figure的样板房里、实验室的可控场景里。

一旦换一个不同的环境——整套数据闭环的能力就急剧下降。

真正的泛化，需要的是在真实世界的千千万万个末端场景里完成数据闭环。

为此，Ropedia早在2025年发布了自己的端到端采集平台——HOMIE。

HOMIE不是单一硬件，而是一整套围绕「无感化、可扩展、长期可用」设计的「人类经验捕捉系统」。

它的核心特点在于两个「不依赖」：不依赖重型专业设备，不依赖外部第三人称视角相机。

用户只需佩戴一个轻量化的头戴式多模态采集设备，就可以回到日常生活和工作环境中自然地完成数据采集。

这意味着高质量数据的闭环，可以真实地发生在每一个末端场景里——你家的厨房、办公桌、工厂产线、医院护理站——而不只是一间样板房或数据工厂。

HOMIE支持长时间佩戴、具备稳定的自运动追踪与定位能力、多传感器精准同步，以及面向真实世界任意场景的规模化部署。

从外部看，这是一套硬件采集系统；但从Ropedia的战略来看，它更像是「物理世界百科全书」的入口层，持续把真实世界中的人类行为转化为可被机器理解的知识单元。

真正拉开差距的，是结构化标注能力

但是，原始经验并不天然等于智能数据。

这是Ropedia反复强调的核心观点。

市面上不乏数据采集的方案——有人采了很多视频，随手放到网上，拼的是时长和体量。

但这种做法很容易沦为「又一个互联网数据集」。

有数据不等于「有用的数据」。没有高质量、结构化、可对齐的标注体系，海量采集只是一堆噪声。

Ropedia真正的核心竞争力，在于它背后那套空间基础模型（Spatial Foundation Model）与自动标注体系。

这套系统类似于特斯拉FSD的数据飞轮逻辑：

FSD最大的优势不在于某一版硬件有多强，而在于它能够产生数据飞轮效应——车辆在路上跑的同时不断回灌数据，持续提升模型在长尾场景下的能力。

Ropedia的数据管线也遵循同样的思路。

它并不纯依赖硬件——因为硬件迭代是慢的，哪怕以深圳速度也要三到六个月一版——而是依赖自研的空间基础模型来驱动整条数据管线。

几百上千名采集人员在外场采集的数据，一方面交付给下游客户使用，另一方面也在闭环Ropedia自身模型的能力。

模型越强，标注质量越高；标注质量越高，模型又进一步提升。

这种飞轮效应，使得Ropedia的数据质量迭代速度远超传统的硬件驱动或人力标注方式。

目前，这套系统已覆盖的关键能力包括：空间定位与深度恢复、手—物交互追踪、全身动作捕捉、物体与场景语义理解、任务描述与状态变化建模，以及更多持续扩展中的结构化维度。

换句话说，Ropedia真正交付的不是「我们拍到了很多」，而是「我们能把真实经验稳定地转译成高质量智能数据」。

这是它与大量无结构采集方案之间的关键分水岭。

「经验百科全书」如何重新定义机器人数据采集？

站在具身智能和世界模型的前沿来看，Ropedia发布的这套Human Experience数据集，实际上触及了一个整个行业悬而未决的根本性问题：

机器人要从什么样的数据中学会在物理世界里行动？

回顾机器人领域数据采集的演进脉络，你会发现它经历了三个清晰的阶段：

第一阶段是仿真数据主导。 在NVIDIA Isaac、MuJoCo等仿真器中生成大量虚拟轨迹，优势是成本极低、可无限复制，但致命缺陷是sim-to-real gap——仿真中完美运行的策略，一旦部署到真实世界就大幅退化。

第二阶段是遥操作（teleoperation）数据兴起。 Tesla Optimus招募大量人员在样板房里用人体动捕设备遥控机器人执行任务，Figure等公司用Vision Pro做数据采集，RT-2、ALOHA等项目也大量依赖遥操作。

这种方式的优势是动作数据直接来自真实机器人执行，可以端到端训练，但瓶颈同样明显——成本极高、采集不具备可扩展性，最关键的是，它只能在可控环境中进行，永远无法覆盖真实世界千变万化的长尾场景。

你可以在Tesla的数据工厂里搭一个标准厨房，但你搭不出全世界几十亿家庭各不相同的厨房。

第三阶段，也是正在发生的范式转移，是以人为中心（human-centric）的经验数据。 不再用机器人采集数据，而是让人类在真实生活场景中自然行动，通过轻量化的可穿戴设备记录第一视角的多模态信息，然后将这些人类经验转化为机器可学习的结构化数据。

这个转变的底层逻辑，其实和自动驾驶行业的演进如出一辙。

早期Waymo的方案是在有限的城市中用昂贵的传感器车队采集数据，数据质量很高但规模上不去；后来Tesla用每一辆量产车的摄像头做「影子模式」，海量采集真实驾驶场景，用规模和多样性碾压了精采数据的稀缺性。

从「昂贵的专业采集」到「低成本、渗透式的规模化采集」，这条路径在自动驾驶领域已经被验证过一遍了。

机器人领域正在重走这条路。

英伟达的例子很有说服力。

EgoScale研究表明，当第一视角人类视频数据规模提升至20,854小时后，机器人策略性能呈现出清晰的规模化收益；与无预训练基线相比，平均成功率提升54%。

第一视角人类数据对机器人泛化与迁移能力的作用，已经从「辅助路线」走向「主路径」。

这些信号汇聚起来，指向一个不可逆转的行业共识：

如果你真想构建能泛化到任意场景的机器人基础模型，以人为中心的、来自真实世界的经验数据，是唯一能实现规模化的路径。

而Ropedia的「经验百科全书」范式，恰恰在这个历史转折点上，给出了一套完整的答案——不只是采集人类数据，而是将人类在真实世界中的完整经验链条（感知-意图-动作-交互-后果）结构化为机器可读、可训练、可泛化的4D物理世界数据。

这是对「机器人该从什么数据中学习」这个根本问题的一次重新定义。

一个新的Physical AI玩家

作为关注Physical AI和具身智能赛道的观察者，当我们在世界模型融资狂潮、机器人本体军备竞赛和基础模型混战的嘈杂声中，梳理整个产业链的关键节点时，Ropedia的出现引起了我们的注意。

它的独特之处，在于它不是任何一个我们熟悉的品类。

它不是模型公司——不做世界模型，不做VLA，不和LeCun的AMI Labs或李飞飞的World Labs竞争。

它也不是机器人本体公司——不造人形机器人，不和Figure、Tesla Optimus、1X、Unitree争夺硬件份额。

Ropedia更像一家数据科学公司（Data Science Company）。

在大语言模型时代，Scale AI和Surge AI的故事告诉我们一件事：数据基础设施的价值，往往被低估到令人吃惊的程度。

Scale AI靠拼规模和吞吐量做到了百亿美元估值，但最终Surge AI用不到十分之一的团队、零外部融资，凭借对数据质量近乎偏执的追求，在营收上反超了前者。

这个故事的教训很清楚——在AI基础设施的竞争中，理解「模型到底需要什么样的数据」，比单纯的数据体量更值钱。

Ropedia走的是同样的逻辑，但它面对的赛道更加底层，也更加关键。

大语言模型时代，Scale AI标注的是文本和图像——这些数据形态是二维的、静态的、结构相对简单的。

而Physical AI时代，数据是4D的——三维空间加时间加交互加后果，数据的复杂度和结构化难度呈指数级上升。

在这个新赛道里，「拍了多少视频」远不如「能把真实经验转化为多少高质量结构化数据」重要。

这恰恰是Ropedia的核心定位：它不生产模型，也不生产机器人，它生产让模型和机器人变得更聪明的「燃料」——而且是高辛烷值的、精炼过的、可以直接进入训练管线的燃料。

它的客户画像也印证了这一点：北美和英国的科技大厂、明星机器人初创公司、视觉模型公司、空间智能公司——都是Physical AI赛道上最前沿的玩家。

它们选择Ropedia，不是因为缺视频，而是因为缺高质量的结构化经验数据。

一个时代的基础设施正在被重新定义

回头来看，一条清晰的主线正在浮现。

过去，大模型依靠互联网成长。文本互联网塑造了语言智能，图像与视频互联网推动了视觉智能。

而下一个时代，Physical AI需要的将不是另一套内容平台，而是一套能够持续积累、持续组织、持续更新的人类经验基础设施。

如果说过去的互联网沉淀的是「人类说了什么、写了什么、拍了什么」，那么属于Physical AI的基础设施，需要沉淀的是一个更加本质的东西：人类如何在真实世界中行动、交互，并改变世界。

LeCun和李飞飞用数十亿美元的融资规模，向全世界宣告了世界模型和空间智能的方向确定性。

但方向确定之后，真正的竞争焦点会迅速转移到一个更底层的问题上——数据从哪里来？什么样的数据才真正有用？谁能以可持续的方式大规模生产它？

从两百万条、10,000+小时Human Experience数据集出发，Ropedia正在为Physical AI建立一套可持续扩展的「经验百科全书」。

更长远来看，一个令人兴奋的图景已经隐约可见：未来，当机器人真正走进千家万户时，每一台都需要被「教会」你家的洗碗机怎么用、冰箱怎么开、你的生活习惯是什么——就像你教一个新来的钟点工熟悉环境一样，只不过这一次你教的是AI。

这个「教」的过程，本质上就是Human Experience的持续采集、结构化和闭环。

它所蕴含的，是一个比今天能想象到的大得多的数据基础设施市场。

当机器第一次能够系统性地学习人类如何在空间中行动并改变世界，Physical AI的真正时代，才会拉开帷幕。

One more thing,

值得一提的是，这次发布所记录下的人类双手与运动距离总和，就已经足够绕地球一圈 :)

参考资料：

https://ropedia.com/blog/20251216_introducing_ropedia

本文来自微信公众号“新智元”，编辑：定慧犀牛，36氪经授权发布。

OpenClaw不会蛋炒饭，Ropedia放出人类经验，机器人「教科书」来了

给Physical AI一套，真正的「经验底座」

从语言智能到物理智能：中间差了一座「数据大桥」

一千万条Human Experience：一部「人类经验百科全书」

什么是4D Physical World？

HOMIE：把人类经验采集，做成像戴眼镜一样自然

真正拉开差距的，是结构化标注能力

「经验百科全书」如何重新定义机器人数据采集？

一个新的Physical AI玩家

一个时代的基础设施正在被重新定义

相关文章

大事不好：机器人学会预测未来了

今年春晚，机器人继续扭秧歌，还是炒菜做饭？

红杉资本合伙人放话：从会聊到会干，2026年AGI已经来了

GitHub 上，人类已经干不过 AI 了

张亚勤院士预测：未来 10 年机器人数量会超过人类，人类工资不减反增，未来只需一周工作 2 天

OpenAI GPT-5.2 参与理论物理研究：打破教科书中的“不可能”，提出胶子振幅通式并经形式化证明验证