蚂蚁灵波开源 LingBot-World：打造具身智能的“实时可交互”世界模型

2026年1月29日 14:59·AIBase

人工智能

世界模型

具身智能

继空间感知与具身大模型之后，蚂蚁灵波团队正式开源了其交互式世界模型LingBot-World。该模型旨在为具身智能、自动驾驶等领域提供一个高保真、逻辑一致且可实时操控的“数字演练场”。

LingBot-World 解决了具身智能训练中“真机数据稀缺、成本高昂”的核心痛点。通过在虚拟环境中模拟物理规律，智能体可以进行低成本的“试错”，并将习得的行为因果关系迁移至现实世界。

该模型展现出多项突破性技术特性:

长时序一致性:实现了近10分钟的连续稳定生成。即使镜头移开60秒后返回，场景中的物体结构与外观依然保持一致，有效解决了视频生成中的“细节塌陷”问题。
高保真实时交互:支持动作驱动生成（Action-conditioned generation），生成吞吐量约 16FPS，端到端交互延迟控制在 1秒以内。用户可通过键盘、鼠标或文本指令实时改变环境，如调整天气或视角。
Zero-shot 泛化能力:采用混合数据策略，结合网络视频与虚幻引擎（UE）合成管线进行训练。用户仅需输入一张真实的城市照片或游戏截图，模型即可生成对应的可交互视频流，无需针对特定场景额外训练。

目前，蚂蚁灵波团队已将LingBot-World的模型权重及推理代码全面开源。

Website:

https://technology.robbyant.com/lingbot-world

Model:

https://www.modelscope.cn/collections/Robbyant/LingBot-world

https://huggingface.co/collections/robbyant/lingbot-world

Code:

https://github.com/Robbyant/lingbot-world

蚂蚁灵波开源世界模型LingBot-World，高保真高动态，毫秒级实时交互

蚂蚁灵波发布开源世界模型LingBot-World，该模型具备高保真和高动态特性，能够实现毫秒级的实时交互，为AI应用提供了强大的底层支持。

蚂蚁集团开源可交互的世界模型 LingBot-World，该模型能够根据单张图像生成可交互的3D游戏场景，展示了人工智能在内容生成与交互式环境构建方面的前沿应用。

蚂蚁集团开源了 LingBot-Depth 空间感知模型和 LingBot-VLA 具身大模型，旨在推动AI在空间理解和具身智能领域的发展与应用。

蚂蚁灵波开源了LingBot-VA，这是一个将世界模型应用于物理世界的机器人项目。该技术让机器人具备“先思后行”的能力，通过模拟和预测环境变化来规划和执行更智能、更安全的行动。

蚂蚁集团开源了其具身大模型LingBot-VLA，并全面开放了后训练代码，旨在推动具身智能技术的开源发展，让研究成果真正可被社区使用和迭代。

蚂蚁集团旗下灵波科技开源了具身大模型 LingBot-VLA，并同步开放了其用于模型后训练的工具链，旨在推动具身智能技术的研发与应用。