中科第五纪联合中科院自动化所团队推出 BridgeV2W，让机器人学会"预演未来"

想象一下，你面前摆着一杯咖啡，你伸手去拿，在你的手真正触碰到杯子之前，你的大脑已经在"脑补"了整个过程：手臂将如何移动、杯子会是什么触感、抬起后桌面的样子……这种对未来场景的想象和预测能力，正是人类操控世界的核心认知基石。那么，能否赋予机器人同样的"预演能力"，先在"脑海"中模拟动作后果，再付诸执行？这就是具身世界模型要做的事情：让机器人在行动前，就能"看见"未来。近年来，借助大规模视频生成模型（如Sora、Wan等）强大的视觉先验，这一方向取得了令人瞩目的进展。然而，一个尴尬的问题始终悬而未决：视频生成模型的世界由像素编织而成，而机器人的语言却是关节角度与位姿坐标，它们使用完全不同的"表征语言"描述同一个物理世界。为了解决上述问题，具身智能公司中科第五纪联合中科院自动化所团队推出 BridgeV2W ，它通过一个极为优雅的设计，具身掩码（Embodiment Mask），一种由机器人动作渲染出的"动作剪影"，将坐标空间的动作无缝映射到像素空间，从而真正打通预训练视频生成模型与世界模型之间的桥梁，让机器人学会可靠地"预演未来"。这一设计，一举破解前述三大难题：技术上，Brid ...