BridgeV2W
Search documents
中科第五纪联合中科院自动化所团队推出 BridgeV2W,让机器人学会"预演未来"
机器人大讲堂· 2026-02-12 09:15
想象一下,你面前摆着一杯咖啡,你伸手去拿,在你的手真正触碰到杯子之前,你的大脑已经在"脑补"了整 个过程:手臂将如何移动、杯子会是什么触感、抬起后桌面的样子……这种对未来场景的想象和预测能力, 正是人类操控世界的核心认知基石。 那么,能否赋予机器人同样的"预演能力",先在"脑海"中模拟动作后果,再付诸执行?这就是 具身世界模型 要做的事情:让机器人在行动前,就能"看见"未来。近年来,借助大规模视频生成模型(如Sora、Wan等) 强大的视觉先验,这一方向取得了令人瞩目的进展。 然而,一个尴尬的问题始终悬而未决: 视频生成模型的世界由像素编织而成,而机器人的语言却是关节角度 与位姿坐标,它们使用完全不同的"表征语言"描述同一个物理世界。 为了解决上述问题,具身智能公司中科第五纪联合中科院自动化所团队推出 BridgeV2W ,它通过一个极为 优雅的设计, 具身掩码(Embodiment Mask) ,一种由机器人动作渲染出的"动作剪影",将坐标空间的动 作无缝映射到像素空间,从而真正打通预训练视频生成模型与世界模型之间的桥梁,让机器人学会可靠 地"预演未来"。 这一设计,一举破解前述三大难题: 技术上,Brid ...
仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"
AI科技大本营· 2026-02-11 06:50
AI 科技大本营(ID:rgznai100) 想象一下,你面前摆着一杯咖啡,你伸手去拿,在你的手真正触碰到杯子之前,你的大脑已经在"脑补"了整个过程:手臂将如何移动、杯子会是什么触 感、抬起后桌面的样子……这种对未来场景的想象和预测能力,正是人类操控世界的核心认知基石。 那么,能否赋予机器人同样的"预演能力",先在"脑海"中模拟动作后果,再付诸执行?这就是具身世界模型要做的事情:让机器人在行动前,就能"看 见"未来。近年来,借助大规模视频生成模型(如Sora、Wan等)强大的视觉先验,这一方向取得了令人瞩目的进展。 然而,一个尴尬的问题始终悬而未决: 视频生成模型的世界由像素编织而成,而机器人的语言却是关节角度与位姿坐标,它们使用完全不同的"表征语 言"描述同一个物理世界。 为了解决上述问题,中科第五纪联合中科院自动化所团队推出 BridgeV2W,它通过一个极为优雅的设计,具身掩码(Embodiment Mask),一种由 机器人动作渲染出的"动作剪影",将坐标空间的动作无缝映射到像素空间,从而真正打通预训练视频生成模型与世界模型之间的桥梁,让机器人学会可 靠地"预演未来"。 「以棱镜之思,折射 AI 研究 ...