打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来
机器之心·2026-03-26 06:47

机器之心发布 近期,利用视频生成模型为机器人构建 "世界模型",已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令,这类模型能够先 "想象" 出未来的视觉 轨迹,再由逆动力学模型(IDM)将生成画面解码为机器人动作,从而形成 "先预测、后执行" 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜 力,这一路线正在受到学术界和工业界的广泛关注。 然而,这一看似理想的范式背后,却隐藏着一个关键瓶颈:生成的视频未必对应真实可执行的动作序列,即所谓的 " 可执行性鸿沟"(Executability Gap) 。 针对这一问题,香港中文大学(深圳)与跨维智能的研究团队提出了一种全新的强化学习后训练框架 —— Executable Video Alignment (EVA) 。该框架创新性地将 逆动力学模型转化为奖励模型,通过强化学习直接优化视频生成过程, 使生成结果不仅 "看起来真实",更 "动起来可行" 。 这也表明, 真正服务于机器人的世界模型不能只停留在二维视觉预测层面,而应进一步融入对世界物理的建模;本工作正是跨维智能此前提出的 GS-World 及其 开源工具 EmbodiChain 所提出的 ...

打破具身世界模型可执行性鸿沟 !港中深-跨维智能团队提出EVA框架,用强化学习让视频世界模型真正“动”起来 - Reportify