打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

机器之心发布近期，利用视频生成模型为机器人构建 "世界模型"，已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令，这类模型能够先 "想象" 出未来的视觉轨迹，再由逆动力学模型（IDM）将生成画面解码为机器人动作，从而形成 "先预测、后执行" 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力，这一路线正在受到学术界和工业界的广泛关注。然而，这一看似理想的范式背后，却隐藏着一个关键瓶颈：生成的视频未必对应真实可执行的动作序列，即所谓的 " 可执行性鸿沟"（Executability Gap）。针对这一问题，香港中文大学（深圳）与跨维智能的研究团队提出了一种全新的强化学习后训练框架 —— Executable Video Alignment (EVA) 。该框架创新性地将逆动力学模型转化为奖励模型，通过强化学习直接优化视频生成过程，使生成结果不仅 "看起来真实"，更 "动起来可行" 。这也表明，真正服务于机器人的世界模型不能只停留在二维视觉预测层面，而应进一步融入对世界物理的建模；本工作正是跨维智能此前提出的 GS-World 及其开源工具 EmbodiChain 所提出的 ...