ICLR 2026|在「想象」中进化的机器人:港科大×字节跳动Seed提出WMPO,在世界模型中进行VLA强化学习
机器之心·2026-03-02 03:06
香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO(World Model-based Policy Optimization),正是这样一种让具身智能在 "想象中训练" 的新范式。 该方法无需在真实机器人上进行大规模强化学习交互,却能显著提升策略性能,甚至涌现出 自我纠错(Self-correction) 行为。该文章目前已被 ICLR 2026 接收, 目前,论文、代码与模型均已开源。 论文标题: WMPO: World Model-based Policy Optimization for Vision-Language-Action Models 项目网站:https://wm-po.github.io 论文链接: https://arxiv.org/abs/2511.09515 论文代码:https://github.com/WM-PO/WMPO 论文第一作者朱方琪是香港科技大学博士生,研究方向包括世界模型,具身智能,多模态大模型等。第二作者为香港科技大学研究型硕士生严正阳。通讯作者为 香港科技大学计算机科学及工程系讲座教授郭嵩教授以及字节跳动 Seed 团队马骁。 传统 ...