碾压π0.5,复旦团队首创「世界模型+具身训练+强化学习」闭环框架
机器之心·2025-12-04 08:18
张家辉,复旦大学大数据学院博士三年级学生,研究方向为具身智能、视觉 - 语言 - 动作模型预训练与强化 学习后训练,4D-VLA (NeurIPS 25) 第一作者。黄泽,复旦大学大数据学院博士三年级学生,主要从事机器 人世界模型与三维重建、生成等方向研究。两人共同担任本文第一作者。 张 力 , 复 旦 大 学 大 数 据 学 院 教 授 , 上 海 创 智 学 院 全 时 导 师 , 担 任 本 论 文 的 通 讯 作 者 。 主 页 : https://lzrobots.github.io Vision–Language–Action(VLA)策略正逐渐成为机器人迈向通用操作智能的重要技术路径:这类策略能够 在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。 然而,当前大多数 VLA 仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化 或操作时域拉长时,极易出现误差累积并导致任务失败。强化学习(RL)从回报信号出发直接优化任务成 功率,按理应当能够缓解这一目标错配问题,但在真实机器人上开展在线 RL 成本高昂,并行执行受限,还 伴随大量重置与标注开销;以 π*0.6 为代表的 ...