全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
机器之心·2025-12-12 03:41
机器之心发布 机器之心编辑部 在 Physical Intelligence 最新的成果 π 0.6 论文里,他们介绍了 π 0 .6 迭代式强化学习的思路来源: 图注:VLA模型依赖研读微调 在具身智能(Embodied AI)领域,科学家们正在尝试将强大的视觉-语言模型(VLM)应用到机器人的底层控制中,这就是所谓的VLA模型。 通常,这些 模型是通过模仿人类专家的示范数据(监督微调,SFT)来学习的。 其中有我们熟悉的 Yuke Zhu 的研究,也有他们自己(Chelsea Finn、Sergey Levine)的一些研究,我们之前对这些工作一直有跟踪和介绍。此外,还有 来自国内具身智能团队的工作,比如清华大学、星动纪元的研究。 随着 π0.6 的发布,VLA+online RL 成为了一个行业共识的非常有前景的研究方向 ( 深扒了Π0.6的论文,发现它不止于真实世界强化学习 、 英伟达也来做VLA在真实世界自我改进的方法了 )大语言模型从SFT到RL的发展方向也逐渐在具 身研究中清晰明朗。 一、为什么VLA+RL很重要 但是,仅靠模仿是不够的。 如果机器人遇到了从未见过的情况,或者专家数据不够完美 ...