全球强化学习+VLA范式,PI*0.6背后都有这家公司技术伏笔
具身智能之心·2025-12-13 01:02

以下文章来源于具身纪元 ,作者具身纪元 具身纪元 . 见证具身浪潮,书写智能新纪元 编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 在 Physical Intelligence 最新的成果 π 0.6 论文里,他们介绍了 π 0 .6 迭代式强化学习的思路来源: 其中有我们熟悉的 Yuke Zhu 的研究,也有他们自己(Chelsea Finn、Sergey Levine)的一些研究,我们之前对这些工作一直有跟踪和介绍。此外,还 有来自国内具身智能团队的工作,比如清华大学、星动纪元的研究。 随着 π0.6 的发布,VLA+online RL 成为了一个行业共识的非常有前景的研究方向 ( 深扒了Π0.6的论文,发现它不止于真实世界强化学习 、 英伟达也来做VLA在真实世界自我改进的方法了 )大语言模型从SFT到RL的发展方向也逐渐 在具身研究中清晰明朗。 一、为什么VLA+RL很重要 图注:VLA模型依赖研读微调 在具身智能(Embodi ...