Physical Intelligence团队正式发布π*0.6！VLA+强化学习训练

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Physical Intelligence团队编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。 11月17号！Physical Intelligence团队正式发布，从经验中学习的VLA。项目链接：https://www.pi.website/blog/pistar06 论文链接：https://www.pi.website/download/pistar06.pdf VLA模型如何通过强化学习在现实部署中实现自我改进？提出了一种通用方法RECAP：基于经验与校正的优势条件策略强化学习，该方法通过优势条件机制实现VLA模型的强化学习训练。该方法将异构数据整合到自我改进过程中，包括演示数据、在线收集数据以及在自主执行期间专家远程干预数据。RECAP方法首先通过离线强化学习预训练通用型 VLA模型（记为），该模型随后可通过机器人现场数据收集实现下游任务的专业化性能提升。实验表明 ...