清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案
具身智能之心·2025-11-03 00:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Kang Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人视觉 - 语言 - 动作(VLA)领域,"大规模强化学习(RL)适配流式模型" 一直是难以跨越的鸿沟 ——现有方案要么受限于监督微调(SFT)的数据集依 赖,面对新任务泛化能力骤降;要么因流式模型迭代去噪过程的 "动作对数似然难计算" 问题,无法将 RL 的环境交互优势融入其中。 而来自清华大学、北京大学、中科院自动化所等团队联合提出的 ,用 "Flow-Noise 与 Flow-SDE 双算法 + 并行仿真训练" 的创新框架,打破了这一僵局:既解决 了流式 VLA 模型的 RL 适配难题,又通过在线交互大幅提升模型性能与泛化性,最终在多任务基准测试中实现 "从 SFT 瓶颈到近满分性能" 的突破。 为什么要重新定义流式 VLA 模型的训练范式? 这些方案都忽略了一个关键:流式 VLA 模型(如 、 )凭借 " ...