Workflow
NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow,用在线RL微调机器人流匹配策略
机器之心·2025-10-20 09:15

作者简介:本文第一作者为卡耐基梅隆大学机器人所研究生 Tonghe Zhang,主要研究方向为机器人操作大模型和全身控制算法。合作者为德克萨斯大学奥斯汀分 校博士生 Sichang Su, 研究方向为强化学习和通用机器人策略。指导教师是清华大学和北京中关村学院的 Chao Yu 教授以及清华大学 Yu Wang 教授。 今年,流匹配无疑是机器人学习领域的大热门:作为扩散模型的一种优雅的变体,流匹配凭借简单、好用的特点,成为了机器人底层操作策略的主流手段,并被 广泛应用于先进的 VLA 模型之中 —— 无论是 Physical Intelligence 的 ,LeRobot 的 SmolVLA, 英伟达的 GR00T 和近期清华大学发布的 RDT2。 想要进一步增强开源 VLA 模型的能力,除了增加数据多样性,强化学习也是一种高度有效的方法。来自卡内基梅隆大学、清华大学和德克萨斯大学奥斯汀分校的 研究团队提出了一个用于 微调流匹配策略的在线强化学习框架 ReinFlow, 该工作已被 NeurIPS 2025 接收,并开源了详细的复现教程,包括代码、训练权重、和 训练结果。 | WEBSITE VISIT DO ...