Workflow
Rlinf
icon
Search documents
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 00:25
点击下方 卡片 ,关注" 具身智能 之心 "公众号 最近在盘VLA+RL的工作,不管是基于世界模型的在线方案,还是offline,VLA好像始终离不开RL。仅依赖 模仿学习的 VLA 在真实世界 OOD 场景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。强化学习 (RL)的优势在于能够显著提升VLA模型的泛化能力,一些工作的实验显示分布外任务上的性能提升可达 42.6%。有效果,就有很多工作继续跟进,今年产出了好多篇paper~ 近期的几个工作,包括wholebodyvla、pi0.6、GR-RL都取得了惊艳的效果,pi0.6推出的时候很多同学说大概 率就是+强化。世界模型加持的在线系统也是比较活跃的方向,期望有更多突破。 工具上,VLA+RL框架也在逐渐完善,这里也推荐下于超老师那边的Rlinf,支持的方法越来越多。 链接:https://github.com/RLinf/RLinf 由于相关工作众多,这里给大家分享一些这两年比较有代表性的VLA+RL工作,这些paper陆续被不同的会 议收录。 ❝ 我们也建议后续的研究可以往此方向靠拢,如果不知道怎么展开研究也欢迎咨询具身智能之心的科研助理,一 键启动 ...
今年大概率产了n篇VLA+RL工作吧?!
自动驾驶之心· 2025-12-23 03:43
最近在盘VLA+RL的工作,不管是基于世界模型的在线方案,还是offline,VLA好像始终离不开RL。仅依赖 模仿学习的 VLA 在真实世界 OOD 场景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。强化学习 (RL)的优势在于能够显著提升VLA模型的泛化能力,一些工作的实验显示分布外任务上的性能提升可达 42.6%。有效果,就有很多工作继续跟进,今年产出了好多篇paper~ 点击下方 卡片 ,关注" 具身智能 之心 "公众号 近期的几个工作,包括wholebodyvla、pi0.6、GR-RL都取得了惊艳的效果,pi0.6推出的时候很多同学说大概 率就是+强化。世界模型加持的在线系统也是比较活跃的方向,期望有更多突破。 工具上,VLA+RL框架也在逐渐完善,这里也推荐下于超老师那边的Rlinf,支持的方法越来越多。 链接:https://github.com/RLinf/RLinf 由于相关工作众多,这里给大家分享一些这两年比较有代表性的VLA+RL工作,这些paper陆续被不同的会 议收录。 ❝ 我们也建议后续的研究可以往此方向靠拢,如果不知道怎么展开研究也欢迎咨询具身智能之心的科研助理,一 键启动 ...
聊聊关于 Agentic RL 训推框架的一点看法和思考
自动驾驶之心· 2025-12-16 00:03
作者 | 浮生梦晓@知乎 转自 | 对比现有的 RL 训练框架! 我一直想找一个社区活跃度比较高,对于环境适配代码相对修改较少的框架,这里直接说,最后选择了 AReaL。 (我的具体业务环境不展开说了,简单来说是需要每个训练样本都有不同的环境状态,除了模型的输出内容去环境里 执行动作以外,还需要框架会话与环境多次交互,这一点就卡死了大部分 RL 框架的 agent loop 控制流,当然除非 做侵入式代码修改,但框架更新后 rebase 又很麻烦) 原文链接: https://zhuanlan.zhihu.com/p/1979237927641949997 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,已获转载授权 ,欢迎添加小助理微信AIDriver004做进一步咨询 前 段 时 间 调 研 了 一 些 RL 训 练 框 架 , 目 前 开 源 社 区 的 RL 训 练 框 架 可 以 说 百 花 齐 放 , 老 牌 的 有 openlhf 、 trl 、 unsloth、verl。还有今年新开源的 slime、AReaL、Rlinf、RL2、ROL ...