Workflow
强化学习(RL)
icon
Search documents
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
机器之心· 2026-01-13 04:08
"软工任务要改多文件、多轮工具调用,模型怎么学透?高质量训练数据稀缺,又怕轨迹含噪声作弊?复杂 RL 训练成本高,中小团队望而却步?" 华为研究团队推出 SWE-Lego , 仅基于监督微调(SFT)的软件工程代码智能体,无需复杂 RL 流程,在 SWE-bench Verified 基准中斩获同等规模开源模型 SOTA,甚至超越部分更大规模闭源模型!项目已开源,代码、模型和 全部数据一键获取 ! SWE-Lego 具有 三大创新,包括数据、训练和测试时扩展。 1. 混合数据集构建: 3. 测试时扩展策略(TTS): 引言 在软件工程领域,Code Agent 需要处理复杂的任务:修复 bug、重构代码、理解大型代码库。这些任务要求 Code Agent 具备 长序列推理、多文件操作和工具使用 等能力。现有的训练方法通常需要复杂的训练范式,比如强化学习(RL)或者 RL 和 SFT 的迭代组合。 这些方法虽然有效,但计算成本高,训练过程复杂。能否用更简单的方法达到同样的效果? 华为的研究团队提出了 SWE-Lego,一个仅基于监督微调(SFT)的软工代码模型的解决方案 。在 SWE-bench Verifie ...
当我们把VLA+RL任务展开后......
具身智能之心· 2026-01-12 03:36
强化学习的出现为VLA带来了新的解决思路。RL并不是一门新的学科,但RL的优势为VLA提供了从"理 解"走向"执行优化"的关键机制。通过引入奖励或价值信号,RL可以在保持VLA感知与语言能力的同时,对 动作策略进行闭环优化,弥补模仿学习在分布外状态和误差累积上的不足。 纯模仿学习的 VLA,本质是在"复制数据分布"。一旦环境、物体、初始状态发生变化,就容易崩。很多 失败是连续动作误差累积导致的。RL提供的是闭环优化能力:用环境反馈修正动作,用value/reward信号 约束长时序行为。 当前的研究趋势也逐渐从"单纯训练 VLA 模型"转向"以 VLA 作为策略表示,结合RL进行微调和强化",包 括离线 RL 提升样本效率、层级 RL 约束长时序行为,以及基于视觉和语言的自监督反馈建模等方向。 方法上,目前VLA+RL主要分为在线RL、离线RL、test-time三种方案。 paper多,想入坑的人也多了起来...... 如果说今年哪个方向最受欢迎,一定是VLA+RL。 VLA模型为具身智能带来了新的交互范式:机器人不再依赖精确定义的状态和规则,而是通过视觉感知环 境、理解语言指令,并直接生成动作序列。这一能 ...
RL是怎么赋能VLA的?
具身智能之心· 2026-01-09 00:55
如果说今年哪个方向最受欢迎,一定是VLA+RL。 VLA模型为具身智能带来了新的交互范式:机器人不再依赖精确定义的状态和规则,而是通过视觉感知环 境、理解语言指令,并直接生成动作序列。这一能力极大地降低了任务描述和系统设计的门槛,使机器人 能够应对更加开放和复杂的场景。 当前的研究趋势也逐渐从"单纯训练 VLA 模型"转向"以 VLA 作为策略表示,结合RL进行微调和强化",包 括离线 RL 提升样本效率、层级 RL 约束长时序行为,以及基于视觉和语言的自监督反馈建模等方向。 方法上,目前VLA+RL主要分为在线RL、离线RL、test-time三种方案。 然而,在真实机器人系统中,VLA 往往仍然面临执行不稳定、对初始状态敏感、长时序任务易失败等问 题,其核心原因在于模型缺乏基于环境反馈的持续修正能力。 强化学习的出现为VLA带来了新的解决思路。RL并不是一门新的学科,但RL的优势为VLA提供了从"理 解"走向"执行优化"的关键机制。通过引入奖励或价值信号,RL可以在保持VLA感知与语言能力的同时,对 动作策略进行闭环优化,弥补模仿学习在分布外状态和误差累积上的不足。 纯模仿学习的 VLA,本质是在"复制数 ...
让机器人“舞得更好”的全身运控的方案还有哪些进化空间?
具身智能之心· 2026-01-04 00:32
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 ★ 继续具身智能之心上次的圆桌,我们为大家整理了机器人全身运控的一些insigts。这次主要探索RL+VLA、realsim2real、3DGS和仿真的一些问题,近万字分 享。 刘斯坦: 我们想聊一聊关于RL的事情,现在很多VLA的训练已经有点类似于标准化了,先进行模仿学习训练基座。然后基于一些仿真环境进行一些强化学习,就是跑最后的 是一公里或者十公里,最后的10%好像已经有一些这种标准化的一种训练的方式。我们如果看 deepseek R1。还有比如说最近提出的那个超级人工智能的一些图景的 话,其实全部都是关于RL的训练范式有关的创新,就是RL它不是一个简单的就是一个强化学习上,然后仿真环境去用了就结束了。它可能是涉及到一个非常复杂 的流程等等,我们想在第二个大问题的第一个小问题的讨论是关于RL训练范式的创新和未来发展的情况。首先,我们想就是问问张 ...
大模型“缩放定律”悖论:RL(强化学习)越强,AGI(通用智能)越远?
硬AI· 2025-12-24 08:10
知名科技博主犀利指出,各大实验室通过RL(强化学习),耗资数十亿美元让大模型"排练"Excel、网页操作等技能,恰 恰暴露其距真正AGI仍远。若AI真接近类人智能,就该像人类一样从经验中自主学习,而非依赖"可验证奖励训练"。而真 正突破在于"持续学习"能力,这一过程或需5-10年才能完善。 硬·AI 作者 | 龙 玥 编辑 | 硬 AI 在人工智能迈向通用智能(AGI)的竞赛中,当前最受追捧的强化学习(RL)路径,可能正将我们引向一 条歧路——RL越强,距离真正的AGI或许越远。 12月24日,知名科技博主、Dwarkesh Podcast博客主持人Dwarkesh Patel今日发布了一则引发行业深思 的视频,直击当前大模型发展的痛点。在硅谷普遍对Scaling Law(缩放定律)和RL(强化学习)持极度 乐观态度的背景下,Patel提出了一个反直觉的犀利观点: 对RL(强化学习)的过度依赖和投入,可能非 但不是通往AGI的捷径,反而是其远未到来的明确信号。 Patel的核心论点在于,当前顶尖AI实验室正耗费巨资,通过基于可验证结果的强化学习,为大模型"预 制"大量特定技能,例如操作Excel或浏览网页。然 ...
今年的VLA+RL的工作正在排队等着录用......
具身智能之心· 2025-12-24 00:25
点击下方 卡片 ,关注" 具身智能 之心 "公众号 最近在盘VLA+RL的工作,不管是基于世界模型的在线方案,还是offline,VLA好像始终离不开RL。仅依赖 模仿学习的 VLA 在真实世界 OOD 场景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。强化学习 (RL)的优势在于能够显著提升VLA模型的泛化能力,一些工作的实验显示分布外任务上的性能提升可达 42.6%。有效果,就有很多工作继续跟进,今年产出了好多篇paper~ 近期的几个工作,包括wholebodyvla、pi0.6、GR-RL都取得了惊艳的效果,pi0.6推出的时候很多同学说大概 率就是+强化。世界模型加持的在线系统也是比较活跃的方向,期望有更多突破。 工具上,VLA+RL框架也在逐渐完善,这里也推荐下于超老师那边的Rlinf,支持的方法越来越多。 链接:https://github.com/RLinf/RLinf 由于相关工作众多,这里给大家分享一些这两年比较有代表性的VLA+RL工作,这些paper陆续被不同的会 议收录。 ❝ 我们也建议后续的研究可以往此方向靠拢,如果不知道怎么展开研究也欢迎咨询具身智能之心的科研助理,一 键启动 ...
今年大概率产了n篇VLA+RL工作吧?!
自动驾驶之心· 2025-12-23 03:43
最近在盘VLA+RL的工作,不管是基于世界模型的在线方案,还是offline,VLA好像始终离不开RL。仅依赖 模仿学习的 VLA 在真实世界 OOD 场景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。强化学习 (RL)的优势在于能够显著提升VLA模型的泛化能力,一些工作的实验显示分布外任务上的性能提升可达 42.6%。有效果,就有很多工作继续跟进,今年产出了好多篇paper~ 点击下方 卡片 ,关注" 具身智能 之心 "公众号 近期的几个工作,包括wholebodyvla、pi0.6、GR-RL都取得了惊艳的效果,pi0.6推出的时候很多同学说大概 率就是+强化。世界模型加持的在线系统也是比较活跃的方向,期望有更多突破。 工具上,VLA+RL框架也在逐渐完善,这里也推荐下于超老师那边的Rlinf,支持的方法越来越多。 链接:https://github.com/RLinf/RLinf 由于相关工作众多,这里给大家分享一些这两年比较有代表性的VLA+RL工作,这些paper陆续被不同的会 议收录。 ❝ 我们也建议后续的研究可以往此方向靠拢,如果不知道怎么展开研究也欢迎咨询具身智能之心的科研助理,一 键启动 ...
今年大概率产了n篇VLA+RL工作吧?!
具身智能之心· 2025-12-22 10:23
Core Insights - The article emphasizes the integration of Reinforcement Learning (RL) with Vision-Language-Action (VLA) models to enhance their generalization capabilities, particularly in out-of-distribution (OOD) scenarios, where performance improvements can reach up to 42.6% [2]. Group 1: Research Directions - The article suggests that future research should focus on the combination of VLA and RL, encouraging collaboration with research assistants for guidance on starting projects in these areas [3]. - Several notable recent works in VLA+RL have been highlighted, showcasing significant advancements in the field [5][10]. Group 2: Notable Papers and Projects - A list of representative papers from the last two years is provided, including titles such as "NORA-1.5" and "Balancing Signal and Variance," which focus on various aspects of VLA and RL integration [5][10]. - Links to project homepages and paper PDFs are shared for further exploration of these works [6][9][12]. Group 3: Tools and Frameworks - The article mentions the development of tools like Rlinf, which supports a growing number of methods for VLA+RL frameworks, indicating a trend towards more robust and versatile research tools [2][11].
首个文本到3D生成RL范式诞生,攻克几何与物理合理性
量子位· 2025-12-20 04:20
强化学习是否能够用于Text-to-3D生成,以加强3D自回归模型的逐步推理与生成过程? 3DGenR1团队 投稿 量子位 | 公众号 QbitAI 在大语言模型和文生图领域,强化学习 (RL) 已成为提升模型思维链与生成质量的关键方法。 但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会还管用吗? 近期,一项由 西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作 开展 的研究系统性探索了这一重要问 题。 论文链接: https://arxiv.org/pdf/2512.10949 代码链接: https://github.com/Ivan-Tang-3D/3DGen-R1 在LLM推理和2D文生图中,RL已经证明可以显著提升CoT推理能力和生成质量。但 3D物体更长、更稠密、更具几何约束 。 因此相关方向研究常面临这几个问题: Progressive Investigation:四个层次拆解Text-to-3D+RL 1. Reward设计层 1. 奖励如何同时刻画语义对齐、几何一致性和视觉质量? 2. 现有RL算法是否适合自回归式3D生成? 3. 缺乏专门考察"3D推理能力 ...
领域首篇RL+VLA 综述:强化学习如何推动 VLA 走向真实世界?
具身智能之心· 2025-12-19 00:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Haoyuan Deng等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 Vision-Language-Action(VLA)模型通过融合视觉、语言与动作,为机器人带来了强大的零样本与跨任务泛化能力。但仅依赖模仿学习的 VLA 在真实世界 OOD 场 景中仍然脆弱,缺乏失败恢复、自主探索与闭环纠错能力。 强化学习(RL)正成为连接 VLA 预训练与真实部署的关键桥梁。 由南洋理工大学、北京邮电大学、清华大学联合推出, 本综述系统梳理了 RL-VLA 在"学习—优化—部署"全生命周期中的核心方法与挑战,并从四个维度构建了 完整技术图景:架构、训练范式、真实世界部署以及评估。 一、RL-VLA 架构:从开环推理到闭环优化 RL 通过奖励驱动的策略更新,使 VLA 从"复现示范"转向"结果导向"的闭环决策: 动作建模 A 论文链接(每月更新) :https://doi.org/10.362 ...