强化学习

Search documents
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心· 2025-05-12 04:31
机器之心发布 机器之心编辑部 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战, 尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce++)用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚 至直接崩掉。本文的出发点就是要解决这些问题,探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工 作 MM-RLHF (ICML 2025),本文进一步提出了 R1-Reward,在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升,且随着 inference sampling 的数目增多还能进一步增长。 R1-Reward 不仅在学术上展现了巨大价值,还在快手的实际业务场 ...
人形机器人到底是产业革命还是资本泡沫?
机器人大讲堂· 2025-05-11 04:26
近年来,作为科技创新的重要代表之一,人形机器人不断成为科技头条的焦点,吸引了大量资本的投入。 从投资机构到初创公司,纷纷涌入这一赛道,在过去的一年当中,一些成立甚至不足一年的企业估值迅速 突破数十亿。然而,尽管受到资本市场热捧,以具身智能为代表的人形机器人的商业化进展与规模化落地 却表现得并不理想,金沙江创业投资基金朱啸虎的犀利言论,更是为这个产业敲响了警钟。 ▍ 资本的热捧助推人形机器人产业出现资本泡沫 以智能护理机器人为例,该机器人虽然被设计用于为老年人提供帮助,但在实际应用中却表现得差强人 意。动作缓慢,泛化能力差,容错率低,都成为用户吐槽的诟病。如抓取咖啡杯,都需要经过反复的"彩 排",在实际执行当中,还不一定能够一次成功。这种技术上的滞后,使得这些机器人的市场落地远未达到 预期效果。而那些所谓炫技的跳舞,空翻动作,只不过是遥操作和模型训练控制,依旧需要人类在后台遥 控,这并非我们理解的具身智能世界的范畴。 人形机器人领域的现象揭示了一个普遍的行业问题,即资本市场对新兴技术的盲目追捧以及对技术成熟度 的忽视。在某些情况下,资本的大量流入未必能够有效促进技术的实际进步,反而可能导致市场泡沫的产 生。例如 ...
前谷歌CEO:千万不要低估中国的AI竞争力
Hu Xiu· 2025-05-10 03:55
Group 1: Founder Psychology and Roles - Eric Schmidt emphasizes the difference between founders and professional managers, stating that founders are visionaries while professional managers are "amplifiers" who help scale ideas [4][10] - Schmidt reflects on his experience at Google, noting that he was not a typical entrepreneur but rather a professional manager who contributed during the company's scaling phase [3][4] - He discusses the challenges of attracting talent, highlighting that many talented individuals often choose to start their own companies instead of joining established firms [3][5] Group 2: Market Dynamics and Startup Ecosystem - Schmidt points out that many startups are often acquired for their talent rather than their products, indicating a market structure that can be inefficient [6][7] - He notes that the majority of startups fail, with traditional venture capital experiences suggesting that 4 out of 10 will fail completely, and 5 will become "zombies" with no growth potential [7] - The conversation highlights the importance of competition for startups, suggesting that true leadership is demonstrated when facing challenges from larger companies [11][12] Group 3: AI and Future Trends - Schmidt believes that AI is currently underestimated rather than overhyped, citing the scaling laws that drive AI advancements [33][34] - He discusses the potential of AI to transform business processes and scientific breakthroughs, emphasizing the importance of understanding how humans will coexist with advanced AI systems [35][39] - The conversation touches on the competitive landscape between the U.S. and China in AI development, with China investing heavily in AI as a national strategy [41][42] Group 4: Talent Acquisition and Management - Schmidt stresses the importance of attracting top talent by creating an environment where individuals feel they are solving significant problems [18][20] - He differentiates between "rockstar" employees who drive change and "mediocre" employees who are self-serving, advocating for the retention of the former [21][22] - The discussion includes insights on how to identify and nurture high-potential talent within organizations [24][25] Group 5: Challenges in AI Development - Schmidt highlights the challenges of defining reward functions in reinforcement learning, which is crucial for AI's self-learning capabilities [51] - He warns about the potential pitfalls of over-investing in AI infrastructure without a clear path to profitability, suggesting that many companies may face economic traps [47][48] - The conversation concludes with a call for companies to focus on the most challenging problems in AI, as solving these will yield the most significant rewards [52][53]
9年实现爱因斯坦级AGI?OpenAI科学家Dan Roberts谈强化学习扩展的未来
机器之心· 2025-05-10 03:42
机器之心报道 编辑:陈萍、Panda 近日,在红杉资本主办的 AI Ascent 上,OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲,其上传到 YouTube 的版本更是采用 了一个更吸引人的标题:「9 年实现 AGI?OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」 在这场演讲中,Dan Roberts 介绍了预训练和强化学习的 Scaling Law,并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用,而随着强化学习继续扩 展,我们最终将造出有能力发现新科学的模型。 https://www.youtube.com/watch?v=_rjD_2zn2JU Dan Roberts,Open AI 研究科学家,强化学习科学团队负责人,同时也是 MIT 理论物理中心访问科学家。他还曾与 Sho Yaida 合著了《The Principles of Deep Learning Theory(深度学习理论的原理)》一书,该书有发布在 arXiv 上的免费版本: https://arxiv.org/abs/2106.10165 。他还 ...
21对话|卓驭陈晓智:用有限算力做极致性能,这是我们血液里的东西
2 1 Shi Ji Jing Ji Bao Dao· 2025-05-10 00:36
自比亚迪将驾驶辅助下放到7万级市场后,主机厂追逐智驾上车,供应商频频走向台前,车市掀起智驾 热潮。 与市场其他智驾方案供应商相比,卓驭科技是一位典型的追求"价性比"玩家,即用低算力实现更极致的 驾驶辅助功能。 去年3月,卓驭科技(原"大疆车载")提供的7V(7摄像头)+32TOPS配置已经开始成为8万~15万元 级别车型标配,最低8万元车型就可以具备城市记忆领航、高速领航驾驶等功能,彼时的量产车型已经 包括宝骏云朵、iCAR 03。 21世纪经济报道记者焦文娟报道 与市场相比,要实现城市记忆领航、高速领航驾驶等功能,车企和智驾方案供应商们的方案通常基于英 伟达Orin-X芯片平台,至少需要254TOPS算力。 "今年卓驭的重点还是把极限算力落地,在有限硬件、有限算力上做极致的功能和性能。"卓驭科技首席 AI技术官陈晓智告诉记者,"这是我们血液里的东西。" 卓驭科技(下称"卓驭")的极致成本控制能力体现在自研硬件和软件两方面,他们将自己定位为软硬一 体的供应商。 在硬件成本上,以上海车展推出的知周补盲雷达为例,其成本能控制在千元以内。在软件方面,通过自 研模型,卓驭也降低了成本。 这些能力的锻造来自于"大疆车载 ...
【重磅深度】AI+汽车智能化系列之十一——以地平线为例,探究第三方智驾供应商核心竞争力
东吴汽车黄细里团队· 2025-05-09 12:01
看好头部第三方智驾供应商突破机遇:智驾平权需求+性能追赶/量产验证共同驱动: 第三方智驾供应商或成为二三线车企智驾平权最优方案: 展望终局,我们认为头部车企与头部 智驾供应商都有望依托智能驾驶领域的积累拓展至具身智能大赛道,头部智驾供应商或成为二 三线车企智驾平权最优方案,预计头部智驾供应商的潜在市场份额为全部新车销量的50%左 右。 理解本轮智能化对国产芯片端影响:智驾平权是主线,系统降本是暗线。 车企竞争加剧/智驾 方案内卷的大背景下【全栈自研】成为车企当下考虑的次要因素,我们认为城市级别NOA的智 驾平权正在加速到来。车企对于功能上车的思路永远兼顾性能和成本,目前看即将落地的基于 国产芯片的智驾方案或为当下高阶智驾方案的成本最优解。 如何衡量国产芯片的比较优势?: 英伟达凭借Orin系列智驾芯片在当下高阶智驾市场独领鳌头,据我们观察国产芯片供应商经过 近五年的追赶在产品性能、量产验证、客户获取多个维度开始比肩英伟达。 如何看待第三方芯片供应商的核心价值: 先发的重要性: 智驾芯片普遍需要三年以上研发制造周期,同时具备持续迭代能力的芯片设计 厂商才能实现芯片性能的成本的平衡。 设计制造成本视角: 据我们测 ...
颠覆谷歌搜索API,成本降至88%,阿里开源RL框架ZeroSearch,重新定义AI搜索!
AI科技大本营· 2025-05-09 09:35
ZeroSearch 不是让搜索消失,而是让搜索真正"融入"智能本身。 整理| 梦依丹 ZeroSearch 的思路是 先用轻量级的监督微调,将大模型转化为一个能根据查询生成"相关"与"干扰"文档的检索模块;再通过"逐步降低文档质量"的课 程式训练策略,挑战模型的推理和检索能力,从而实现更稳健的搜索学习路径。 不依赖搜索引擎的 PPO 和 GRPO 训练演示 其做法是: 出品丨AI 科技大本营(ID:rgznai100) 仅需 70.8 美元,在 4 块 A100 GPU 上运行 140亿参数模型,你就能获得媲美甚至超越谷歌搜索的强大 AI 搜索能力! 近日,阿里巴巴通义团队开源了一套全新的解决方案——ZeroSearch,这是一款由大模型驱动的生成式搜索引擎框架,训练过程无需调用任何外部搜索 接口,完全"自给自足",实现了低成本,高性能的检索能力构建。 传统搜索引擎的调用,往往意味着不可控的文档质量与高昂的 API 成本。为了解决这些问题, ZeroSearch 引入了一种全新的强化学习框架——在不与 真实搜索引擎交互的前提下训练出"搜索能力" 。 优化目标如下: 其中, 是待优化的策略模型, 是参考模型, ...
仅需1个数据,就能让大模型的数学推理性能大大增强?
机器之心· 2025-05-09 09:02
论文发现,只在 RLVR 训练中使用一个训练数据(称作 1-shot RLVR),就可以在 MATH500 上,将 Qwen2.5-Math-1.5B 的表现从 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表现从 51.0% 提升到 79.2% 。 这个表现和使用 1.2k 数据集(包括这一个数据)的 RLVR 效果差不多。 使用两个训练样本的 RLVR 甚至略微超过了使用 1.2k 数据集(称作 DSR-sub)的表现, 和使用 7.5k MATH 训练集的 RLVR 表现相当。这种表现可以在 6 个常用的数学推理任务上都可以观察到。 本文第一作者王宜平是华盛顿大学的博士生,其导师、通讯作者杜少雷为华盛顿大学Assistant Professor;另外两位通讯作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。 最近, 大型语言模型(LLM)在推理能力方面取得了显著进展,特别是在复杂数学任务上。推动上述进步的关键方法之一就是带可验证奖励的强化学习 (Reinforcement Learni ...
拜拜,昂贵的谷歌搜索 API!阿里开源 RL 框架让大模型自给自足、成本直降88%,网友:游戏规则变了
AI前线· 2025-05-09 05:18
整理 | 华卫 近日,阿里巴巴的研究人员在 Hugging Face 上发布了一种名为"ZeroSearch"的新技术,可以大大降低训练 AI 系统进行信息搜索的成本和复杂度,完全 消除对昂贵商业搜索引擎 API 的需求。 研究人员表示,"强化学习(RL)训练需要频繁进行部署,可能会涉及到数十万次搜索请求,这会产生巨额的 API 费用,严重限制了可扩展性。" 据介绍,这项新技术是一种强化学习框架,允许大语言模型 (LLM) 通过模拟的方式开发高级搜索功能,而无需在训练过程中与真实的搜索引擎进行交 互。并且,其表现优于基于真实搜索引擎的模型,同时产生的 API 成本为零。既能让企业更好地控制 AI 系统学习检索信息的方式,又可以为其节省大 量的 API 费用。 该技术适用于多个模型系列,包括 Qwen-2.5 和 LLaMA-3.2,且无论是基础模型还是经过指令调整的模型都能应用,无需单独的监督预热阶段,并与近 端策略优化 (PPO)、组相对策略优化 (GRPO)等各种 RL 算法兼容。目前,研究人员已在 GitHub 和 Hugging Face 上提供了他们的代码、数据集 和预训练模型,允许其他研究人员和公 ...
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
Hu Xiu· 2025-05-08 11:50
5月8日,在海淀大恒科技中心的阶跃星辰北京办公地,阶跃星辰创始人、CEO姜大昕身着深色西服、蓝 色衬衫出现在阶跃星辰北京办公地的会议室里。他保持了一贯的风格,如二十一年前在新加坡南洋理工 教书时,像老师一样在屏幕前平静地讲述自己对于多模态模型行业的判断。这里距离姜大昕上一个东家 微软的中国办公地微软大厦仅有504米,在2023年创立阶跃星辰前,姜大昕是微软全球副总裁。 "多模态模型领域目前还没有出现GPT-4时刻。卡点是整个行业缺少多模态领域的理解生成一体化架 构。有了这个架构,才能基于此通过海量的图片视频去做预训练+指令跟随,最终演变为世界模 型。"姜大昕说。 "理解生成一体化架构"不只是姜大昕的技术判断,也正在影响这家公司的走向。 虎嗅独家获悉,近期阶跃星辰内部,进行了算法小组内的微调:原本阶跃星辰内部团队分为生成小组和 理解小组,而这两个小组已经整合为新的"生成理解"团队。 姜大昕向虎嗅表示,这一调整,确实是基于"理解生成一体化架构至关重要"这个判断。 虎嗅获悉,目前阶跃星辰的运转以三个男人为核心: 姜大昕 阶跃星辰创始人、CEO 负责公司整体战略、技术研发 张祥雨 阶跃星辰首席科学家 负责公司技术研发 ...