强化学习 - filings, earnings calls, financial reports, news - Reportify

强化学习

Search documents

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

机器之心· 2025-05-12 04:31

机器之心发布机器之心编辑部多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。尽管近期强化学习（RL）在传统视觉任务和多模态推理任务中取得了显著进展，但其在奖励建模中的应用仍然受到挑战，尤其是如何通过强化学习对奖励模型引入长期推理能力。来自快手、中科院、清华、南大的研究团队发现，直接把现有的 RL 算法（比如 Reinforce++）用到训练 MRM 上，会遇到很多问题，比如训练过程很不稳定，甚至直接崩掉。本文的出发点就是要解决这些问题，探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工作 MM-RLHF (ICML 2025)，本文进一步提出了 R1-Reward，在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升，且随着 inference sampling 的数目增多还能进一步增长。 R1-Reward 不仅在学术上展现了巨大价值，还在快手的实际业务场 ...

多模态奖励模型

Artificial Intelligence

多模态奖励模型

Artificial Intelligence

人形机器人到底是产业革命还是资本泡沫？

机器人大讲堂· 2025-05-11 04:26

近年来，作为科技创新的重要代表之一，人形机器人不断成为科技头条的焦点，吸引了大量资本的投入。从投资机构到初创公司，纷纷涌入这一赛道，在过去的一年当中，一些成立甚至不足一年的企业估值迅速突破数十亿。然而，尽管受到资本市场热捧，以具身智能为代表的人形机器人的商业化进展与规模化落地却表现得并不理想，金沙江创业投资基金朱啸虎的犀利言论，更是为这个产业敲响了警钟。 ▍ 资本的热捧助推人形机器人产业出现资本泡沫以智能护理机器人为例，该机器人虽然被设计用于为老年人提供帮助，但在实际应用中却表现得差强人意。动作缓慢，泛化能力差，容错率低，都成为用户吐槽的诟病。如抓取咖啡杯，都需要经过反复的"彩排"，在实际执行当中，还不一定能够一次成功。这种技术上的滞后，使得这些机器人的市场落地远未达到预期效果。而那些所谓炫技的跳舞，空翻动作，只不过是遥操作和模型训练控制，依旧需要人类在后台遥控，这并非我们理解的具身智能世界的范畴。人形机器人领域的现象揭示了一个普遍的行业问题，即资本市场对新兴技术的盲目追捧以及对技术成熟度的忽视。在某些情况下，资本的大量流入未必能够有效促进技术的实际进步，反而可能导致市场泡沫的产生。例如 ...

人形机器人

智能护理机器人

人形机器人

智能护理机器人

前谷歌CEO：千万不要低估中国的AI竞争力

Hu Xiu· 2025-05-10 03:55

Group 1: Founder Psychology and Roles - Eric Schmidt emphasizes the difference between founders and professional managers, stating that founders are visionaries while professional managers are "amplifiers" who help scale ideas [4][10] - Schmidt reflects on his experience at Google, noting that he was not a typical entrepreneur but rather a professional manager who contributed during the company's scaling phase [3][4] - He discusses the challenges of attracting talent, highlighting that many talented individuals often choose to start their own companies instead of joining established firms [3][5] Group 2: Market Dynamics and Startup Ecosystem - Schmidt points out that many startups are often acquired for their talent rather than their products, indicating a market structure that can be inefficient [6][7] - He notes that the majority of startups fail, with traditional venture capital experiences suggesting that 4 out of 10 will fail completely, and 5 will become "zombies" with no growth potential [7] - The conversation highlights the importance of competition for startups, suggesting that true leadership is demonstrated when facing challenges from larger companies [11][12] Group 3: AI and Future Trends - Schmidt believes that AI is currently underestimated rather than overhyped, citing the scaling laws that drive AI advancements [33][34] - He discusses the potential of AI to transform business processes and scientific breakthroughs, emphasizing the importance of understanding how humans will coexist with advanced AI systems [35][39] - The conversation touches on the competitive landscape between the U.S. and China in AI development, with China investing heavily in AI as a national strategy [41][42] Group 4: Talent Acquisition and Management - Schmidt stresses the importance of attracting top talent by creating an environment where individuals feel they are solving significant problems [18][20] - He differentiates between "rockstar" employees who drive change and "mediocre" employees who are self-serving, advocating for the retention of the former [21][22] - The discussion includes insights on how to identify and nurture high-potential talent within organizations [24][25] Group 5: Challenges in AI Development - Schmidt highlights the challenges of defining reward functions in reinforcement learning, which is crucial for AI's self-learning capabilities [51] - He warns about the potential pitfalls of over-investing in AI infrastructure without a clear path to profitability, suggesting that many companies may face economic traps [47][48] - The conversation concludes with a call for companies to focus on the most challenging problems in AI, as solving these will yield the most significant rewards [52][53]

Alphabet(US:GOOG)

测试时计算

通用人工智能

测试时计算

通用人工智能

9年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

机器之心· 2025-05-10 03:42

机器之心报道编辑：陈萍、Panda 近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」在这场演讲中，Dan Roberts 介绍了预训练和强化学习的 Scaling Law，并预测强化学习将在未来的 AI 模型构建中发挥越来越大的作用，而随着强化学习继续扩展，我们最终将造出有能力发现新科学的模型。 https://www.youtube.com/watch?v=_rjD_2zn2JU Dan Roberts，Open AI 研究科学家，强化学习科学团队负责人，同时也是 MIT 理论物理中心访问科学家。他还曾与 Sho Yaida 合著了《The Principles of Deep Learning Theory（深度学习理论的原理）》一书，该书有发布在 arXiv 上的免费版本： https://arxiv.org/abs/2106.10165 。他还 ...

Artificial Intelligence

Artificial Intelligence

21对话｜卓驭陈晓智：用有限算力做极致性能，这是我们血液里的东西

2 1 Shi Ji Jing Ji Bao Dao· 2025-05-10 00:36

自比亚迪将驾驶辅助下放到7万级市场后，主机厂追逐智驾上车，供应商频频走向台前，车市掀起智驾热潮。与市场其他智驾方案供应商相比，卓驭科技是一位典型的追求"价性比"玩家，即用低算力实现更极致的驾驶辅助功能。去年3月，卓驭科技（原"大疆车载"）提供的7V（7摄像头）＋32TOPS配置已经开始成为8万～15万元级别车型标配，最低8万元车型就可以具备城市记忆领航、高速领航驾驶等功能，彼时的量产车型已经包括宝骏云朵、iCAR 03。 21世纪经济报道记者焦文娟报道与市场相比，要实现城市记忆领航、高速领航驾驶等功能，车企和智驾方案供应商们的方案通常基于英伟达Orin-X芯片平台，至少需要254TOPS算力。 "今年卓驭的重点还是把极限算力落地，在有限硬件、有限算力上做极致的功能和性能。"卓驭科技首席 AI技术官陈晓智告诉记者，"这是我们血液里的东西。" 卓驭科技（下称"卓驭"）的极致成本控制能力体现在自研硬件和软件两方面，他们将自己定位为软硬一体的供应商。在硬件成本上，以上海车展推出的知周补盲雷达为例，其成本能控制在千元以内。在软件方面，通过自研模型，卓驭也降低了成本。这些能力的锻造来自于"大疆车载 ...

知周补盲雷达

知周补盲雷达

【重磅深度】AI+汽车智能化系列之十一——以地平线为例，探究第三方智驾供应商核心竞争力

东吴汽车黄细里团队· 2025-05-09 12:01

看好头部第三方智驾供应商突破机遇：智驾平权需求+性能追赶/量产验证共同驱动：第三方智驾供应商或成为二三线车企智驾平权最优方案：展望终局，我们认为头部车企与头部智驾供应商都有望依托智能驾驶领域的积累拓展至具身智能大赛道，头部智驾供应商或成为二三线车企智驾平权最优方案，预计头部智驾供应商的潜在市场份额为全部新车销量的50%左右。理解本轮智能化对国产芯片端影响：智驾平权是主线，系统降本是暗线。车企竞争加剧/智驾方案内卷的大背景下【全栈自研】成为车企当下考虑的次要因素，我们认为城市级别NOA的智驾平权正在加速到来。车企对于功能上车的思路永远兼顾性能和成本，目前看即将落地的基于国产芯片的智驾方案或为当下高阶智驾方案的成本最优解。如何衡量国产芯片的比较优势？：英伟达凭借Orin系列智驾芯片在当下高阶智驾市场独领鳌头，据我们观察国产芯片供应商经过近五年的追赶在产品性能、量产验证、客户获取多个维度开始比肩英伟达。如何看待第三方芯片供应商的核心价值：先发的重要性：智驾芯片普遍需要三年以上研发制造周期，同时具备持续迭代能力的芯片设计厂商才能实现芯片性能的成本的平衡。设计制造成本视角：据我们测 ...

BEV+Transformer

BEV+Transformer

颠覆谷歌搜索API，成本降至88%，阿里开源RL框架ZeroSearch，重新定义AI搜索！

AI科技大本营· 2025-05-09 09:35

ZeroSearch 不是让搜索消失，而是让搜索真正"融入"智能本身。整理| 梦依丹 ZeroSearch 的思路是先用轻量级的监督微调，将大模型转化为一个能根据查询生成"相关"与"干扰"文档的检索模块；再通过"逐步降低文档质量"的课程式训练策略，挑战模型的推理和检索能力，从而实现更稳健的搜索学习路径。不依赖搜索引擎的 PPO 和 GRPO 训练演示其做法是：出品丨AI 科技大本营（ID：rgznai100）仅需 70.8 美元，在 4 块 A100 GPU 上运行 140亿参数模型，你就能获得媲美甚至超越谷歌搜索的强大 AI 搜索能力！近日，阿里巴巴通义团队开源了一套全新的解决方案——ZeroSearch，这是一款由大模型驱动的生成式搜索引擎框架，训练过程无需调用任何外部搜索接口，完全"自给自足"，实现了低成本，高性能的检索能力构建。传统搜索引擎的调用，往往意味着不可控的文档质量与高昂的 API 成本。为了解决这些问题， ZeroSearch 引入了一种全新的强化学习框架——在不与真实搜索引擎交互的前提下训练出"搜索能力" 。优化目标如下：其中，是待优化的策略模型，是参考模型， ...

仅需1个数据，就能让大模型的数学推理性能大大增强？

机器之心· 2025-05-09 09:02

论文发现，只在 RLVR 训练中使用一个训练数据（称作 1-shot RLVR），就可以在 MATH500 上，将 Qwen2.5-Math-1.5B 的表现从 36.0% 提升到 73.6%，以及把 Qwen2.5-Math-7B 的表现从 51.0% 提升到 79.2% 。这个表现和使用 1.2k 数据集（包括这一个数据）的 RLVR 效果差不多。使用两个训练样本的 RLVR 甚至略微超过了使用 1.2k 数据集（称作 DSR-sub）的表现，和使用 7.5k MATH 训练集的 RLVR 表现相当。这种表现可以在 6 个常用的数学推理任务上都可以观察到。本文第一作者王宜平是华盛顿大学的博士生，其导师、通讯作者杜少雷为华盛顿大学Assistant Professor；另外两位通讯作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。最近, 大型语言模型（LLM）在推理能力方面取得了显著进展，特别是在复杂数学任务上。推动上述进步的关键方法之一就是带可验证奖励的强化学习（Reinforcement Learni ...

大型语言模型（LLM）

带可验证奖励的强化学习（RLVR）

Qwen2.5-Math-1.5B

Qwen2.5-Math-7B

Llama-3.2-3B-Instruct

大型语言模型（LLM）

带可验证奖励的强化学习（RLVR）

Qwen2.5-Math-1.5B

Qwen2.5-Math-7B

Llama-3.2-3B-Instruct

拜拜，昂贵的谷歌搜索 API！阿里开源 RL 框架让大模型自给自足、成本直降88%，网友：游戏规则变了

AI前线· 2025-05-09 05:18

整理 | 华卫近日，阿里巴巴的研究人员在 Hugging Face 上发布了一种名为"ZeroSearch"的新技术，可以大大降低训练 AI 系统进行信息搜索的成本和复杂度，完全消除对昂贵商业搜索引擎 API 的需求。研究人员表示，"强化学习（RL）训练需要频繁进行部署，可能会涉及到数十万次搜索请求，这会产生巨额的 API 费用，严重限制了可扩展性。" 据介绍，这项新技术是一种强化学习框架，允许大语言模型（LLM）通过模拟的方式开发高级搜索功能，而无需在训练过程中与真实的搜索引擎进行交互。并且，其表现优于基于真实搜索引擎的模型，同时产生的 API 成本为零。既能让企业更好地控制 AI 系统学习检索信息的方式，又可以为其节省大量的 API 费用。该技术适用于多个模型系列，包括 Qwen-2.5 和 LLaMA-3.2，且无论是基础模型还是经过指令调整的模型都能应用，无需单独的监督预热阶段，并与近端策略优化（PPO）、组相对策略优化（GRPO）等各种 RL 算法兼容。目前，研究人员已在 GitHub 和 Hugging Face 上提供了他们的代码、数据集和预训练模型，允许其他研究人员和公 ...

大语言模型

Artificial Intelligence

大语言模型

Artificial Intelligence

阶跃星辰姜大昕：多模态目前还没有出现GPT-4时刻

Hu Xiu· 2025-05-08 11:50

5月8日，在海淀大恒科技中心的阶跃星辰北京办公地，阶跃星辰创始人、CEO姜大昕身着深色西服、蓝色衬衫出现在阶跃星辰北京办公地的会议室里。他保持了一贯的风格，如二十一年前在新加坡南洋理工教书时，像老师一样在屏幕前平静地讲述自己对于多模态模型行业的判断。这里距离姜大昕上一个东家微软的中国办公地微软大厦仅有504米，在2023年创立阶跃星辰前，姜大昕是微软全球副总裁。 "多模态模型领域目前还没有出现GPT-4时刻。卡点是整个行业缺少多模态领域的理解生成一体化架构。有了这个架构，才能基于此通过海量的图片视频去做预训练+指令跟随，最终演变为世界模型。"姜大昕说。 "理解生成一体化架构"不只是姜大昕的技术判断，也正在影响这家公司的走向。虎嗅独家获悉，近期阶跃星辰内部，进行了算法小组内的微调：原本阶跃星辰内部团队分为生成小组和理解小组，而这两个小组已经整合为新的"生成理解"团队。姜大昕向虎嗅表示，这一调整，确实是基于"理解生成一体化架构至关重要"这个判断。虎嗅获悉，目前阶跃星辰的运转以三个男人为核心：姜大昕阶跃星辰创始人、CEO 负责公司整体战略、技术研发张祥雨阶跃星辰首席科学家负责公司技术研发 ...

多模态模型

理解生成一体化架构

智能体（Agent）

AGI（通用人工智能）

多模态模型

理解生成一体化架构

智能体（Agent）

AGI（通用人工智能）