强化学习
Search documents
挑战GRPO,英伟达提出GDPO,专攻多奖励优化
机器之心· 2026-01-11 04:00
但随着语言模型能力的不断提升,用户对它们的期待也在发生变化:不仅要回答正确,还要在各种不同场景下表现出符合多样化人类偏好的行为。为此, 强化学 习训练流程开始引入多种奖励信号 ,每一种奖励对应一种不同的偏好,用来共同引导模型走向理想的行为模式。 但英伟达的一篇新论文却指出,在进行多奖励优化时,GRPO 可能不是最佳选择。 具体来说,在多奖励优化场景中,GRPO 会将不同的奖励组合归一化为相同的优势值。这会削弱训练信号,降低奖励水平。 为了解决这一问题,他们提出了一种新的策略优化方法 —— 组奖励解耦归一化策略优化( GDPO )。该方法通过对各个奖励信号分别进行归一化,避免了不同奖 励之间被混合「抹平」,从而更真实地保留它们的相对差异,使多奖励优化更加准确,同时显著提升了训练过程的稳定性。 机器之心编辑部 GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性,已成为业内广泛采用的强化学习算法。 论文标题:GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-re ...
加州大学伯克利Dr. Allen Yang:物理AI的分水岭时刻尚未到来|CES 2026
Tai Mei Ti A P P· 2026-01-10 14:33
当前,人工智能行业正深陷 "GPU 竞赛" 的热潮,在2026年CES(国际消费电子展)现场随处可见对云 端 AI 应用的热议,"人均GPU 数量" 成为衡量技术实力的热门指标,从企业到国家层面都在追逐算力的 堆砌。 美西时间1月6日-8日,钛媒体CES 2026「Talk to the World」系列论坛在拉斯维加斯举办。会上,加州大 学伯克利分校Vive 增强现实中心创始执行主任Dr. Allen Yang提出了一个清醒而关键的观点:我们应超 越云端,将目光投向物理世界,探寻物理 AI 的下一个 "AlphaGo时刻"。 作为伯克利 Vive 增强现实中心创始执行主任,Dr. Allen Yang主导着 AR/VR、元宇宙及赛车自动驾驶三 大创新方向。过去四年,他带领伯克利 AI 赛车队连续征战 CES 自动驾驶挑战赛,并在 2025 年斩获头 对头超车项目冠军。这些扎根物理场景的实践让他深刻意识到,物理 AI 与依赖云端数据的大型语言模 型有着本质区别,其真正的 "分水岭时刻" 尚未到来。 他指出,虽然以AlphaGo和大型语言模型为代表的AI已取得里程碑式突破,但物理AI仍亟待属于自己 的"分水岭时 ...
姚顺雨林俊旸杨植麟齐聚,锐评大模型创业与下一代技术范式
第一财经· 2026-01-10 14:21
2026.01. 10 本文字数:1458,阅读时长大约2分钟 因此,姚顺雨认为,自主学习这件事已经发生了,只是受效率等因素限制,还存在各种问题,他认为目前自主学 习的范式迭代更像是渐变,而非突变。 至于目前全球市场中哪一家企业最可能率先引领范式创新,姚顺雨表示,虽然OpenAI经历了商业化等各种变 化,创新基因被削弱,但仍是最有可能诞生新范式的地方。 林俊旸认为,目前的RL(强化学习)范式尚处早期,潜力远未被充分挖掘,全球范围内仍面临诸多共性挑战, 而下一代范式的核心在于"自主进化"与"主动性"。只是自主进化是否需要更新参数,见仁见智。 作者 | 第一财经 吕倩 当大模型陷入Scaling Law(缩放定律)的增长瓶颈,下一代技术范式将会是什么? 1月10日,在由清华大学基础模型北京市重点实验室、智谱AI发起的AGI-Next前沿峰会上,腾讯控股"CEO/总 裁办公室"首席AI科学家姚顺雨、阿里巴巴Qwen技术负责人林俊旸、Kimi创始人杨植麟、智谱创始人唐杰等人 工智能行业人士齐聚,共话大模型下一代技术范式。 对下一代范式的猜测中,自主学习(Autonomous Learning)是个热门概念,是大模型摆 ...
姚顺雨林俊旸杨植麟齐聚 锐评大模型创业与下一代技术范式
Di Yi Cai Jing· 2026-01-10 14:06
Core Insights - The next generation of AI technology paradigms is expected to focus on Autonomous Learning, which allows models to evolve independently without heavy reliance on human-annotated data and offline pre-training [1][2] - The potential for innovation in AI is seen as high in China, with the ability to quickly replicate and improve upon discoveries, contingent on breakthroughs in key technologies like lithography machines [3] Group 1: Next Generation Paradigms - Autonomous Learning is a trending concept that enables models to generate learning signals and optimize through closed-loop iterations, leading to continuous evolution [1] - The definition and understanding of Autonomous Learning vary among experts, emphasizing its dependence on specific data and task contexts [1] - Current advancements in AI, such as Claude's ability to self-improve by transforming 95% of its own code, indicate that self-learning is already occurring, albeit with efficiency limitations [1] Group 2: Market Leaders and Innovations - OpenAI is viewed as the most likely candidate to lead the next paradigm shift in AI, despite facing challenges in maintaining its innovative edge [2] - The current Reinforcement Learning (RL) paradigm is still in its early stages, with significant potential yet to be realized, focusing on "autonomous evolution" and "proactivity" [2] - The introduction of proactivity in AI raises new safety concerns, necessitating the instillation of appropriate values and constraints [2] Group 3: China's Position in AI - The probability of Chinese teams leading in AI innovation in the next three to five years is considered high, given their ability to quickly replicate and enhance discoveries [3] - Key challenges for China include production capacity and software ecosystem development, alongside the need for a more mature B2B market [3] - Cultural and economic factors may hinder the willingness to pursue groundbreaking innovations in China [3]
智能体「卷王」诞生!干活自动配结项报告,1.5张截图就把事说清了
量子位· 2026-01-10 03:07
Youtu-Agent 团队 投稿 量子位 | 公众号 QbitAI 在学校里做实验的时候,老师如何确定我们做了实验并且达到了预期效果呢?——最常见的做法是让学生写一份实验报告交上来。 现在,AI智能体拿到一个任务以后如何检验执行的效果有没有达到预期呢? 我们也可以让AI在执行任务的同时主动提交一份证据链报告, 边做边收集任务完成的证据,自我检查是否符合预期,不符合就继续做。 在LLM/VLM驱动的智能体 (Agent) 的强化学习 (RL) 研究中,一直面临一个巨大的挑战: 你交给智能体一个任务,它干完了,但你不知道完成度如何。 为了确认它是否真的准确完成了任务,我们不得不建立庞大的 "监督系统" 来复核它的每一步操作。这种 "被动验证" 往往需要: 1. 手工设计的复杂校验机制 (比如:完全匹配的输出内容) ; 2. 强大的轨迹级验证方法 (比如:LLM/VLM-as-a-Judge众投决策) 。 这两种常见的先完成任务 (task completion) 再校验轨迹 (outcome verification) 的机制有以下缺点: 3. 依赖持续可观测环境的反馈信息,部分操作往往因为环境变化 (如页面刷 ...
斯坦福最新的全身运控方案,跨地形泛化!
具身智能之心· 2026-01-09 00:55
编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Haochen Shi等 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 研究背景与核心挑战 类人机器人传统移动方法多聚焦于腿部步态,但自然双足动物(包括人类)在复杂环境中会主动利用手、膝盖、肘部等肢体建立额外接触点,以获得更强的稳定性 和支撑力。在低间隙椅子下方、及膝高度的墙壁/平台、陡峭楼梯等场景中,仅依赖脚部的移动要么不可行,要么需要剧烈动作,而全身协同的爬行、攀爬等策略能 更高效地克服障碍。 当前类人机器人全身移动面临 两大核心挑战 : 为应对这些挑战,斯坦福大学研究团队提出一套融合物理接地关键帧动画与强化学习的分层框架,通过九种核心运动技能的链结(figure1),实现机器人在极端复 杂地形中的稳定移动。 核心方法 系统的核心架构包含四大组件,形成"关键帧生成→策略训练→技能选择→分层执行"的完整闭环(figure2)。 1. 复杂环境导航需解决"接触丰富"的运动规划与鲁棒控制 ...
亲身体验后,我们总结了全网首份AI语音输入法红黑榜|锦秋AI实验室
锦秋集· 2026-01-08 14:57
「锦秋AI实验室」 而谁还停留在"懂了点,又好像没懂透,反正先瞎操作一波"的阶段? 这是一档专注于探索和评测AI产品在实际场景中应用效果的栏目。 我们正在 用AI 解锁100个效率场景。 下一个场景会是什么? 以前以为"语音输入"只是给懒人用的:张嘴说两句,手机替你打字。 直到真的开始用它写长文、回微信、记灵感、开会做纪要——才发现,语音输入法的核心根本不是"省事",而是: 它到底能不能把我说的"人话",变成 能能让信息接收者听懂 的 "人话"。 我们也被这些"转写翻车"折磨过。 所以这次我们决定认真测一测: 7 款 AI语音输入法,5个真实场景,统一题库,一轮一轮地比。 我们想知道: 在语音输入这件事上,谁真的听懂了"帮我把我说的话打出来"? * 需要说明的是 ,我们此系列的测评以年轻普通用户的实用视角和审美进行测评,于 AI 产品持有相对积极的评价态度。 这里也插播一下未来的测评预告: 近期我们还将会进行 AI 小游戏制作、 AI 知识库、 AI 画布、 AI 陪伴类产品的测评。如果你对这些 AI 产品方向的测评感兴趣,也欢迎私信或者 评论区告诉锦秋基金(微信公号:锦秋集;微信 ID : jqcapita ...
当我们把端到端量产需要的能力展开后......
自动驾驶之心· 2026-01-08 09:07
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 如果说现在自驾行业哪个职位最受欢迎,一定是端到端。 地平线HSD的成功,让业内开始重新审视一段式端到端的重要性。 智能驾驶不再重度依赖模块化感知和强规则兜底,而是直接感知环境,并生成动作序列。端到端 的能力极大地降低了系统复杂度,使自动驾驶车辆能够应对更加复杂的驾驶场景。 然而,在实际的落地应用中。只靠模仿学习是不够的,系统仍然面临轨迹不稳定等问题。其核心原因在于模型缺乏基于环境反馈的持续修正能力。 强化学习为端到端带来了新的解决思路。RL并不是一门新的学科,但RL的优势为端到端提供了从"模仿"走向"优化"的关键机制。通过引入奖励或价值信号,RL可 以在保持端到端能力的同时,对动作策略进行闭环优化,弥补模仿学习在分布外状态和误差累积上的不足。 纯模仿学习的端到端,本质是在"复制数据分布"。RL提供的是闭环优化能力:用环境反馈修正动作,用value/reward信号约束轨迹行为。 目前工业界头部的公司已经形成了一套完整的模型迭代思路, 模仿学习训练→闭环强化学习→规则兜底(时空联合规划) ,此外还是涉及导航信息 ...
随到随学!端到端与VLA自动驾驶小班课(视频+答疑)
自动驾驶之心· 2026-01-08 05:58
Jason, C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的 预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 这门课程讲如何展开 第一章:端到端算法介绍 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 端到端与VLA涉及的核心内容包括BEV感知、视觉语言模型VLM、扩散模型、强化学习等等。通过学习端到端与VLA自动驾驶,可以掌握学术界和工业 界最前沿的技术栈。 为此我们联合 工业界大佬 开展了这门《端到端与VLA自动驾驶小班课》正式结课啦,随到随学(视频+答疑)!课程包含二段式端到端与一段式端到端 前沿算法的细致讲解,基本上都是工业界和学术界的Baseline。 扫码报名!抢占课程名额 讲师介绍 第一章主要是针对端到端自动驾驶概括性的内容讲解,这一章老师会带大家盘一下端到端的发展历史,端到端这个概念是怎么来了,为什么从模块化的 方法发展到端到端。一段式、二段式再到现在的VLA范式,每一种范式都有哪 ...
人工智能测评初创企业LMArena新一轮融资后估值达17亿美元
Xin Lang Cai Jing· 2026-01-07 09:30
公司首席执行官兼联合创始人阿纳斯塔西奥斯・安杰洛普洛斯表示:"头部人工智能实验室选择与我们 合作,是因为他们很难自行判断旗下模型的优劣水平。" 不过,部分模型开发商对 LMArena 的测评方式提出了质疑。他们认为,依靠无偿互联网用户提供反馈 的模式存在缺陷,不仅容易被人为操纵,而且结果也无法反映行业专家的专业意见。与之形成对比的 是,LMArena 的竞争对手 —— 例如数据标注初创企业 Scale AI—— 会聘请律师、教授等专业人士对模 型进行评估打分。 针对外界的质疑,LMArena 回应称,普通用户在评判与自身相关的问题答案时,往往具备更精准的判 断力,而且不向专家支付报酬的模式,能够让平台获取更真实客观的反馈。 LMArena 联合创始人阿 纳斯塔西奥斯・安杰洛普洛斯 据 LMArena 公司透露,这家凭借人工智能模型性能排名体系广受行业认可的初创企业,在新一轮融资 中筹集到 1.5 亿美元资金,投后估值(含本次融资额)达到 17 亿美元。这一估值较 2025 年 5 月披露的 种子轮融资估值增长了近两倍。 本轮融资由现有投资方菲利斯资本以及加州大学投资部门联合领投。所筹资金将用于两方面:一是为公 ...