Workflow
强化学习
icon
Search documents
12.1万高难度数学题让模型性能大涨,覆盖FIMO/Putnam等顶级赛事难度,腾讯上海交大出品
量子位· 2025-06-06 00:58
DeepTheorem团队 投稿 量子位 | 公众号 QbitAI 12.1万道IMO级难度数学"特训题",让AI学会像人类一样 推导数学证明 ! "特训"过后,模型定理证明性能大涨 ,7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型 。 "特训题"为 Deep Theore m ,是首个基于自然语言的数学定理证明框架与数据集,由腾讯AI Lab与上海交大团队联合推出。 团队表示,定理证明是数学前沿的重要组成部分,但当前大语言模型 (LLM) 在数学推理,特别是通过强化学习 (RL) 进行训练时,往往 需要可以自动验证的答案,导致大模型无法像数学家那样通过自然语言进行定理证明。 图(b)展示经过强化学习训练的DeepTheorem-7B模型性能,比肩或超越现有的开源模型和商业模型 (Gemini2.0-flash, Qwen2.5-72B- Instruct, Claude3.7 等 ) ,仅次于o1、o3以及Gemini2.5-pro强推理模型。 DeepTheorem-121K 1、规模与难度:专为"极限挑战"而生 DeepTheorem训练集的显著特点是其大规模与高难度。其包含121K ...
一张卡干俩活,华为要把算力榨干
虎嗅APP· 2025-06-05 14:24
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.11 :RL后训练 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核 ...
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
21世纪经济报道· 2025-06-05 11:03
RL后训练已成为大模型性能突破的「杀手锏」,而算力浪费和集群效率低成为一大难题。这次, 华为团队祭出两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡,资 源利用率翻倍,还打破了同步算法限制,让训练速度再提升50%。 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破LLM性能天花板的核心路径。 爆火出圈的Op e nAI o 1、De e pSe e k -R1等模型,背后都是依靠RL后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取,RL 后训练通过驱动模型与外部环境进行动态交 互,直接塑造了 LLM 在复杂任务中的推理效能。 当前, RL后训练阶段已经吃掉了训练全流程2 0%的算力,未来会飙升到5 0%,直接影响模 型的性能和成本。 在传统RL后训练中,训练和推理得排队干活,也就说大量算力都在「摸鱼」。 对此,华为团队拿出 「RL Fusi on训推共卡」 和 「St a l eSync 准异步并行」 两大黑科技, 把训练效率和资源利用率拉满。 · RL Fu si o n:让一张卡同时兼顾训练和推理两件事,资源利用率和吞吐翻倍。 · St a l eSy ...
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 10:28
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 近期arxiv最热门论文, wen&清华LeapLab 团队最新成果: 在强化学习训练大模型推理能力时, 仅仅20%的高熵token就能撑起整个训练效果 ,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME'24上达到63.5分,AIME'25上达到56.7分, 这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME'24的分数更是飙升到了68.1分。 经典的二八法则(或帕累托法则)指出,通常80%的结果由20%的关键因素驱动,但剩下80%也是不能轻易舍弃的。 但是在大模型强化学习这里,80%低熵token不仅可以舍弃,甚至还可能起副作用,所以这篇论文被命名为"超越二八法则"。 此 外,团队还从token熵的角度探究了RL对LLM的主要影响,并进一步讨论了RL与SFT的区别、LLM RL的特殊性与clip-higher相较于 entropy bonus的优势。 揭开Chain-of-Thought的熵分布密码 要理解这项研究,需要先从一个有趣的观察说起: 团队发 ...
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 10:28
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 近期arxiv最热门论文, Qwen&清华LeapLab 团队最新成果: 在强化学习训练大模型推理能力时, 仅仅20%的高熵token就能撑起整个训练效果 ,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME'24上达到63.5分,AIME'25上达到56.7分, 这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME'24的分数更是飙升到了68.1分。 揭开Chain-of-Thought的熵分布密码 要理解这项研究,需要先从一个有趣的观察说起: 团队发现,当大模型进行链式思考(Chain-of-Thought)推理时,token的熵分布呈现出一个独特的模式: 大部分token的熵都很低,只有少 数token表现出高熵特征 。 具体来说,超过50%的token熵值低于0.01,而只有20%的token熵值大于0.672。 经典的二八法则(或帕累托法则)指出,通常80%的结果由20%的关键因素驱动,但剩下80%也是不能轻易舍弃的。 但是在大模型强化学习这里,80 ...
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
雷峰网· 2025-06-05 09:17
RL后训练已成为大模型性能突破的「杀手锏」,而算力浪费和集群效率低成为一大难题。这次,华为团队祭出 两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡,资源利用率翻倍,还打破了 同步算法限制,让训练速度再提升50%。 作者丨李希 在大模型竞赛白热化的当下,「强化学习后训练」已成为突破 LLM 性能天花板的核心路径。 爆火出圈的 OpenAI o1 、 DeepSeek-R1 等模型,背后都是依靠 RL 后训练点石成金。 相较于预训练阶段的「广撒网」式知识获取, RL 后训练通过驱动模型与外部环境进行动态交互,直接塑 造了 LLM 在复杂任务中的推理效能。 当前, RL 后训练阶段已经吃掉了训练全流程 20% 的算力,未来会飙升到 50% ,直接影响模型的性能和 成本 。 在传统 RL 后训练中,训练和推理得排队干活,也就说大量算力都在「摸鱼」。 对此,华为团队拿出「 RL Fusion 训推共卡 」和「 StaleSync 准异步并行 」两大黑科技,把训练效率和 资源利用率拉满。 · RL Fusion : 让一张卡同时兼顾训练和推理两件事,资源利用率和吞吐翻 倍。 · S ...
10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
机器之心· 2025-06-05 07:14
本文作者分别来自于清华大学、北京大学、上海AI实验室等机构。本文共同第一作者崔淦渠、张宇臣、陈嘉诚来自上海AI实验室,研究方向为大模型的推理增 强。通讯作者为上海AI实验室成宇教授、上海AI实验室周伯文教授、清华大学丁宁助理教授。 Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化,唯有在熵增符合其利益时方会发生—— Max Planck 在强化学习中,我们又该如何让熵增符合我们的利益? 近日,来自上海人工智能实验室、清北,UIUC 等机构的研究者的工作揭示了大模型强化学习中的熵变化的机制。研究内容主要如下: 在 Qwen, Mistral, LLaMA 和 Deepseek Model family 上,我们验证了这一点: 论文标题:The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models 1. 大模型强化学习中的熵塌缩问题 强化学习的核心挑战在于利用 - 探 ...
字节跳动ByteBrain团队提出秒级推理强化学习VMR系统
news flash· 2025-06-05 06:49
6月5日,字节跳动技术团队微信公众号发文称,字节跳动ByteBrain团队主导,联合UC Merced和UC Berkeley提出了VMR L,研发了一套基于深度强化学习的VMR系统,在保持近似最优性能的同时,将 推理时间压缩至1.1秒,成功实现系统性能与工业可部署性的统一。本工作已在系统顶会EuroSys25发 表。本文两位共同一作是字节跳动ByteBrain团队的实习生,研究聚焦于长期被忽视但至关重要的虚拟 机重调度(VMR)问题。(字节跳动技术团队) ...
Gemini2.5弯道超车背后的灵魂人物
Hu Xiu· 2025-06-05 03:14
《硅谷101》创始人泓君邀请了Energent.ai联合创始人Kimi Kong和HeyRevia创始人Shaun Wei,一起和两 位前Google的技术专家聊聊Gemini模型登顶背后的底层逻辑。 以下是这次对话内容的精选: 一、Gemini2.5崛起背后的底层逻辑 泓君:谷歌此次发布的Gemini 2.5 Pro,在当前各项评测中的数据都是所有大模型中最好的,Kimi你可 以分析一下它是如何做到的吗? 从去年在大会前夜被OpenAI的4o模型"精准狙击",到今年Gemini 2.5 Pro全面霸榜。短短一年时间, Gemini是如何完成从追赶者到领跑者的逆转? Kimi:我已经离开DeepMind快一年时间了,也不太清楚我的前同事们在这一年中又做了哪些新的创 新。但大语言模型训练根本的步骤是不变的,包括以下三点:Pre-training(预训练)、SFT(Supervised Fine-tuning,监督微调)和利用RLHF(基于人类反馈的强化学习)技术做的Alignment(对齐)。 大概在去年的NeurIPS(神经信息处理系统大会)上,业内已经普遍承认,公开网络数据基本都已经抓 完了,就像化石燃料已 ...
人形机器人“擂台赛”,南京这样“打”
Nan Jing Ri Bao· 2025-06-05 00:21
全面推进"大脑""小脑""肢体"等部件研发,初步建立整机小批量生产制造能力 人形机器人"擂台赛",南京这样"打" □ 南京日报/紫金山新闻记者 张安琪 从4月的半程马拉松到5月的格斗大赛,越来越多的机器人体育赛事火热上演。8月还将举办世界首个人 形机器人运动会,第一批比赛项目已敲定,包括田径、自由体操、足球、舞蹈、羽毛球等。 这场比赛,目标是建设"机器人之城"的南京如何"打"? 看技术:"大脑"加速进化,"身体"驱动攻坚正酣 "CMG世界机器人大赛·系列赛"机甲格斗擂台赛现场,参赛机器人表现惊艳。在相互出拳、踢腿的格斗 过程中,它们不仅能通过步伐的调整来保持自身平衡,还能在被击中后迅速起身。然而,去年9月,#机 器人走路需要人搀扶#还曾登上过社交平台热搜。 "这一切都是它们自己'学'出来的,专业术语叫'强化学习'。"在江苏集萃智能制造技术研究所足式机器 人实验室内,人形机器人研发总监吕自贵和技术负责人骆研博士正"带"着机器人练走路。只见骆研操作 手柄按下开关,一个人形机器人随即轻抬脚尖,在空中划弧后脚掌缓落,身体重心平稳前移,带动另一 只脚重复动作。整个过程中,机器人步履稳健,姿态自然,展现出强大的运动控制能 ...