强化学习 - filings, earnings calls, financial reports, news

强化学习

Search documents

12.1万高难度数学题让模型性能大涨，覆盖FIMO/Putnam等顶级赛事难度，腾讯上海交大出品

量子位· 2025-06-06 00:58

DeepTheorem团队投稿量子位 | 公众号 QbitAI 12.1万道IMO级难度数学"特训题"，让AI学会像人类一样推导数学证明！ "特训"过后，模型定理证明性能大涨，7B模型性能比肩或超越现有的开源模型和Claude3.7等商业模型。 "特训题"为 Deep Theore m ，是首个基于自然语言的数学定理证明框架与数据集，由腾讯AI Lab与上海交大团队联合推出。团队表示，定理证明是数学前沿的重要组成部分，但当前大语言模型（LLM）在数学推理，特别是通过强化学习（RL）进行训练时，往往需要可以自动验证的答案，导致大模型无法像数学家那样通过自然语言进行定理证明。图（b）展示经过强化学习训练的DeepTheorem-7B模型性能，比肩或超越现有的开源模型和商业模型（Gemini2.0-flash， Qwen2.5-72B- Instruct， Claude3.7 等），仅次于o1、o3以及Gemini2.5-pro强推理模型。 DeepTheorem-121K 1、规模与难度：专为"极限挑战"而生 DeepTheorem训练集的显著特点是其大规模与高难度。其包含121K ...

TENCENT(HK:00700)

数学定理证明

强化学习

Artificial Intelligence

DeepTheorem

数学定理证明

强化学习

Artificial Intelligence

DeepTheorem

一张卡干俩活，华为要把算力榨干

虎嗅APP· 2025-06-05 14:24

HUAWEI X HUXIU 三分之一个世纪前，加拿大学者们提出了经典的MoE模型神经网络结构，在人类探索AI的「石器时代」中，为后世留下了变革的火种。近十年前，美国硅谷的互联网巨擎在理论和工程等方面，突破了MoE模型的原始架构，让这个原本被置于学术高阁的理念，化身成为了随后AI竞争的导火索。如今，后发优势再一次来到了大洋此岸，以华为为代表的中国科技企业，纷纷提出对MoE架构的优化重组方案。尤其是华为的MoGE架构，不仅克服了MoE负载不均衡及效率瓶颈的弊病，还能够降本增效，便于训练和部署。 AI之战远未终结，但正如在其他领域中「多快好省」的中国产业底色一样，大模型这棵生于西方长于彼岸的科技树，也同样会被东方智慧经手后，进化为更加普适和亲切的工具。近期，虎嗅将打造《华为技术披露集》系列内容，通过一连串的技术报告，首次全面披露相关的技术细节。希望本系列内容能为业界起到参考价值，也希望更多人能与华为一起，共同打造长期持续的开放协作生态环境，让昇腾生态在中国茁壮成长。《华为技术披露集》系列 VOL.11 ：RL后训练在大模型竞赛白热化的当下，「强化学习后训练」已成为突破LLM性能天花板的核 ...

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

21世纪经济报道· 2025-06-05 11:03

RL后训练已成为大模型性能突破的「杀手锏」，而算力浪费和集群效率低成为一大难题。这次，华为团队祭出两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡，资源利用率翻倍，还打破了同步算法限制，让训练速度再提升50%。在大模型竞赛白热化的当下，「强化学习后训练」已成为突破LLM性能天花板的核心路径。爆火出圈的Op e nAI o 1、De e pSe e k -R1等模型，背后都是依靠RL后训练点石成金。相较于预训练阶段的「广撒网」式知识获取，RL 后训练通过驱动模型与外部环境进行动态交互，直接塑造了 LLM 在复杂任务中的推理效能。当前， RL后训练阶段已经吃掉了训练全流程2 0%的算力，未来会飙升到5 0%，直接影响模型的性能和成本。在传统RL后训练中，训练和推理得排队干活，也就说大量算力都在「摸鱼」。对此，华为团队拿出「RL Fusi on训推共卡」和「St a l eSync 准异步并行」两大黑科技，把训练效率和资源利用率拉满。 · RL Fu si o n：让一张卡同时兼顾训练和推理两件事，资源利用率和吞吐翻倍。 · St a l eSy ...

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

量子位· 2025-06-05 10:28

梦晨发自凹非寺量子位 | 公众号 QbitAI 近期arxiv最热门论文， wen&清华LeapLab 团队最新成果：在强化学习训练大模型推理能力时，仅仅20%的高熵token就能撑起整个训练效果，甚至比用全部token训练还要好。团队用这个发现在Qwen3-32B上创造了新的SOTA记录：AIME'24上达到63.5分，AIME'25上达到56.7分，这是600B参数以下直接从base模型训练的最高分。最大响应长度从20k延长到29k，AIME'24的分数更是飙升到了68.1分。经典的二八法则（或帕累托法则）指出，通常80%的结果由20%的关键因素驱动，但剩下80%也是不能轻易舍弃的。但是在大模型强化学习这里，80%低熵token不仅可以舍弃，甚至还可能起副作用，所以这篇论文被命名为"超越二八法则"。此外，团队还从token熵的角度探究了RL对LLM的主要影响，并进一步讨论了RL与SFT的区别、LLM RL的特殊性与clip-higher相较于 entropy bonus的优势。揭开Chain-of-Thought的熵分布密码要理解这项研究，需要先从一个有趣的观察说起：团队发 ...

Artificial Intelligence

Artificial Intelligence

Qwen3-32B

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

量子位· 2025-06-05 10:28

梦晨发自凹非寺量子位 | 公众号 QbitAI 近期arxiv最热门论文， Qwen&清华LeapLab 团队最新成果：在强化学习训练大模型推理能力时，仅仅20%的高熵token就能撑起整个训练效果，甚至比用全部token训练还要好。团队用这个发现在Qwen3-32B上创造了新的SOTA记录：AIME'24上达到63.5分，AIME'25上达到56.7分，这是600B参数以下直接从base模型训练的最高分。最大响应长度从20k延长到29k，AIME'24的分数更是飙升到了68.1分。揭开Chain-of-Thought的熵分布密码要理解这项研究，需要先从一个有趣的观察说起：团队发现，当大模型进行链式思考（Chain-of-Thought）推理时，token的熵分布呈现出一个独特的模式：大部分token的熵都很低，只有少数token表现出高熵特征。具体来说，超过50%的token熵值低于0.01，而只有20%的token熵值大于0.672。经典的二八法则（或帕累托法则）指出，通常80%的结果由20%的关键因素驱动，但剩下80%也是不能轻易舍弃的。但是在大模型强化学习这里，80 ...

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

雷峰网· 2025-06-05 09:17

RL后训练已成为大模型性能突破的「杀手锏」，而算力浪费和集群效率低成为一大难题。这次，华为团队祭出两大黑科技直接破局。不仅在CloudMatrix 384超节点实现MoE大模型训推共卡，资源利用率翻倍，还打破了同步算法限制，让训练速度再提升50%。作者丨李希在大模型竞赛白热化的当下，「强化学习后训练」已成为突破 LLM 性能天花板的核心路径。爆火出圈的 OpenAI o1 、 DeepSeek-R1 等模型，背后都是依靠 RL 后训练点石成金。相较于预训练阶段的「广撒网」式知识获取， RL 后训练通过驱动模型与外部环境进行动态交互，直接塑造了 LLM 在复杂任务中的推理效能。当前， RL 后训练阶段已经吃掉了训练全流程 20% 的算力，未来会飙升到 50% ，直接影响模型的性能和成本。在传统 RL 后训练中，训练和推理得排队干活，也就说大量算力都在「摸鱼」。对此，华为团队拿出「 RL Fusion 训推共卡」和「 StaleSync 准异步并行」两大黑科技，把训练效率和资源利用率拉满。 · RL Fusion ：让一张卡同时兼顾训练和推理两件事，资源利用率和吞吐翻倍。 · S ...

10行代码，AIME24/25提高15%！揭秘大模型强化学习熵机制

机器之心· 2025-06-05 07:14

本文作者分别来自于清华大学、北京大学、上海AI实验室等机构。本文共同第一作者崔淦渠、张宇臣、陈嘉诚来自上海AI实验室，研究方向为大模型的推理增强。通讯作者为上海AI实验室成宇教授、上海AI实验室周伯文教授、清华大学丁宁助理教授。 Nature never undertakes any change unless her interests are served by an increase in entropy. 自然界的任何变化，唯有在熵增符合其利益时方会发生—— Max Planck 在强化学习中，我们又该如何让熵增符合我们的利益？近日，来自上海人工智能实验室、清北，UIUC 等机构的研究者的工作揭示了大模型强化学习中的熵变化的机制。研究内容主要如下：在 Qwen, Mistral, LLaMA 和 Deepseek Model family 上，我们验证了这一点：论文标题：The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models 1. 大模型强化学习中的熵塌缩问题强化学习的核心挑战在于利用 - 探 ...

Artificial Intelligence

Artificial Intelligence

字节跳动ByteBrain团队提出秒级推理强化学习VMR系统

news flash· 2025-06-05 06:49

6月5日，字节跳动技术团队微信公众号发文称，字节跳动ByteBrain团队主导，联合UC Merced和UC Berkeley提出了VMR L，研发了一套基于深度强化学习的VMR系统，在保持近似最优性能的同时，将推理时间压缩至1.1秒，成功实现系统性能与工业可部署性的统一。本工作已在系统顶会EuroSys25发表。本文两位共同一作是字节跳动ByteBrain团队的实习生，研究聚焦于长期被忽视但至关重要的虚拟机重调度(VMR)问题。(字节跳动技术团队) ...

Hu Xiu· 2025-06-05 03:14

《硅谷101》创始人泓君邀请了Energent.ai联合创始人Kimi Kong和HeyRevia创始人Shaun Wei，一起和两位前Google的技术专家聊聊Gemini模型登顶背后的底层逻辑。以下是这次对话内容的精选: 一、Gemini2.5崛起背后的底层逻辑泓君：谷歌此次发布的Gemini 2.5 Pro，在当前各项评测中的数据都是所有大模型中最好的，Kimi你可以分析一下它是如何做到的吗？从去年在大会前夜被OpenAI的4o模型"精准狙击"，到今年Gemini 2.5 Pro全面霸榜。短短一年时间， Gemini是如何完成从追赶者到领跑者的逆转？ Kimi：我已经离开DeepMind快一年时间了，也不太清楚我的前同事们在这一年中又做了哪些新的创新。但大语言模型训练根本的步骤是不变的，包括以下三点：Pre-training（预训练）、SFT（Supervised Fine-tuning，监督微调）和利用RLHF（基于人类反馈的强化学习）技术做的Alignment（对齐）。大概在去年的NeurIPS（神经信息处理系统大会）上，业内已经普遍承认，公开网络数据基本都已经抓完了，就像化石燃料已 ...

大语言模型训练

强化学习

自然语言处理

Artificial Intelligence

Artificial Intelligence

Gemini 2.5 Pro

Perplexity

人形机器人“擂台赛”，南京这样“打”

Nan Jing Ri Bao· 2025-06-05 00:21

全面推进"大脑""小脑""肢体"等部件研发，初步建立整机小批量生产制造能力人形机器人"擂台赛"，南京这样"打" □ 南京日报/紫金山新闻记者张安琪从4月的半程马拉松到5月的格斗大赛，越来越多的机器人体育赛事火热上演。8月还将举办世界首个人形机器人运动会，第一批比赛项目已敲定，包括田径、自由体操、足球、舞蹈、羽毛球等。这场比赛，目标是建设"机器人之城"的南京如何"打"？看技术："大脑"加速进化，"身体"驱动攻坚正酣 "CMG世界机器人大赛·系列赛"机甲格斗擂台赛现场，参赛机器人表现惊艳。在相互出拳、踢腿的格斗过程中，它们不仅能通过步伐的调整来保持自身平衡，还能在被击中后迅速起身。然而，去年9月，#机器人走路需要人搀扶#还曾登上过社交平台热搜。 "这一切都是它们自己'学'出来的，专业术语叫'强化学习'。"在江苏集萃智能制造技术研究所足式机器人实验室内，人形机器人研发总监吕自贵和技术负责人骆研博士正"带"着机器人练走路。只见骆研操作手柄按下开关，一个人形机器人随即轻抬脚尖，在空中划弧后脚掌缓落，身体重心平稳前移，带动另一只脚重复动作。整个过程中，机器人步履稳健，姿态自然，展现出强大的运动控制能 ...