GradLoc
Search documents
「上下文学习」之后,腾讯混元第二篇公开研究:精准定位RLVR训练崩溃的“罪魁祸首”Token
机器之心· 2026-02-14 04:54
这标志着 RLVR 的模型调优正在逐渐告别 "玄学",变得更加 "科学"。 本文来自腾讯混元研究博客(HY Research),是继 《 从上下文学习远比我们想象的更难 》(Learning from context is harder than we thought)之后的第二篇公开研 究。在这篇文章里,混元团队将对大模型强化学习中的 "工程深水区" 展开探索,希望通过一系列提升 RLVR 训练细粒度可观测性的基础设施工具,降低 RLVR 底 层物理和统计机理研究的 "工程壁垒"。 这篇博客提出了异常梯度定位器(Gradient Anomaly Localizer, GradLoc),可以将全局梯度突刺(gradient spike)定位到具体出现问题的 token 上,助力系统性解决 强化学习中训练不稳定的问题,让开发者不再依赖直觉试错,而是基于确凿的数据证据进行 "确定性" 的算法迭代。 如果说 2024 年的大模型竞争焦点在预训练(Pre-training),那么 2025 年的主战场已彻底转向后训练阶段。通过利用数学、代码等领域的可验证结果作为反馈信号 (RLVR),大模型正在实现推理能力的显著跃升 ...