Workflow
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位·2025-06-05 10:28

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 近期arxiv最热门论文, wen&清华LeapLab 团队最新成果: 在强化学习训练大模型推理能力时, 仅仅20%的高熵token就能撑起整个训练效果 ,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME'24上达到63.5分,AIME'25上达到56.7分, 这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME'24的分数更是飙升到了68.1分。 经典的二八法则(或帕累托法则)指出,通常80%的结果由20%的关键因素驱动,但剩下80%也是不能轻易舍弃的。 但是在大模型强化学习这里,80%低熵token不仅可以舍弃,甚至还可能起副作用,所以这篇论文被命名为"超越二八法则"。 此 外,团队还从token熵的角度探究了RL对LLM的主要影响,并进一步讨论了RL与SFT的区别、LLM RL的特殊性与clip-higher相较于 entropy bonus的优势。 揭开Chain-of-Thought的熵分布密码 要理解这项研究,需要先从一个有趣的观察说起: 团队发 ...