英伟达帮你省钱,让大模型推理「短而精」,速度快5倍
现在,英伟达研究院的最新研究给出了答案:关键不在于设计多复杂的惩罚,而在于用对强化学习优化方 法。 大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模 型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。 如果 scale-up 长链思维是通往 AGI 的路径,那么现有思维链的冗长问题是我们亟待解决的。 那么,能不能让模型「少说废话」,既快又准? 过去的尝试大多失败:各种复杂的长度惩罚(Length Penalty)要么让模型乱答,要么训练不稳定,结果就 是效率提升了,准确率却掉了。 论文标题:DLER: Doing Length pEnalty Right — reinforcement learning for more concise and efficient reasoning DLER 来了!推理模型的「减长秘籍」 DLER 首先是细致及全面了分析了引入长度惩罚之后出现的新的强化学习训练问题,包括: 对于这些问题,DLER 提出了一套简单却强大的强化学习训练配方: 更令人惊喜的是,DL ...