Workflow
一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择
量子位·2025-05-28 04:22

AutoThink团队 投稿 量子位 | 公众号 QbitAI 在日益强调"思维能力"的大语言模型时代, 如何让模型在"难"的问题上展开推理,而不是无差别地"想个不停" ,成为当前智能推理研究的重 要课题。 中国科学院自动化研究所联合鹏城实验室 提出了一种高效的推理策略, 赋予推理大模型根据题目难度自主切换思考模式的能力: 通过一个小小的省略号作为提示词 + 多阶段强化学习,引导大模型自主决定是否深度思考、思考多少。 研究背景:大模型"想太多",是优点还是负担? 在大语言模型快速发展的今天,越来越多的模型开始具备"深度思考能力"。 比如,DeepSeek-R1系列模型引入了一种特别的提示结构:先 ,再 。也就是说,模型在回答之前会"思考"一番,生成一 整段 包含反复自我反思、自我验证 的逻辑推理,然后才给出结论[1]。这种方式是近来提升模型准确率的重要方法。"深度思考"的确带来了好 处,模型不再"张口就答",而是会分析、论证、验证;在复杂问题中,能显著提升答对率,避免"拍脑袋"行为。但是,如果问题本身很简单, 模型还有必要"苦思冥想"一大段吗? 答案是:未必。事实上很多情况下,模型在解决简单任务时也会机械地 ...