交替「推理 - 擦除」范式

Search documents
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
机器之心· 2025-05-15 06:04
作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论 文。 本文提出一个 交替 「推理 - 擦除 」的深度思考新范式 PENCIL ,比传统 CoT 更高效地解决更复杂的推理任务。理论上,我们证明 PENCIL 可用 最优空间 与 最 优时间 下解决所有可计算问题,而这对于传统的 CoT 是不可能的!该工作已被机器学习顶会 ICML 2025 收录。 最近的大模型(如 OpenAI 的 o1/o3、DeepSeek 的 R1)发现能通过在测试阶段 深度思考(Test-Time Scaling) 来大幅提高模型的推理能力。目前实现深度思考的 关键在于使用 长链思维链(Long Chain-of-Thought,CoT) ,即让模型生成更长中间结果得到最终答案。然而,传统 「只写不擦 」的方法在处理高难度、大规 模任务时面临以下瓶颈: 不过实际上,并非所有中间思路都后续推理有用:例如定理证明里,引理一旦验证通过,其具体推导可被丢弃;解数学题时,已知某条思路走不通就无需保留那 段 「尝试 」的细节。纵观计算机 ...