Workflow
DeepSeek推理最高提速6倍!开源研究:加装「思维进度条」,计算量减少30%
量子位·2025-07-07 06:13

不圆 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek推理要详细还是要迅速,现在可以自己选了? 来自特拉维夫大学的研究团队开发出了一种新方法,可以 监控和控制LLM中的思考路径长度 。 超频能够减少不必要的推理步骤,使模型更快地得出结论,同时避免因过度推理导致的性能下降。 该模型已在gitHub上开源。 给LLM的推理任务装上进度条,还能控制推理的深度、调整推理速度。 加速后的模型和原模型相比, 使用的token数减少了近6倍,且都得出了正确答案 。 LLMs在显示结构化推理时,会隐式跟踪其在思考阶段的相对位置,并通过隐藏状态编码这一信息。 而论文提出了一种"思维进度向量"(Thinking Progress Vector, TPV ),可用于实时预测模型在推理阶段的相对位置,并通过可视化进度条 展示模型的推理动态。 通过干预TPV,可以加速或减速模型的推理过程,实现"超频"(overclocking)和"降频"(downclocking)。 方法:实时监控并控制推理深度 在有效推理学习过程中,模型必须 隐式地学习跟踪其思考阶段进度 ,并保持对例如距离最终答案有多近的估计。 由于进度跟踪依赖于 ...