SpecExit算法
Search documents
 腾讯发布SpecExit算法,无损压缩端到端加速2.5倍!解决大模型长思考效率难题
 机器之心· 2025-10-24 03:40
以 DeepSeek-R1 等为代表的推理模型(Large Reasoning Models, LRMs),通过生成更长的思维链,在各类复杂任务中取得了更优的表现。但长思维链是推理模型 的 "双刃剑",虽能提升性能,但 "过度思考" 带来的语义冗余会大幅推高推理成本。 为破解大模型长思维链的效率难题,并且为了更好的端到端加速落地,我们将思考早停与投机采样无缝融合,提出了 SpecExit 方法,利用轻量级草稿模型预测 "退出信号",在避免额外探测开销的同时将思维链长度缩短 66%,vLLM 上推理端到端加速 2.5 倍。 论文:https://arxiv.org/abs/2509.24248 开源代码:https://github.com/Tencent/AngelSlim 1."思考早停" 的挑战 目前对 LRMs 思维链压缩的相关研究大致可以分为两类,一类是基于训练的方法,另一类是 Training-Free 的方法,它们都有各自的局限性: (1)基于训练的方法,通过标注数据进行有监督微调,或通过强化学习减少思维链长度。尽管压缩效果显著,但往往伴随高昂的训练成本,并导致模型输出分布 被改变,引发模型可靠性 ...