谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍
机器之心·2025-05-30 03:28
近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案 ,实现了推理速度的突破! 在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒 的生成速度震惊 学界,展现了扩散模型在并行生成上的潜力。然而,开源扩散 LLM 却因 缺乏 KV 缓存机制和并行解码质量衰退 ,实际推理速度长期被自回归模型压制. 通过创新的技术组合,在不依赖重新训练模型的前提下,该工作为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其核 心优势。 一、 核心技术 分块 KV 缓存与置信度感知并行解码 论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding 项目地址:https://nvlabs.github.io/Fast-dLLM 论文链接:http://arxiv.org/abs/2505.22618 ...