Workflow
扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧
量子位·2025-05-27 03:53

图1 不同dLLMs使用dLLM–Cache和不使用dLLM–Cache在速度和质量上的对比 dLLM-Cache具有几个重要的亮点: 1. 训练无关,即插即用。 dLLM-Cache完全在推理过程中工作,无需修改模型参数或重训练。dLLM-Cache可以在完全不损失模型输出质量 的前提下,带来最高9.1倍的推理速度提升 。 2. 通用于主流dLLM架构 ,如LLaDA、Dream以及LLaDA-V、MMaDA、Dimple等多模态模型。 EPIC Lab团队 投稿 量子位 | 公众号 QbitAI 首个用于加速 扩散式大语言模型 (diffusion-based Large Language Models, 简称 dLLMs)推理过程的 免训练 方法。 上海交通大学EPIC Lab团队提出了一种 无需训练、即插即用 的高效推理缓存机制: dLLM-Cache 。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低, 并保持了原有的生成质量。 3. 在推理过程中, 首次识别出 了prompt部分的Transformer中间层特征(Key、 ...