NVIDIA港大MIT联合推出Fast-dLLM v2:端到端吞吐量提升2.5倍
机器之心·2025-10-26 04:03
自回归(AR)大语言模型逐 token 顺序解码的范式限制了推理效率;扩散 LLM(dLLM)以并行生成见长,但过去难以稳定跑赢自回归(AR)模型,尤其是在 KV Cache 复用、和 可变长度 支持上仍存挑战。 Fas t-dLLM v2 给出了一条务实路线:将预训练 AR 模型适配为适配为能并行解码的 Block-dLLM—— 且 只需~1B tokens 量级的微调 即可达到 "无损" 迁移,不必 训练数百 B tokens(如 Dream 需~580B tokens)。在 A100/H100 上,它在保持精度的同时,将端到端吞吐显著拉高, 最高可达 2.5× 。 核心看点 作者单位:HKU、NVIDIA、MIT。 论文链接:https://arxiv.org/pdf/2509.26328 项目网站链接:https://nvlabs.github.io/Fast-dLLM/v2/ 代码链接:https://github.com/NVlabs/Fast-dLLM Fast-dLLM v2 按固定块大小把序列切成若干块:块内双向注意力以并行去噪,块间保持左到右的因果关系,从而既能并行、又能沿用 AR 的语义 ...