微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍
问题的关键在于:大多数扩散语言模型采用双向注意力机制,这与标准的 KV 缓存机制不兼容,导致并行预测的优势无法转化为实际的速度提升。 近日,腾讯微信 AI 团队提出了 WeDLM (WeChat Diffusion Language Model),这是 首个在工业级推理引擎(vLLM)优化条件下,推理速度超越同等 AR 模型 的扩散语言模型。 腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 倍以上,同时保持甚至提升生成质量。 引言 自回归(AR)生成是当前大语言模型的主流解码范式,但其逐 token 生成的特性限制了推理效率。扩散语言模型(Diffusion LLMs)通过并行恢复多个 mask token 提供了一种替代方案,然而在实践中,现有扩散模型往往难以在推理速度上超越经过高度优化的 AR 推理引擎(如 vLLM)。 论文标题:WeDLM: Reconciling Diffusion Language Models ...