扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈
机器之心·2025-12-11 00:43
针对这一缺陷,来自北大的研究团队提出一种新的 dLLM 推理加速框架 ODB-dLLM(Orchestrating Dual- Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models)。它通过 分析现有 dLLM 推理框架中交错的计算和访存瓶颈阶段,引入了自适应长度预测策略和跳跃共享推测解 码,以优化 dLLM 在硬件平台上的计算访存特性,最大限度地提高推理效率。 本研究由北京大学研究团队完成。通讯作者为李萌,北京大学人工智能研究院和集成电路学院助理教授, 博导,PKU SEC Lab 负责人,他的研究兴趣集中于高效、安全人工智能加速算法和芯片,旨在通过算法到 芯片的跨层次协同设计和优化,为人工智能构建高能效、高可靠、高安全的算力基础。第一作者韦临烨, 北京大学集成电路学院博士一年级在读,主要研究方向为多模态高效 AI 系统和加速器设计。 基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力, 最近吸引了广泛的关注。例如 F ...