Jacobi Forcing模型
Search documents
自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源
机器之心· 2025-12-30 06:57
在大语言模型(LLM)落地应用中,推理速度始终是制约效率的核心瓶颈。传统自回归(AR)解码虽能保证生成质量,却需逐 token 串行计算,速度极为缓慢; 扩散型 LLM(dLLMs)虽支持并行解码,却面临训练成本高昂、质量下降及 KV 缓存兼容问题;投机解码(Speculative Decoding)则需额外引入草稿模型,系统 复杂度大增。 Jacobi Forcing 核心优势: 破解并行解码的 "三元悖论" Jacobi Forcing 的创新之处在于打破了 "低代价、高速度、高质量" 的不可能三角,其核心优势体现在三大维度: 近期,来自 UCSD Hao AI Lab 和上海交大 Deng Lab 的团队提出了一种突破性解决方案 ——Jacobi Forcing,该方案无需重构模型架构,即可将标准 AR 模型转化为 原生因果并行解码器,在编码、数学等任务中实现最高 4 倍 wall-clock 提速和 4.5 倍 tokens-per-forward 提升,同时保持接近 AR 模型的生成质量,为 LLM 高效推 理开辟了新路径。 论文地址: https://arxiv.org/pdf/2512.1468 ...