多模态推理最高加速3.2倍！华为诺亚新算法入选NeurIPS 2025

ViSpec团队投稿量子位 | 公众号 QbitAI 不牺牲任何生成质量，将多模态大模型推理最高加速3.2倍！华为诺亚方舟实验室最新研究已入选NeurIPS 2025。 VLM用投机推理技术加速有限大模型的多模态能力，正以前所未有的速度发展，但一个"老大难"问题也日益凸显：推理速度。当模型需要一边"看图"一边"说话"，尤其是在生成长篇图文并茂的回复时，计算成本和时间延迟会急剧增加，这极大地限制了VLM在实时交互、边缘部署等场景下的应用。为了让大模型"说"得更快，学术界和工业界普遍采用投机推理技术。它就像一个聪明的"军师" （小型的草稿模型）和一个决断的"主公" （大型的目标模型）。截至目前，投机推理（Speculative Decoding）技术已成为大语言模型（LLM）推理加速的"标准动作"，但在多模态大模型（VLM）上的应用却举步维艰，现有方法加速比不到1.5倍，性能提升有限。为此，华为诺亚方舟实验室提出了一种专为视觉语言模型设计的全新推理加速框架—— 视觉感知投机推理（Vision-Aware Speculative Decoding, ViSpec），首次在该领域 ...