Workflow
大模型并行推理
icon
Search documents
破解大模型「无效并行推理」:Parallel-Probe问世,并行推理效率提升35.8%
机器之心· 2026-03-07 04:20
当大模型推理进入 Parallel Thinking 时代,一个关键问题随之出现: 模型在并行推理的过程中,究竟发生了什么? 多条推理路径同时展开,看似为模型带来了更强的能力,却也引入了一个长期被忽视的问题—— 大量计算是 否正在被浪费在已经「没有必要继续」的思考上? 为了回答这一问题,来自马里兰大学、圣路易斯华盛顿大学、北卡罗来纳大学教堂山分校等机构的研究团队提出了 Parallel-Probe 。不同于直接从算法设 计出发,该研究首先通过引入 2D Probing ,对 online 并行推理过程中的 全局动态性进行了系统性刻画。 研究发现,并行推理并非一个「算得越多越 好」的过程: 全局共识往往在所有分支结束之前就已提前稳定, 而少数冗长的长尾路径却持续占据大量计算资源,成为并行推理效率的主要瓶颈。 基于这些关键发现,研究团队进一步提出了一个 training-free 的并行推理控制算法 Parallel-Probe,能够在不牺牲核心准确率的前提下,显著减少无效计 算,将推理延迟降低 35.8% ,总 token 成本降低 25.8% 。 论文名称:Parallel-Probe: Towards Ef ...