阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
量子位·2025-05-28 04:22
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 既能提升模型能力,又不显著增加内存和时间成本 ,LLM第三种Scaling Law被提出了。 对于 1.6B模型 ,能实现性能接近4.4B模型, 内存占用仅为后者的1/22,延迟增加量为1/6 。 由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多 token)。 并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。 这就是阿里通义团队提出的 PARSCALE 。 目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。 阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。 他们将CFG的并行思想从 " 生成阶段的推理优化 " 扩展为 " 训练和推理全流程的「计算缩放」 "。 让我们来扒一扒技术细节。 将CFG的并行思想扩展到计算缩放 PARSCALE对于CFG双路径的灵感迁移 CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生 ...