Workflow
混合专家网络模型架构(MoE)
icon
Search documents
MoE那么大,几段代码就能稳稳推理 | 开源
量子位· 2025-07-02 09:33
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 混合专家网络模型架构(MoE) 已经成为当前大模型的一个主流架构选择,以最近开源的盘古Pro MoE为例,其基于MoGE架构构建的混 合专家架构,总参数量达720亿,激活参数量为160亿,专门针对昇腾硬件优化,在性能与效率上表现突出。 盘古还实现了在 推理时 做到又快又稳。 在技术特性上,盘古模型引入 "快思考" 和 "慢思考" 双系统,可根据问题复杂度自动切换响应模式,并在推理性能上实现突破——在昇腾 800I A2上单卡推理吞吐性能达1148 tokens/s,经投机加速技术可提升至1528 tokens/s,显著优于同等规模稠密模型。 那么让盘古、DeepSeek、Qwen这些开源的MoE模型在昇腾硬件上推理,能够达到易维护、高性能,并且全面开源的技术项目有没有呢? 现在,这个问题似乎有了标准答案—— 华为 一个新项目,直接把推理超大规模MoE背后的架构、技术和代码,统统给 开源了! 这个新开源项目名叫 Omni-Infer ,整体来看,它对于企业用户来说是非常利好的。 例如它可以给企业提供PD分离部署方案,针对QPM进行系统级优化,还会分享大规模商 ...