华为又开源了个大的：超大规模MoE推理秘籍

金磊发自凹非寺量子位 | 公众号 QbitAI 超大规模MoE模型（如DeepSeek），到底该怎么推理才能做到又快又稳。现在，这个问题似乎已经有了标准答案—— 华为一个新项目，直接把推理超大规模MoE背后的架构、技术和代码，统统给开源了！这个新开源项目名叫 Omni-Infer ，整体来看，它对于企业用户来说是非常利好的。例如它可以给企业提供PD分离部署方案，针对QPM进行系统级优化，还会分享大规模商用过程中硬件使用的"方法论"。而且对于开发者和开源社区，华为这"一呼"也是起到了"百应"的效果。北京智源研究院副院长兼总工程师林咏华表示：北京智源研究院一直以来致力于人工智能开源生态建设，很高兴看到Omni-infer项目开源，智源团队打造的面向多芯片的FlagScale框架也在第一时间接入了Omni-infer，期待后续有更多生态合作。 | FlagOpen / FlagScale (Public) | | | | | | | A Notifications | Fork 81 | Star 308 | | | --- | --- | --- | --- | --- | - ...