生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网·2025-06-06 09:26
华为软硬协同深度融合优化,强强联合打通推理系统全链路,树立MoE推理标杆。 编辑丨李希 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。华为团队重磅推出昇腾平台原生设 计的Pangu Pro MoE 72B模型,大幅降低计算开销,并在SuperCLUE千亿内模型并列国内第一。通过系统级软硬协同优化、高性能算子融合优化、模型原 生投机算法优化,Pangu Pro MoE推理性能提升6~8倍,在昇腾300I Duo上单卡吞吐可达321 tokens/s,实现极致性价比;在昇腾800I A2上更可飙升至 1528 tokens/s,全面释放硬件潜力,打造极致的推理体验。 技术报告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/tree/main/ 01 推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力 在大模型的分布式推理中,每个计算节点都像一个团队成员,信息流通、协调协作不可避免。就像一场跨部门的大项目,若每一步都开"全员大会",沟通成本 高、效率低,项目推进自然慢半拍。聪明的 ...