MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心·2025-06-06 09:36
机器之心发布 机器之心编辑部 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。 华为团队重磅推出昇腾平台原生设计的 Pangu Pro MoE 72B模型,大幅降低计算开销, 并在SuperCLUE千亿内模型并列国内第一 。 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化, Pangu Pro MoE 推 理性能提升 6~8 倍,在昇腾 300I Duo 上单卡吞吐可达 321 tokens/s,实现极致性价比;在昇腾 800I A2 上更可飙升至 1528 tokens/s ,全面释放硬件潜力,打造极致的推理体验。 技术报告地址: https://gitcode.com/ascend-tribe/ascend-inference- system/blob/main/%E6%98%87%E8%85%BE%E5%B9%B3%E5%8F%B0Pangu%20Pro%20MoE%E5%85%A8%E9%93%BE%E8%B7%AF%E9%AB%98%E6%80%A7%E8% 推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力 在大模型 ...