昇腾800I A2

Search documents
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 10:10
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成 为大模型推理提效的关键路径。华为团队重磅 ...
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心· 2025-06-06 09:36
机器之心发布 机器之心编辑部 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。 华为团队重磅推出昇腾平台原生设计的 Pangu Pro MoE 72B模型,大幅降低计算开销, 并在SuperCLUE千亿内模型并列国内第一 。 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化, Pangu Pro MoE 推 理性能提升 6~8 倍,在昇腾 300I Duo 上单卡吞吐可达 321 tokens/s,实现极致性价比;在昇腾 800I A2 上更可飙升至 1528 tokens/s ,全面释放硬件潜力,打造极致的推理体验。 技术报告地址: https://gitcode.com/ascend-tribe/ascend-inference- system/blob/main/%E6%98%87%E8%85%BE%E5%B9%B3%E5%8F%B0Pangu%20Pro%20MoE%E5%85%A8%E9%93%BE%E8%B7%AF%E9%AB%98%E6%80%A7%E8% 推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力 在大模型 ...
生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网· 2025-06-06 09:26
华为软硬协同深度融合优化,强强联合打通推理系统全链路,树立MoE推理标杆。 编辑丨李希 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。华为团队重磅推出昇腾平台原生设 计的Pangu Pro MoE 72B模型,大幅降低计算开销,并在SuperCLUE千亿内模型并列国内第一。通过系统级软硬协同优化、高性能算子融合优化、模型原 生投机算法优化,Pangu Pro MoE推理性能提升6~8倍,在昇腾300I Duo上单卡吞吐可达321 tokens/s,实现极致性价比;在昇腾800I A2上更可飙升至 1528 tokens/s,全面释放硬件潜力,打造极致的推理体验。 技术报告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/tree/main/ 01 推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力 在大模型的分布式推理中,每个计算节点都像一个团队成员,信息流通、协调协作不可避免。就像一场跨部门的大项目,若每一步都开"全员大会",沟通成本 高、效率低,项目推进自然慢半拍。聪明的 ...
首次打榜就登顶,华为盘古如何以小胜大?
虎嗅APP· 2025-05-28 13:34
近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.6 :MoGE架构 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近日,华为盘古团队提出了分组混合专家模型(Mixture of Group ...