Workflow
算芯合一!华为披露昇腾体系大模型核心算子设计细节
雷峰网·2025-05-23 10:01

" 算力利用率突破 70%、跨卡延迟低至亚微秒级,华为算子技术 如何重新定义硬件性能? " 作者丨李希 AMLA × 融合算子 × SMTurbo —— 让大模型推理速度与能效双重革命 基于昇腾算力,华为团队本次发布了三项重要的硬件亲和算子技术研究: 针对Decode阶段的MLA 计算,华为团队提出了AMLA(Ascend MLA)算子,通过数学等价变化和硬件 亲和的深度优化, 释放昇腾芯片澎湃算力 。具体而言,通过 对浮点数二进制编码的重解析 ,把复杂的乘 法运算变成简单的加法操作,AMLA实现了基于 存内计算 的变量更新,充分利用算力的同时减少数据搬 运;结合一系列基于昇腾硬件的计算流程及流水优化手段,进一步提升算子的整体性能。当前AMLA算法 的Attention 算子充分发挥昇腾硬件的计算能力,平均算力利用率达到55%,最高可达71%,优于 FlashMLA公开的结果。 大模型推理的 "乐高积木":算子为何如此重要? 算子是 AI 大模型执行计算的 "原子级工具",如同乐高积木中的基础模块,负责从加减乘除到特征提取的 一切核心操作。它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、 ...