Workflow
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心·2025-05-23 04:17

机器之心发布 机器之心编辑部 现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着 一系列推理层面的难题,比如推不动、算不起、部署慢,导致推理成本高昂,性能冗余浪费严重。 因此,大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题,如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅 是工程挑战,更要在承接大模型推理压力的同时,在能效、延迟、成本等多方面实现可控与优化。 在这一背景下,华为团队和昨天一样(参考: 帮大模型提速 80%,华为拿出昇腾推理杀手锏 FlashComm,三招搞定通算瓶颈 ),用数学补物理,给出了一份深度 融合软硬件的系统性方案! 他们基于昇腾算力,正式发布了三项重要的硬件亲和算子技术研究,带来了大模型推理速度与能效的双重革命 。具体包括如下: 可以看到,华为团队着力通过对大模型推理中关键算子的重构优化,实现能效、多卡协同和速度三大维度的全面突破。 作为 AI 大模型执行计算的「原子级工具」,算子如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。它们不 ...