Workflow
算子优化
icon
Search documents
算芯合一!华为披露昇腾体系大模型核心算子设计细节
雷峰网· 2025-05-23 10:01
" 算力利用率突破 70%、跨卡延迟低至亚微秒级,华为算子技术 如何重新定义硬件性能? " 作者丨李希 AMLA × 融合算子 × SMTurbo —— 让大模型推理速度与能效双重革命 基于昇腾算力,华为团队本次发布了三项重要的硬件亲和算子技术研究: 针对Decode阶段的MLA 计算,华为团队提出了AMLA(Ascend MLA)算子,通过数学等价变化和硬件 亲和的深度优化, 释放昇腾芯片澎湃算力 。具体而言,通过 对浮点数二进制编码的重解析 ,把复杂的乘 法运算变成简单的加法操作,AMLA实现了基于 存内计算 的变量更新,充分利用算力的同时减少数据搬 运;结合一系列基于昇腾硬件的计算流程及流水优化手段,进一步提升算子的整体性能。当前AMLA算法 的Attention 算子充分发挥昇腾硬件的计算能力,平均算力利用率达到55%,最高可达71%,优于 FlashMLA公开的结果。 大模型推理的 "乐高积木":算子为何如此重要? 算子是 AI 大模型执行计算的 "原子级工具",如同乐高积木中的基础模块,负责从加减乘除到特征提取的 一切核心操作。它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、 ...
以加代乘?华为数学家出手,昇腾算子的高能设计与优化,性能提升30%!
机器之心· 2025-05-23 04:17
机器之心发布 机器之心编辑部 现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着 一系列推理层面的难题,比如推不动、算不起、部署慢,导致推理成本高昂,性能冗余浪费严重。 因此,大模型推理的「速度」与「能效」成为所有算力厂商与算法团队绕不开的核心命题,如何让它们真正「跑得快、用得省」亟需全新的解法。这显然不仅仅 是工程挑战,更要在承接大模型推理压力的同时,在能效、延迟、成本等多方面实现可控与优化。 在这一背景下,华为团队和昨天一样(参考: 帮大模型提速 80%,华为拿出昇腾推理杀手锏 FlashComm,三招搞定通算瓶颈 ),用数学补物理,给出了一份深度 融合软硬件的系统性方案! 他们基于昇腾算力,正式发布了三项重要的硬件亲和算子技术研究,带来了大模型推理速度与能效的双重革命 。具体包括如下: 可以看到,华为团队着力通过对大模型推理中关键算子的重构优化,实现能效、多卡协同和速度三大维度的全面突破。 作为 AI 大模型执行计算的「原子级工具」,算子如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。它们不 ...
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 07:12
首创 MLLM 与 DiT 深度融合,阶跃星辰发布开源图像编辑模型 Step1X-Edit。 整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 在图像编辑领域,开源模型正在加速追赶顶级闭源模型。近日,阶跃星辰正式发布并开源了图像编辑大模型 Step1X-Edit,在性能上达到当前开源体系 的 SOTA 水平,且性能可与 GPT-4o 与 Gemini 2 Flash 等闭源模型相媲美。 GEdit‑Bench 中每个子任务的 VIEScore,所有结果均由 GPT‑4o 评估 Step1X-Edit 由 19B 参数构成(7B 多模态语言模型 MLLM + 12B 扩散图像 Transformer DiT),具备语义精准解析、身份一致性保持和高精度区域级 控制三项核心能力。模型支持包括文字替换、风格迁移、材质变换、人物修图在内的 11 类高频图像编辑任务,能够灵活应对复杂的编辑指令。 在技术路径上,Step1X-Edit 首次在开源体系中实现了多模态语言理解与扩散图像生成的深度融合。模型能够解析参考图像与用户编辑指令,提取潜在 嵌入,并与扩散式图像解码器协同工作,生成符合预期的高质量编辑图 ...
与 00 后开源者聊 DeepSeek 开源周:一直开源最强模型,可能是不想赚钱,也可能是想推动更大变化丨开源对话#2
晚点LatePost· 2025-02-27 14:03
"当 AI 足够强大后,开源还是不是一个好选择?" 整理丨刘倩 程曼祺 嘉宾丨美国西北大学 MLL Lab 博士王子涵 ▲扫描上图中的二维码,可收听播客。《晚点聊 LateTalk》#102 期节目。欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》 推出的播客节目。"最一手的商业、科技访谈,最真实的从业者思考。" 这是《晚点 LatePost》 「开源对话」系列的第 2 篇。该系列将收录与开源相关的访谈与讨论。系列文章见文末的合集#开源对话。 上周五,DeepSeek 在官方 Twitter 上预告了下一周会连续 5 天开源 5 个代码库,进入 "open-source week"开源周。 目前 DeepSeek 已放出的 4 个库,主要涉及 DeepSeek-V3/R1 相关的训练与推理代码 。 这是比发布技术报告和开源模型权重更深度的开源。 有了训练和推理 工具,开发者才能更好地在自己的系统里,实现 DeepSeek 系列模型的高效表现。 (注:所有 4 个库和后续开源可见 DeepSeek GitHub 中的 Open-Inf ...