FlashComm

Search documents
大模型推理,不再是“一根筋”
虎嗅APP· 2025-05-22 11:41
HUAWEI X HUXIU 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域的深 厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 近期,虎嗅将打造《华为技术披露集》系列内容,全面揭秘超大规模MoE模型推理部署技 术,通过一连串的技术报告,首次全面披露技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.4 :通信优化 01 大模型的推理, 就只是算力吗? 大语言模型(Large Language Models, LLMs) 自从其问世以来,便迅速成为全球科技领域乃至 整个社会的焦点。 根据Scaling law,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数 ...
昇腾杀手锏FlashComm,让模型推理单车道变多车道
雷峰网· 2025-05-22 11:29
" MoE模型推理面临的3大通信难题,被通信尖子生华为逐一突 破,未来将进一步优化。 " 作者丨李希 大语言模型 (Large Language Models, LLMs) 自从其问世以来,便迅速成为全球科技领域乃至整个社会 的焦点。根据 Scaling law ,大语言模型的能力与其参数量的对数正相关,因此大语言模型的参数规模也 在指数级增长。随之而来的,是大语言模型部署形态的变化,从神经网络时代的单卡部署,到稠密模型时 代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家( Mixture of Experts, MoE )模型,它甚至会采用数百卡组成的集群和超节点来部署。 而在这基于集群的大模型推理中,集合通信操作就像是一群工人协作盖房子时传递材料和信息的方式,能 让多个计算节点高效配合完成任务。有一些常用集合通信操作,比如全量规约(A ll Reduce)可以想象 成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到一个地方, 进行求和、求平均值等计算。 大模型的推理,就只是算力吗? 在大模型里,多个计算节点可能各自计算了一部分参 ...
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 10:25
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 由上可以看出, 集合通信操作是大模型推理中多个计算节点协作的「桥梁」,不同的并行策略(TP、DP、EP)通过这些操作实现高效的数据交互和计算,从而 加速大模型的推理过程 。 通信:Scaling law 头顶的 ...
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 04:13
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 有一些常用集合通信操作,比如 全量规约(AllReduce) 可以想象成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到 一个地方,进行求和、求平均值等计算。在大模型里,多个计算 ...