Workflow
大模型推理
icon
Search documents
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈
机器之心· 2025-05-22 04:13
机器之心发布 机器之心编辑部 在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。 近日, 华为数学家出手,祭出 FlashComm,三箭齐发,解决大模型推理通算难题 : 随着大语言模型(Large Language Models, LLMs)规模的指数级扩张,其部署形态也随之变化,显卡配置朝着规模化、集约化演进。从神经网络时代的单卡部署, 到稠密模型时代的多卡 / 单节点部署,再到以最近发布的 DeepSeek V3/R1 模型为代表的混合专家(Mixture of Experts, MoE)模型,大语言模型甚至会采用数百卡 组成的集群和超节点来部署。 可以说,模型推理早已不是「单兵作战」,而是一场高协同的「群体作战」。而在这基于集群的大模型推理中, 集合通信操作就像是一群工人协作盖房子时传递 材料和信息的方式,能让多个计算节点高效配合完成任务 。 有一些常用集合通信操作,比如 全量规约(AllReduce) 可以想象成一群工人各自收集了不同区域的建筑材料数据,全量规约就是把所有工人手里的数据汇总到 一个地方,进行求和、求平均值等计算。在大模型里,多个计算 ...
ICML 2025|如何凭「自动补全」实现100K生成3×加速?
机器之心· 2025-05-18 04:25
在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。随着 GPT-o3, DeepSeek R1 等具备 「超级上下文 窗口 」 能力的大模型持续刷新业界记录,百万甚至千万 Token 级别的推理任务已从研究话题迈入现实场景。然而,生成这些超长文本的背后,却隐藏着令人咋舌 的计算成本 —— 长时间的等待、巨大的内存负担以及偶尔重复乏味的输出,严重制约了这些模型的真正潜力。 面对这一挑战,BIGAI NLCo 团队提出了一项全新的推理加速框架 —— TokenSwift ,该工作已成功被 ICML 2025 正式接收!在这项研究中提出了一套可插拔、无 损、高效的生成加速策略,专为 100K Token 级别的长文本推理而设计。在保持原始模型输出一致性的前提下, 加速比达到 3 倍以上 ,极大提升了推理效率。 重新定义超长生成:为什么传统方法 「慢 」? 为了更好地理解 TokenSwift 的意义,我们先看一下目前主流大模型(如 LLaMA、Qwen 等)在长文本生成中的瓶颈所在。 尽管这些模型具备了强大的生成长上下文的能力,但大多数依然采用传统的自回归 (Aut ...
不到15万元!清华90后团队发布“褐蚁”一体机,已支持阿里最新Qwen3模型|钛媒体AGI
Tai Mei Ti A P P· 2025-04-30 15:09
行云集成电路创始人、CEO季宇 4月30日消息,钛媒体AGI获悉,清华90后创立的北京行云集成电路有限公司(简称"行云集成电路") 宣布,推出全新的一体机产品"褐蚁",仅需最高15万元就可以跑满血版DeepSeek R1/V3大模型,并且对 话速度达到了20token/s。 今天下午,行云集成电路创始人、CEO季宇对钛媒体AGI表示,目前"褐蚁"一体机已经支持阿里最新发 布的Qwen3系列开源大模型,包括顶配版Qwen3-235B-A22B。 具体来说,"褐蚁"一体机有三款不同的配置:最高性价比的"超大杯"褐蚁HY90,搭载双路AMD EPYC 9355服务器、24条 48G 6400M频率内存和NV 5090D计算卡,支持FP8、INT4两种数据精度,在FP8精度 下跑满血版DS能达到21token/s的对话速度,在INT4精度下则能达到28token/s,最高支持128K的上下 文,售价14.9万元;此外,行云集成电路还将推出"大杯"褐蚁HY70、"中杯"褐蚁HY50两个配置版本。 | 型号 | 福盛 HY90 | 褐蚁 HY70 | 褐蚁 HY50 | | --- | --- | --- | --- | ...
终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
机器之心· 2025-04-29 09:14
机器之心发布 机器之心编辑部 当前 AI 领域呈现「端云并发」的发展态势,端侧与云侧大模型各展所长,共同推动着智能发展与应用落地的边界。端侧模型实现本地毫秒级实时响应,云 侧模型依托强大算力支持复杂大规模推理,而两者都离不开高效的推理系统支撑。 在 GTC 2025 上,NVIDIA CEO 黄仁勋强调,大模型计算正从预训练转向推理优化阶段。 随着产业落地加速,推理计算需求正呈现爆发式增长,如何在性 能、成本和响应速度间取得平衡成为关键工程挑战,推理系统正是解决这一问题的核心 。 近日,无问芯穹发起了一次推理系统开源节,连续开源了三个推理工作,包括加速端侧推理速度的 SpecEE、计算分离存储融合的 PD 半分离调度新机制 Semi-PD、低计算侵入同时通信正交的计算通信重叠新方法 FlashOverlap,为高效的推理系统设计提供多层次助力。下面让我们一起来对这三个工作展开 一一解读: Day 1|SpecEE:基于推测的 Early Exiting 机制,让 AI PC 推理速度起飞 随着 DeepSeek 等开源模型表现出越来越强悍的性能,在 PC 端本地部署大模型的需求持续增长。尽管许多情况下使用云端 ...
14.9万元,满血流畅运行DeepSeek一体机抱回家!清华90后初创出品
量子位· 2025-04-29 04:18
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 满血DeepSeek一体机 ,价格竟然被打到 10万元 级别了! 而且还不是量化版本,正是那个671B参数、最高质量的FP8原版。 △ 左:一体机;右:DeepSeek官网 从视频中不难看出,不仅答案精准,一体机的速度也是肉眼可见地比DeepSeek官网快上一些,粗略估计是已经接近了 22 tokens/s 。 那么这个一体机到底是什么来头? 或许有小伙伴要问了,那跑DeepSeek-R1/V3的 速度 ,能跟官方一较高下吗? 可以的,甚至是 更快 的那种。例如我们提个问题,来感受一下这个feel: 一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字即可。 不卖关子,它就是由北京 行云集成电路 最新推出的产品—— 褐蚁HY90 ,具体价格定到了 14.9万元 。 而且除了产品,这家公司本身也是有不少的"标签"在身上的,其中最为吸睛或许当属CEO了: 季宇 ,清华90后博士、前华为"天才少年"、计算机学会CCF优博奖获得者。 那么褐蚁HY90具体执行起更多任务时,又会是什么样的效果? 来,更多维度的一波实测走起。 实测10万元级的Deep ...
腾讯、华为、微软、阿里专家齐聚一堂,共谈推理优化实践 | AICon
AI前线· 2025-04-23 07:28
在人工智能快速演进的浪潮下,大模型正加速重构各行业的技术底座,而 推理性能优化 正成为应对算力挑战、内存瓶颈与通信压力的关键突破口。 当前,大模型推理性能优化主要围绕 模型优化、推理加速与工程优化 在即将于 5 月 23 日 -24 日举办的 AICon 全球人工智能开发与应用大会·上海站 中,我们特别策划了《大模型推理性能优化策略》专题论坛,由阿里云公共云大模型技术服务负责人 王德山 担任专题出品人,现已确认多位业内实践者参与分享。以下为嘉宾阵容及即将带来的精彩议题简介~ 向乾彪 – 腾讯推理架构师 向乾彪在 GPU 推理加速拥有丰富经验。他的技术专长覆盖高性能异构计算及深度性能优化,并在实 践中不断突破前沿技术瓶颈。目前,向乾彪带领团队负责混元大语言模型的推理加速框架 【AngelHCF】 三大方向展开:通过模型量化、剪枝与蒸馏等手段降低计算复杂度、提升推理效率,例如 DeepSeek-R1-Distill-Qwen-32B 采用蒸馏策略,在保持高性能的同时显著压缩资源开销;依托 SGLang、vLLM 等高效推理引擎提升生成速度与系统吞吐能力;同时结合实际业务场景,合理规划 并发策略、优化 GPU 配置 ...
两台运行“满血版”DeepSeek,第四范式推出大模型推理一体机解决方案SageOne IA
IPO早知道· 2025-02-28 04:11
此 外 , 一 体 机 解 决 方 案 还 集 成 了 智 能 算 力 池 化 技 术 , 在 支 持 DeepSeek V3/R1 、 QWen2.5 、 LLama3.3等主流大模型的基础上,企业可灵活在满血版和多个蒸馏模型之间切换,GPU利用率提升 30%以上,推理性能平均提升5-10倍;同时内置大模型应用开发平台,并搭载了丰富的开箱即用AI 应用套件,帮助开发者高效开发企业级的生成式AI应用,让企业享受高效的大模型应用服务,加速AI 智能化落地进程。 具体来讲:SageOne IA大模型推理一体机解决方案,具备三大核心优势: 1) 智能算力池化,资源动态调度,突破物理机架构 大模型应用成本"一降再降"。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 据IPO早知道消息,第四范式日前推出大模型推理一体机解决方案SageOne IA,进一步减低了大模 型推理成本。如满血版的DeepSeek V3/R1仅需要两台一体机即可使用。 方案支持企业按需选择DeepSeek V3/R1、QWen2.5、LLama3.3等主流大模型,还预装了丰富的 AI应用套件,包括AIG ...
​晚点财经丨任天堂起诉《幻兽帕鲁》制作商侵权;苹果面临欧盟要求其进一步开放 iOS 的威胁
晚点LatePost· 2024-09-19 13:28
吴泳铭说 AI 算力远远不能满足需求。 蔚来计划竞购奥迪在比利时的电动车工厂。 这是大众在比利时的唯一一家工厂,主要生产奥迪 Q8 e-tron,有约 3000 名员工,因为需求疲软, 大众集团 7 月时考虑关闭该厂。据媒体报道,蔚来近几周参观了工厂,并启动了相关的报价准备程 序,准备在下周一向大众汽车提交正式报价。蔚来收购奥迪工厂可能是为应对欧盟对中国电动车加 征关税。 喜茶发布内部信,退出低价内卷。 9 月 18 日喜茶向事业合伙人发布内部信,主题为《为用户创造差异化的品牌和产品》,信中称喜 茶将 "不做同质化产品、不做单纯的低价内卷"。喜茶认为当前茶饮行业的同质化竞争是在消耗用 户对茶饮产品和品牌的热情,差异化是破局的关键,并指出 "门店规模并不是茶饮行业的关键"。 吴泳铭接管阿里巴巴集团和阿里云智能集团已经一年,今天首次在云栖大会登台演讲。他说大模型 推理成本下降速度已经远远超过摩尔定律,一年来通义千问 API 的调用价格下降了 97%,阿里云 还会继续降价。同时 CPU 主导的计算体系正在加速向 GPU 主导转移,新增算力市场超过 50% 的 需求由 AI 驱动产生,过去一年阿里云投资了大量 AI ...