混合专家模型(MoE)

Search documents
中金 • 联合研究 | AI十年展望(二十三):AI+陪伴:技术降本×场景升维,提供深度情绪价值
中金点睛· 2025-05-29 23:39
联合研究 AI陪伴是目前落地相对较快、热度较高的AI应用赛道,Character.AI和Talkie率先达到千万MAU级别。 本篇报告我们从产品玩法、用户 画像、应用现状、技术原理、未来发展路径等多维度对AI陪伴应用进行梳理。 点击小程序查看报告原文 Abstract AI陪伴应用提供情绪和实用价值,核心壁垒是产品力。 AI陪伴应用的核心要素是拟人化、个性化、实时互动、沉浸感和养成感,能够满足用户的陪伴、 娱乐、幻想和效率提升需求,用户主要集中于年轻群体。AI应用在陪伴场景率先落地且发展迅速,我们认为主要系其用户需求强烈、技术门槛较低、赛道 本身容错率较高。落地核心是产品力,而中国公司具备工程师红利和产品细化打磨能力,在产品力维度具备一定优势。 技术:降本助力模式起量,多模态增厚产品体验。 混合专家模型(MoE)降低成本,赋能AI对话场景效益提升;长文本能力逐渐成为业内共识,线性化 注意力模型或为较优实现路径。产品维度,我们认为多模态丰富交互形式,图像生成、音频生成、视频生成均已具备成熟路线,未来端到端多模态有望打 开新的效率及性能空间。我们认为AI陪伴应用基于交互内容以及用户喜好生成多模态且个性化的素材的能 ...
DeepSeek R1模型完成“小版本试升级”,编程、逻辑理解上了一个层次!
华尔街见闻· 2025-05-29 00:57
周三,DeepSeek在微信群发布帖子称,DeepSeek R1模型已完成"小版本试升级",欢迎前往官方网页、APP、小程序测试(打开深度思考),API 接口和使 用方式保持不变。 DeepSeek R1模型在语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面进行了强化。 DeepSeek并未提供本次更新的更多细节。有网友测评后称,感觉模型的理解能力上了一个层次: 感觉模型的理解能力上了一个层次,比如激活参数部分,R1可以制作交互动画来展示,另外关键信息的逻辑也非常清晰。 编程能力也大幅提升,有网友测评后感叹,太吓人了,1000多行代码一次搞定,没有bug。 还有网友称,编程能力可以和"编程新王"Claude 4一较高下。 随着人工智能竞争升级,DeepSeek发布R1模型更新版。 R1的异军突起引发了全球科技股暴跌,因为投资者开始质疑,是否还需要像微软等硅谷巨头那样投入巨资构建突破性的AI模型和AI服务。 前几个月R2频传要发布 证券时报指出,自以上V3模型的小版本升级之后,DeepSeek的热度就开始下降,使用率也有所回落,并且引发了一些质疑。当前,市场最关心的依然是R2模 型发布。 今年2月,有媒体称 ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
华尔街见闻· 2025-05-29 00:57
当前,混合专家模型( Mixture of Experts, MoE)在大型语言模型中的兴起,使得以较小的计算开 销换取更大能力成为可能。然而,传统MoE普遍存在专家激活频次高度不均衡现象,当专家并行部署 于不同硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型( Mixture of Grouped Experts, MoGE) ,通过在专 家选择阶段引入分组机制,可确保跨设备的计算负载均衡,成功在 4K昇腾大规模集群 进行高效训 练。 同时,基于 MoGE架构构建的 盘古 Pro MoE大模型(72B总参数、16B激活参数) 在昇腾 300I Duo和 800I A2可实现更优的专家负载分布与计算效率(321 tokens/s和1528 tokens/s)。 在模型能力方面,盘古 Pro MoE在最新一期业界权威大模型榜单SuperCLUE上交出了超能打的成 绩,实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek-R1具有671B参数)相比,盘古Pro MoE 以72B总参数量达到了59分,千亿参数量以内大模型排行并列国内第一。并且,16B激活参数量 ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
机器之心· 2025-05-28 08:09
机器之心发布 机器之心编辑部 当前,混合专家模型(Mixture of Experts, MoE)在大型语言模型中的兴起,使得以较小的计算开销换取更大能力成为可能。然而,传统 MoE 普遍存在专家激活频 次高度不均衡现象,当专家并行部署于不同硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型(Mixture of Grouped Experts, MoGE) ,通过在专家选择阶段引入分组机制,可确保跨设备的计算负载均衡,成功 在 4K 昇腾大规模集群 进行高效训练。 同时,基于 MoGE 架构构建的 盘古 Pro MoE 大模型(72B 总参数、16B 激活参数) 在昇腾 300I Duo 和 800I A2 可实现更优的专家负载分布与计算效率(321 tokens/s 和 1528 tokens/s)。 针对这一行业难题,华为盘古团队(以下简称团队)推出 全新盘古 Pro MoE 大模型 。 在模型能力方面,盘古 Pro MoE 在最新一期业界权威大模型榜单 SuperCLUE 上交出了超能打的成绩,实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek- ...
华为+DeepSeek,终于不再“服务器繁忙”?
虎嗅APP· 2025-05-20 14:00
HUAWEI X HUXIU 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域 的深厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 01 大火的MoE专家网络, 也有冷热不均的问题 在人工智能技术日新月异的当下,大语言模型的发展持续突破边界。混合专家模型(MoE)作为提 升大语言模型性能的关键技术,近年来备受瞩目。 它通过将输入 token 分配给不同的专家网络,实现了模型的高效扩展,让模型在处理复杂任务时展现 出更强的能力。然而,如同硬币的两面,MoE 模型在发展过程中也面临着严峻挑战,其中负载均衡 问题尤为突出。 在混合专家(MoE)模型的推理过程中,专家调用频率的不均衡性,即"冷热专家"现象,导致负载 分布显著不均,严重影响系统推理性能。这一问题源于部分专家(热专家)被高频调用, ...
华为发布OmniPlacement技术,实现超大规模MoE专家最优动态部署,提升昇腾推理系统吞吐10%
雷峰网· 2025-05-20 13:01
针对上述问题, 华为团队 提出了一种高效的负载均衡策略OmniPlacement,通过专家重排、层间冗余部 署和近实时动态调度,显著提升MoE模型的推理性能。 " 基于昇腾算力,华为团队也会在近期全面开源 OmniPlacement,回馈开源社区与开发者。 " 作者丨李希 大火的MoE专家网络,也有冷热不均的问题 在人工智能技术日新月异的当下,大语言模型的发展持续突破边界。混合专家模型(MoE)作为提升大语 言模型性能的关键技术,近年来备受瞩目。它通过将输入 token 分配给不同的专家网络,实现了模型的高 效扩展,让模型在处理复杂任务时展现出更强的能力。然而,如同硬币的两面,MoE 模型在发展过程中 也面临着严峻挑战,其中负载均衡问题尤为突出。 在混合专家(MoE)模型的推理过程中,专家调用频率的不均衡性,即"冷热专家"现象,导致负载分布显 著不均,严重影响系统推理性能。这一问题源于部分专家(热专家)被高频调用,而其他专家(冷专家) 使用率极低,调用频率差距可达一个数量级以上。具体而言,该问题表现为以下几个方面: 负载不均 :部分专家(热专家)被频繁调用,而其他专家(冷专家)使用率 较 低 ,频率差距达到 ...
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
量子位· 2025-05-20 05:12
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 昨天的文章已经提到,昇腾超大规模MoE模型推理部署技术在本周会有持续的技术披露,果然第二天的技术报告又如期而至了。前情提要: 《华为 +DeepSeek,推理性能创新高!技术报告也公布出来了》 要问最近哪个模型最火, 混合专家模型 (MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的 专家网络 ,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以"雨露均沾"的方式去分配——专家网络们的 负载均衡问题 ,就会显得尤为 突出。 这个问题的根源,是因为某些专家网络总是被频繁调用( 热专家 ),而另一些专家网络则鲜有机会派上用场( 冷专家 )。 没错,MoE里的"专家们"也是有冷热之分的,而且被调用频率的差距甚至可以达到 一个数量级以上! 如此负载不均衡的现象,就会导致整个系统推理的时间被延长,以及还有资源利用率、系统性能受限等问题。 那么此局又该如何破解? 别急, 华为团队 已经给出了 ...
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 13:01
自今年二月起,DeepSeek 便因其开源旗舰级推理模型DeepSeek-R1 而引发全球瞩目——该模型性能 堪比全球前沿推理模型。其独特价值不仅体现在卓越的性能表现,更在于仅使用约2000块NVIDIA H800 GPU 就完成了训练(H800 是H100 的缩减版出口合规替代方案),这一成就堪称效率优化的 典范。 几天后,Elon Musk 旗下xAI 发布了迄今最先进的Grok-3 模型,其性能表现略优于DeepSeek-R1、 OpenAI 的GPT-o1 以及谷歌的Gemini 2。与DeepSeek-R1 不同,Grok-3 属于闭源模型,其训练动用 了惊人的约20万块H100 GPU,依托xAI "巨像"超级计算机完成,标志着计算规模实现了巨大飞跃。 xAI "巨像" 数据中心 Grok-3 展现了无妥协的规模扩张——约200,000块NVIDIA H100 显卡追求前沿性能提升。而 DeepSeek-R1 仅用少量计算资源就实现了相近的性能,这表明创新的架构设计和数据策展能够 与蛮力计算相抗衡。 效率正成为一种趋势性策略,而非限制条件。DeepSeek 的成功重新定义了AI扩展方式的讨 论。我 ...
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
量子位· 2025-04-06 02:33
白交 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI AI不过周末,硅谷也是如此。 大周日的,Llama家族上新,一群LIama 4就这么突然发布了。 这是Meta首个基于MoE架构模型系列,目前共有三个款: Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。 最后一个尚未推出,只是预告,但Meta已经毫不避讳地称前两者是 "我们迄今为止最先进的型号,也是同类产品中最好的多模态型号" 。 与此同时,大模型竞技场排名迎来一轮更新。 此次发布的Llama 4 Maverick,在困难提示、编码、数学、创意写作方面并列第一;得分1417,不仅大大超越了此前Meta自家的Llama-3- 405B (提升了149分) ,还成为史上第4个突破1400分的模型;。 详细来看一些关键词—— Llama 4 Scout ,16位专家的170亿激活参数的多模态模型, 单个H100 GPU可运行 , 同类SOTA,并拥有10M上下文窗口 Llama 4 Maverick ,128位专家的170亿激活参数多模态模型,击败GPT-4o和Gemini 2.0 Flash,与DeepS ...