混合专家模型

Search documents
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
混沌学园· 2025-06-10 11:07
在这个 AI技术日新月异的时代,我们眼看着它不仅在改变生活,更在 改变着 商业规则。 AI可不只是那些冰冷的算法,它现在能像人一样思考、推理,甚至在某些方面 的表现超越了普通人 。这告诉我们,传统的技术和创新模式已经不够用了, 企业要想增长、要保持竞争力,就 需要 换个思路。 AI正在重新定义我们理解和实践商业创新的方式。 最近 , 混沌君旁听了 混沌学园的创始人李善友教授 的重磅 全新课程《认知型创新:从 OpenAI到DeepSeek》 。 这门课从企业创新的角度, 讲述了 全球两大顶尖 AI公司——OpenAI和DeepSeek是如何一步步走到今天的,他们究竟走过了怎样的创新之路。这对于我 们理解AI时代的技术创新和企业创新,提供了清晰且极具价值的路径。 教授 深挖 了 OpenAI最初的愿景和它如何对抗巨头的思路,解密大语言模型是如何诞生的 , 尤其是 AI能力如何从简单积累到惊人"涌现" 。 还 解读 了 DeepSeek如何在资源有限的情况下,走出一条"低成本高性能"的独特道路;更探讨 了 AI时代下,企业应该怎样构建一个能不断"涌现"创新的组织模式, 走向"技术领先"。 扫描下图二维码购买月卡 ...
中金 • 联合研究 | AI十年展望(二十三):AI+陪伴:技术降本×场景升维,提供深度情绪价值
中金点睛· 2025-05-29 23:39
联合研究 AI陪伴是目前落地相对较快、热度较高的AI应用赛道,Character.AI和Talkie率先达到千万MAU级别。 本篇报告我们从产品玩法、用户 画像、应用现状、技术原理、未来发展路径等多维度对AI陪伴应用进行梳理。 点击小程序查看报告原文 Abstract AI陪伴应用提供情绪和实用价值,核心壁垒是产品力。 AI陪伴应用的核心要素是拟人化、个性化、实时互动、沉浸感和养成感,能够满足用户的陪伴、 娱乐、幻想和效率提升需求,用户主要集中于年轻群体。AI应用在陪伴场景率先落地且发展迅速,我们认为主要系其用户需求强烈、技术门槛较低、赛道 本身容错率较高。落地核心是产品力,而中国公司具备工程师红利和产品细化打磨能力,在产品力维度具备一定优势。 技术:降本助力模式起量,多模态增厚产品体验。 混合专家模型(MoE)降低成本,赋能AI对话场景效益提升;长文本能力逐渐成为业内共识,线性化 注意力模型或为较优实现路径。产品维度,我们认为多模态丰富交互形式,图像生成、音频生成、视频生成均已具备成熟路线,未来端到端多模态有望打 开新的效率及性能空间。我们认为AI陪伴应用基于交互内容以及用户喜好生成多模态且个性化的素材的能 ...
DeepSeek R1模型完成“小版本试升级”,编程、逻辑理解上了一个层次!
华尔街见闻· 2025-05-29 00:57
周三,DeepSeek在微信群发布帖子称,DeepSeek R1模型已完成"小版本试升级",欢迎前往官方网页、APP、小程序测试(打开深度思考),API 接口和使 用方式保持不变。 DeepSeek R1模型在语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面进行了强化。 DeepSeek并未提供本次更新的更多细节。有网友测评后称,感觉模型的理解能力上了一个层次: 感觉模型的理解能力上了一个层次,比如激活参数部分,R1可以制作交互动画来展示,另外关键信息的逻辑也非常清晰。 编程能力也大幅提升,有网友测评后感叹,太吓人了,1000多行代码一次搞定,没有bug。 还有网友称,编程能力可以和"编程新王"Claude 4一较高下。 随着人工智能竞争升级,DeepSeek发布R1模型更新版。 R1的异军突起引发了全球科技股暴跌,因为投资者开始质疑,是否还需要像微软等硅谷巨头那样投入巨资构建突破性的AI模型和AI服务。 前几个月R2频传要发布 证券时报指出,自以上V3模型的小版本升级之后,DeepSeek的热度就开始下降,使用率也有所回落,并且引发了一些质疑。当前,市场最关心的依然是R2模 型发布。 今年2月,有媒体称 ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
华尔街见闻· 2025-05-29 00:57
当前,混合专家模型( Mixture of Experts, MoE)在大型语言模型中的兴起,使得以较小的计算开 销换取更大能力成为可能。然而,传统MoE普遍存在专家激活频次高度不均衡现象,当专家并行部署 于不同硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型( Mixture of Grouped Experts, MoGE) ,通过在专 家选择阶段引入分组机制,可确保跨设备的计算负载均衡,成功在 4K昇腾大规模集群 进行高效训 练。 同时,基于 MoGE架构构建的 盘古 Pro MoE大模型(72B总参数、16B激活参数) 在昇腾 300I Duo和 800I A2可实现更优的专家负载分布与计算效率(321 tokens/s和1528 tokens/s)。 在模型能力方面,盘古 Pro MoE在最新一期业界权威大模型榜单SuperCLUE上交出了超能打的成 绩,实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek-R1具有671B参数)相比,盘古Pro MoE 以72B总参数量达到了59分,千亿参数量以内大模型排行并列国内第一。并且,16B激活参数量 ...
华为盘古大模型首次打榜:昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内模型榜首
第一财经· 2025-05-28 13:36
在 AI 的竞技场上,大型语言模型( LLMs )的军备竞赛正酣。其中,混合专家模型( Mixture of Experts, MoE )凭借 "低计算开销实现强能力" 的特性,已成为这场竞赛中的 "潜力黑马",备受瞩 目。 传统的 MoE 架构,虽有着理论上的优势,却在实际落地中遭遇 "滑铁卢"。专家激活频次不均衡,如 同潜藏在高效运行背后的 "暗礁",一旦专家并行部署在不同硬件设备上,系统效率瓶颈便会凸显, 大规模训练也因此举步维艰。这一难题,犹如达摩克利斯之剑,高悬在所有试图在 MoE 架构上大展 宏图的团队头顶。 针 对 这 一 挑 战 , 华 为 盘 古 团 队 近 期 创 新 性 的 提 出 了 分 组 混 合 专 家 模 型 ( Mixture of Grouped Experts, MoGE ),通过在专家选择阶段引入动态分组机制,从底层优化负载分配逻辑,实现跨设 备计算资源的均衡调度。这一架构革新使盘古大模型能够在 4K 昇腾大规模集群中完成高效训练,突 破了传统 MoE 的工程落地瓶颈。 基于 MoGE 架构打造的盘古 Pro MoE 大模型展现出卓越的工程实践能力:模型总参数量 720 ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
机器之心· 2025-05-28 08:09
机器之心发布 机器之心编辑部 当前,混合专家模型(Mixture of Experts, MoE)在大型语言模型中的兴起,使得以较小的计算开销换取更大能力成为可能。然而,传统 MoE 普遍存在专家激活频 次高度不均衡现象,当专家并行部署于不同硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型(Mixture of Grouped Experts, MoGE) ,通过在专家选择阶段引入分组机制,可确保跨设备的计算负载均衡,成功 在 4K 昇腾大规模集群 进行高效训练。 同时,基于 MoGE 架构构建的 盘古 Pro MoE 大模型(72B 总参数、16B 激活参数) 在昇腾 300I Duo 和 800I A2 可实现更优的专家负载分布与计算效率(321 tokens/s 和 1528 tokens/s)。 针对这一行业难题,华为盘古团队(以下简称团队)推出 全新盘古 Pro MoE 大模型 。 在模型能力方面,盘古 Pro MoE 在最新一期业界权威大模型榜单 SuperCLUE 上交出了超能打的成绩,实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek- ...
华为+DeepSeek,终于不再“服务器繁忙”?
虎嗅APP· 2025-05-20 14:00
HUAWEI X HUXIU 没有人不在期待大模型能够成为下一个电动车,作为代表中国的新兴产业,在世界范围内掀 起狂澜。 然而主流的MoE架构大模型,却苦于其结构上的"先天不足":巨大的硬件成本与多重拖累效 率的环节,使得中国企业在这场芯片堆砌与效率挖掘的苦径上难以提速。 作为作为智能基础设施提供商,华为在这场战役中另辟蹊径,利用其在数学算法和工程领域 的深厚积累,为DeepSeek显著提升了效率及用户体验。 山就在那里,但中国企业找到了不一样的登顶之路。 01 大火的MoE专家网络, 也有冷热不均的问题 在人工智能技术日新月异的当下,大语言模型的发展持续突破边界。混合专家模型(MoE)作为提 升大语言模型性能的关键技术,近年来备受瞩目。 它通过将输入 token 分配给不同的专家网络,实现了模型的高效扩展,让模型在处理复杂任务时展现 出更强的能力。然而,如同硬币的两面,MoE 模型在发展过程中也面临着严峻挑战,其中负载均衡 问题尤为突出。 在混合专家(MoE)模型的推理过程中,专家调用频率的不均衡性,即"冷热专家"现象,导致负载 分布显著不均,严重影响系统推理性能。这一问题源于部分专家(热专家)被高频调用, ...
华为发布OmniPlacement技术,实现超大规模MoE专家最优动态部署,提升昇腾推理系统吞吐10%
雷峰网· 2025-05-20 13:01
针对上述问题, 华为团队 提出了一种高效的负载均衡策略OmniPlacement,通过专家重排、层间冗余部 署和近实时动态调度,显著提升MoE模型的推理性能。 " 基于昇腾算力,华为团队也会在近期全面开源 OmniPlacement,回馈开源社区与开发者。 " 作者丨李希 大火的MoE专家网络,也有冷热不均的问题 在人工智能技术日新月异的当下,大语言模型的发展持续突破边界。混合专家模型(MoE)作为提升大语 言模型性能的关键技术,近年来备受瞩目。它通过将输入 token 分配给不同的专家网络,实现了模型的高 效扩展,让模型在处理复杂任务时展现出更强的能力。然而,如同硬币的两面,MoE 模型在发展过程中 也面临着严峻挑战,其中负载均衡问题尤为突出。 在混合专家(MoE)模型的推理过程中,专家调用频率的不均衡性,即"冷热专家"现象,导致负载分布显 著不均,严重影响系统推理性能。这一问题源于部分专家(热专家)被高频调用,而其他专家(冷专家) 使用率极低,调用频率差距可达一个数量级以上。具体而言,该问题表现为以下几个方面: 负载不均 :部分专家(热专家)被频繁调用,而其他专家(冷专家)使用率 较 低 ,频率差距达到 ...
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
量子位· 2025-05-20 05:12
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 昨天的文章已经提到,昇腾超大规模MoE模型推理部署技术在本周会有持续的技术披露,果然第二天的技术报告又如期而至了。前情提要: 《华为 +DeepSeek,推理性能创新高!技术报告也公布出来了》 要问最近哪个模型最火, 混合专家模型 (MoE,Mixture of Experts)绝对是榜上提名的那一个。 它的巧妙之处,就在于把不同的任务分配给擅长处理的 专家网络 ,让整个系统性能得以提升。 但你知道吗? 正是这个关键的专家网络,也是严重影响系统推理性能的因素之一。 因为在大量任务来临之际(尤其是超大规模时),MoE并不是以"雨露均沾"的方式去分配——专家网络们的 负载均衡问题 ,就会显得尤为 突出。 这个问题的根源,是因为某些专家网络总是被频繁调用( 热专家 ),而另一些专家网络则鲜有机会派上用场( 冷专家 )。 没错,MoE里的"专家们"也是有冷热之分的,而且被调用频率的差距甚至可以达到 一个数量级以上! 如此负载不均衡的现象,就会导致整个系统推理的时间被延长,以及还有资源利用率、系统性能受限等问题。 那么此局又该如何破解? 别急, 华为团队 已经给出了 ...
零一万物联创戴宗宏离职创业 | 智能涌现独家
3 6 Ke· 2025-05-08 10:22
文|周鑫雨 编辑|苏建勋 高性价比,曾经是零一万物在模型行业中主打的特色——这主要依赖于Infra层对训练效率的优化。据了解,零一万物AI Infra团队在两个月内就完成了千卡 GPU集群和配套系统的设计、搭建和交付。 在采访中,李开复曾表示,通过AI Infra的优化,零一发布的大模型Yi-34B的训练成本下降了40%。 情况在2024年下半年急转直下。这段时间,零一万物经历了AI应用业务探索的的阻滞,以及模型进展的不顺。 知情人士称,零一万物在技术路线判断上,也曾经出现过失误。这直接导致了零一万物没有及时跟进后来成为主流的MoE(混合专家模型)架构——直到 2024年10月16日,零一万物才发布了新的旗舰大模型Yi-Lightning。 《智能涌现》独家获悉,零一万物联合创始人、技术副总裁戴宗宏于近日离职创业。在零一万物期间,戴宗宏负责AI Infra团队,主要解决大批量并行训练 时的系统瓶颈,提升训练效率,降低训练成本。 据了解,戴宗宏的创业项目,在近期获得了创新工场的投资。 关于上述信息,零一万物回复《智能涌现》:零一万物联合创始人、技术副总裁戴宗宏数月前在创新工场支持下再次创业。截至目前,零一万物今 ...