Workflow
混合专家(MoE)
icon
Search documents
MiniMax追着DeepSeek打
Jing Ji Guan Cha Wang· 2025-06-18 11:32
2025年2月,DeepSeek火爆出圈,除了免费和好用之外,还因其仅以500万至600万美元的GPU成本,就 训练出了与OpenAI o1能力不相上下的DeepSeek R1模型,引起行业震撼,不过这一成本数据也引发了广 泛争议。 MiniMax称,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本仅为53.5万 美元,这一成本"比最初的预期少了一个数量级"。 MiniMax解释,MiniMax M1的强文本处理能力和更低成本,背后是两大核心技术作为支撑,一是线性 注意力机制(Lightning Attention)混合构架和强化学习算法CISPO。例如,CISPO算法通过裁剪重要性 采样权重,而非传统算法中调整Token的更新方式,来提升强化学习的效率和稳定性。 经济观察报 记者 陈月芹 6月17日,MiniMax(稀宇科技)宣布其自主研发的MiniMax M1模型开源,并计划在未来5天内每天发 布一项新产品或新技术。而这款MiniMax M1模型,在关键技术规格、架构设计、上下文处理能力、训 练成本等维度全面对标DeepSeek R1,甚至是谷歌Gemini 2.5 Pro ...
200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
Hua Er Jie Jian Wen· 2025-06-17 11:57
当DeepSeek的推理模型震撼全球AI圈时,一家估值200亿人民币的中国独角兽正悄然磨刀霍霍,准备用仅53万美元的训练成本和颠覆性架构设 计,向这个新贵发起正面挑战。 17日,AI创业公司MiniMax发布了其首款推理模型M1,根据基准评测,M1性能超越国内闭源模型,接近海外最领先模型,部分任务超过 DeepSeek、阿里、字节,以及OpenAI、谷歌和Anthropic等最新最强的开闭源模型。 这场较量的核心不仅在于性能,更在于效率——与DeepSeek R1相比,在生成64K token时,M1消耗的算力不到其50%;在100K token时,仅为其 25%。 MiniMax称,M1的整个强化学习过程仅使用512块英伟达H800 GPU训练三周,租赁成本53.74万美元(约合380万人民币)。这一成本控制"比最 初预期少了一个数量级"。MiniMax创始人&CEO闫俊杰发文表示:"第一次感觉到大山不是不能翻越。" MiniMax-M1:混合专家架构与线性注意力机制 MiniMax-M1采用了混合专家(MoE)架构和线性注意力机制(Lightning Attention),这是对传统Transformer ...
理想的VLA可以类比DeepSeek的MoE
理想TOP2· 2025-06-08 04:24
本文经过认真思考,有任何不同意见都可在评论区留言,我都会回复的。 看待一个东西的角度有非常多种,当一个人说XX可以和XX类比时,一般是某一个角度有相似之处, 任意两个事物不太可能所有细节都可以类比。 理想VLA和DeepSeek MoE( 混合专家 )类比点: VLA和MoE本身的想法都有其他人先提过了,都是首次完整落地到另一个大领域,在其中有大量创 新,并取得良好结果。 理想暂时还没有自己的MLA( 多头潜在注意力机制 ),之后会有的。DeepSeek的MLA创新尺度是这 个方法的理念之前没人提过。 DeepSeek之前的MoE,专家数量一般只有8-16个,单个专家需处理多种类型知识,专业化程度低,不 同专家重复学习相同公共知识,参数利用率低。 DeepSeek的MoE核心通过 Fine-Grained Expert Segmentation( 细粒度专家划分)和 Shared Expert Isolation( 共享专家隔离),处理方式和原来的MoE已经非常不同了。 前者将单个专家拆分为更小的子专家(原专家隐藏层维度缩小至 1/4,数量增至4倍),让激活专家 组合灵活性显著提升(从120种组合的数量级增至 ...
生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网· 2025-06-06 09:26
华为软硬协同深度融合优化,强强联合打通推理系统全链路,树立MoE推理标杆。 编辑丨李希 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。华为团队重磅推出昇腾平台原生设 计的Pangu Pro MoE 72B模型,大幅降低计算开销,并在SuperCLUE千亿内模型并列国内第一。通过系统级软硬协同优化、高性能算子融合优化、模型原 生投机算法优化,Pangu Pro MoE推理性能提升6~8倍,在昇腾300I Duo上单卡吞吐可达321 tokens/s,实现极致性价比;在昇腾800I A2上更可飙升至 1528 tokens/s,全面释放硬件潜力,打造极致的推理体验。 技术报告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/tree/main/ 01 推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力 在大模型的分布式推理中,每个计算节点都像一个团队成员,信息流通、协调协作不可避免。就像一场跨部门的大项目,若每一步都开"全员大会",沟通成本 高、效率低,项目推进自然慢半拍。聪明的 ...
上帝视角的昇腾MoE训练智能交通系统,Adaptive Pipe&EDPB让训练效率提升70%
华尔街见闻· 2025-06-03 13:05
随着大模型的迅猛发展,混合专家( MoE)模型凭借其独特的架构优势,成为扩展模型能力的重要 方向。MoE通过创新性的路由机制,动态地将输入token分配给不同的专家网络,不仅高效实现了模 型参数的规模化扩展,更在处理复杂任务时展现出显著优势。然而, 将 MoE模型在分布式集群环境 下进行训练时,训练效率不足,已成为亟待解决的难题。 实践 表明, MoE模型训练集群的效率面临两方面挑战:(1) 专家并行引入计算和通信等待 , 当 模型规模较大时,需要切分专家到不同设备形成并行( EP),这就引入额外 All-to-All 通信,同时 MoE层绝大部分EP通信与计算存在时序依赖关系, 一般的 串行执行模式 会 导致大量计算单元空闲 , 等待 通信;( 2) 负 载不均引入计算和计算等待 , MoE算法核心是"有能者居之",在训练过 程中会出现 部分热专家被频繁调用,而冷专家使用率较低 ;同时,真实训练数据的长度不一,不同 的模型层(如稀疏层、嵌入层等)的计算量也存在明显差异,造成不同卡之间计算也在互相等待。 形象地说, MoE训练系统就像一个交通拥塞严重的城区:1)人车混行阻塞,所有车辆(计算)必须 等待行人(通 ...
专家一半时间在摸鱼?Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%
雷峰网· 2025-06-03 07:17
" 一半以上训练时间都浪费在了 「 等待 」 。 " 作者丨李希 随着大模型的迅猛发展,混合专家( MoE)模型凭借其独特的架构优势,成为扩展模型能力的重要方 向。MoE通过创新性的路由机制,动态地将输入token分配给不同的专家网络,不仅高效实现了模型参数 的规模化扩展,更在处理复杂任务时展现出显著优势。然而, 将 MoE模型在分布式集群环境下进行训练 时,训练效率不足,已成为亟待解决的难题。 01 MoE大规模训练难题:一半以上的训练时间在等待? 华为构建了名为 AutoDeploy 的 仿真平台 ,它是一个 基于昇腾硬件训练系统的 "数字孪生"平台,通过 计算/通信/内存三维度的多层级建模、昇腾硬件系统的高精度映射、全局化算法加速运行等技术, 能在 1 小时 内模拟 百万次训练场景 , 实现 MoE模型多样化训练负载的快速分析 和自动找到与 集群硬件规格 匹配的最优策略选择。在训练实践验证中,该建模框架可达到 90%精度指标 ,实现低成本且高效的最优 并行选择。 针对 Pangu Ultra MoE 718B 模型,在单卡内存使用约束下,华为通过 AutoDeploy 以训练性能为目标 找到了 TP8/ ...
成本降低20%!蚂蚁集团用国产芯片训练AI
国芯网· 2025-03-25 04:46
国芯网[原:中国半导体论坛] 振兴国产半导体产业! 不拘中国、 放眼世界 ! 关注 世界半导体论坛 ↓ ↓ ↓ 3月25日消息,据外媒报道,蚂蚁集团成功使用包括阿里巴巴和华为在内的国产芯片,结合混合专家 (MoE)机器学习方法,训练人工智能(AI)模型,成本降低约20%。 测试结果显示,该技术可媲美英伟达H800芯片的性能。虽然蚂蚁集团仍在使用英伟达芯片进行AI开 发,但其最新模型已主要依赖包括超威半导体(AMD)及中国国产芯片的替代方案。 对此,蚂蚁集团方面回应称,蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进 展,也会逐步通过开源分享。 业内观点认为,在美国对华高端芯片出口限制背景下,蚂蚁集团这一步意义重大,这说明中国基本已经 突破了美国的半导体制裁。 此外,蚂蚁集团开源Ling系列模型框架及训练策略,也可推动国产AI技术普惠化,降低中小企业和研究 机构入局门槛。 ***************END*************** 半导体公众号推荐 第二步:在公众号里面回复"加群",按照提示操作即可。 爆料|投稿|合作|社群 文章内容整理自网络,如有侵权请联系沟通 投稿 或 商务合作 请 ...
速递|蚂蚁集团突破技术封锁:国产芯片助力AI训练成本直降20%,性能媲美英伟达H800
Z Finance· 2025-03-24 09:50
图片来源:蚂蚁金服 据彭博社报道,蚂蚁集团正采用中国制造的半导体技术开发人工智能模型训练方案,并有望将成本降 低20%。 根据报道,蚂蚁集团正携手关联企业阿里巴巴及华为,共同推进基于国产芯片的混合专家(MoE)机 器学习模型训练。该方案在性能表现上可与英伟达的H800芯片相媲美。值得注意的是,虽然蚂蚁集 团仍在AI开发中部分使用英伟达产品,但其最新模型已主要转向包括AMD及国产芯片在内的替代方 案。 这一技术突破标志着蚂蚁集团正式加入中美科技企业的竞争行列。自DeepSeek展示出以远低于 OpenAI和谷歌数十亿美元投资训练强大模型的可能性后,这场竞争愈发激烈。蚂蚁集团的实践凸显 了中国企业如何通过本土化替代方案突破技术封锁。尽管H800并非最尖端产品,但作为一款高性能 处理器,其已被列入美国对华出口管制清单。 蚂蚁集团本月发布的研究论文宣称,其模型在部分基准测试中已超越Meta Platforms 的表现。若这一 成果属实,蚂蚁集团的平台将为中国人工智能发展注入新动能,特别是在降低AI服务推理成本方面具 有重要意义。 随着全球企业对人工智能的持续投入,多级模型已成为行业热点,谷歌与杭州初创企业DeepSe ...