deepseek技术解读(3)-MoE的演进之路
自动驾驶之心·2025-07-06 08:44
作者 | 姜富春 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/18565423596 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 0. 引言 本篇讲讲deepseek在MoE(Mixture-of-Experts)上的演进过程。DeepSeek是MoE稀疏模型的忠实玩家。主版 本模型从DeepSeekMoE(V1) 到 DeepSeek V3,一直坚持走MoE的技术路线,并且持续做出一些创新。本 文参考paper并结合源码阅读,理解MoE的演进过程和具体实现。 1.简述MoE的发展历程 首先我们简单回顾下MoE的发展历史,早在1991年一篇名为《Adaptive Mixtures of Local Experts 》的工 作,最早提出了Mixture of Experts的原型框架,如图1,直至今日,MoE的框架依然保持这种形式。 MoE(Mixture of Experts)是一种网络层结构, 网络层主要包括三部 ...