Workflow
混合专家大语言模型(MoE LLM)
icon
Search documents
Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
机器之心· 2025-08-11 03:19
稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。 然而,随着模型参数的迅速膨胀,如何高效部署和推理成了新的挑战。为此,学术界和工业界纷纷聚焦于模型压缩技术,尤其是面向 MoE 模型的 "专家级压缩"。 研究者们通过剪枝、量化、合并等方法,剔除或简化那些 "非关键" 专家,从而在保证性能的同时,显著减小模型体积。 分析专家的重要性差异不仅有助于推动更高效的模型压缩,还为深入理解 MoE LLM 的内部行为机制提供了关键视角。然而,现有方法多依赖经验性准则来识别重 要专家,缺乏对专家重要性深度的探讨。因此,本研究聚焦于一个此前被忽视的重要问题: MoE LLM 中是否普遍 存在一类在前向推理过程中发挥关键重要作用的专家子集 ? 通过对多个主流开源 MoE LLM(包括 DeepSeek 系列、Qwen3 系列、Mixtral 等)进行深入实证分析, 来自清华大学和美团的研究人员 首次发现并确认了这一特 殊且至关重要的专家子集的广泛存在。尽管这些专家数量极为有限,但 ...