Hybrid MoE架构
Search documents
 中移动九天团队MultiPL-MoE:全新Hybrid-MoE架构用于增强通用大模型低资源代码能力
 机器之心· 2025-10-30 01:41
大语言模型(LLM)虽已展现出卓越的代码生成潜力,却依然面临着一道艰巨的挑战:如何在有限的计算 资源约束下,同步提升对多种编程语言的理解与生成能力,同时不损害其在主流语言上的性能? 为此, 中国移动九天团队 创新性地提出了 Hybrid MoE 架构 —— MultiPL-MoE ,该方案的核心在于耦合 两个层次的专家选择机制进行优化:在 Token 层级,采用配备共享专家及新颖门控权重归一化方法的稀疏 MoE,以实现与段落层级专家的高效协同;在 Segment 层级,则创新性地引入滑动窗口划分与专家选择路 由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式。 目前,该项研究已被 EMNLP 2025 接收。 因此,我们创新性地提出了一种 Hybrid MoE 结构,即 token-level MoE 和 segment-level MoE 相结合的 MoE 架构。Token-level MoE 采用典型的 sparse upcycling MoE 结构,Segment-level MoE 则利用滑动窗口获得多 个分段并搭配采用专家选择 top-k 个分段的专家选择路由的策略。实验结果证明了 M ...