超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计
机器之心·2025-12-31 09:31
随着 ChatGPT、Gemini、DeepSeek-V3、Kimi-K2 等主流大模型纷纷采用混合专家架构(Mixture-of-Experts, MoE)及专家并行策略(Expert Parallelism, EP),MoE 技术已在产业应用中逐渐成为主流。 机器之心发布 MoE 模型因其结构上的稀疏性与专家并行特性,天然引入了频繁且规模庞大的全局分布式数据交换。而 当前主流通信库及解决方案(如 DeepEP) 仍基于 "通信 与数据布局解耦" 的传统设计假设,难以高效应对实际生产中的跨设备、非连续、动态重排的数据访问模式,在高并发、长上下文与大规模专家配置的场景下, DeepEP 性能已逐渐趋近瓶颈,直接制约了 MoE 大模型的持续落地、系统稳定扩展与经济性运行。 与此同时,以代码智能体、Cursor 类对话式 IDE 为代表的新型应用, 一方 面 显著推高了用户请求规模,另一方面大幅拉长了单次推理的上下文长度,两者均呈现 出一个数量级以上的增长 。在 MoE 架构下,这种变化不仅线性放大了计算开销,还显著增加了跨专家的通信与调度成本,使得整体系统压力接近一个数量级提 升,并在规模化服务场景中进一步被放 ...