Workflow
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
量子位·2025-09-12 08:46

时令 发自 凹非寺 量子位 | 公众号 QbitAI Qwen下一代模型架构,抢先来袭! Qwen3-Next 发布,Qwen团队负责人林俊旸说,这就是 Qwen3.5的抢先预览版 。 基于Qwen3-Next,团队先开源了Qwen3-Next-80B-A3B-Base。 模型参数80B,但训练成本连Qwen3-32B的 十分之一都不到 ,并且在32 k以上的上下文推理吞吐能达到后者的 十倍以上 。 基于这一模型,团队接连出手,同步开发并发布了两大新模型: Qwen3-Next-80B-A3B-Instruct :在256K超长上下文处理任务中展现出显著优势。 Qwen3-Next-80B-A3B-Thinking :在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。 同时,在保留的标准注意力层中,他们进一步引入了多项优化设计: 网友表示,这更新频率令人震惊。 混合注意力机制 混合注意力机制 高稀疏度MoE结构 稳定性优化 多token预测机制 线性注意力在长上下文处理中效率很高,但召回能力有限,而标准注意力计算开销大、推理效率低,单独使用均存在局限。 为此,Qwen团队引入Ga ...