Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
量子位·2025-05-14 04:57
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓! 有已经读完报告的网友,还发现了其中的更多亮点。 比如这位Hugging Face研究员感叹,Qwen3在RL阶段的样本量,竟然不到4k。 密集模型的架构与Qwen2.5相似,但移除了Qwen2中使用的QKV偏置,并在注意力机制中引入了QK-Norm,以确保Qwen3的稳定训练。 采用了双模式架构,一个模型同时支持推理和非推理任务,根据需要自动切换。 训练和微调过程采取分段式策略,逐步构建模型能力。 采取了"大带小"的模式,从大号模型中蒸馏数据训练小号模型。 与Qwen2.5-MoE不同,Qwen3-MoE设计不包含共享专家,另外Qwen3采用了全批次负载均衡损失来促进专家专业化。 | Models | | | Layers Heads (Q / KV) # Experts (Total / Activated) Context Length | | --- | --- | --- | --- | | Qwen3-30B-A3B | 48 | 32 / 4 | 128 / 8 ◎ 公众号 · } ...