英伟达成美国大模型开源标杆:Nemotron 3连训练配方都公开,10万亿token数据全放出
NvidiaNvidia(US:NVDA) 量子位·2025-12-26 06:35

而且开放得很彻底: 不仅开放模型权重,还要把超过10万亿token的训练数据、预训练和后训练软件、训练配方全部公开。 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达在开源模型上玩的很激进: "最高效的开放模型家族"Nemotron 3,混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。 与其他开源模型相比性能有竞争力,且速度快1.5-3.3倍。 把Mamba和Transformer混着用 Nemotron 3在架构层面追求推理效率的最大化。 传统Transformer的自注意力机制需要对不断增长的KV Cache做线性扫描,序列越长,计算开销越大。 英伟达的解决方案是大量使用Mamba-2层替代自注意力层——Mamba层在生成时只需要存储固定大小的状态,不受序列长度影响。 以Nano型号为例,整个模型主要由交替堆叠的Mamba-2层和MoE层构成,自注意力层只保留了少数几个。 论文给出的层排布模式是:5个Mamba-2+MoE的重复单元,接3个同样结构的单元,再来1个包含注意力层的单元,最后是4个Mamba- 2+MoE单元。 在8k输入、16k输出的典型推理场景下 ...