Workflow
英伟达新模型上线,4B推理狂飙53倍,全新注意力架构超越Mamba 2
NvidiaNvidia(US:NVDA) 3 6 Ke·2025-08-27 02:03

Jet-Nemotron是英伟达最新推出的小模型系列(2B/4B),由全华人团队打造。其核心创新在于提出后神经架构搜索(PostNAS)与新型线性注 意力模块JetBlock,实现了从预训练Transformer出发的高效架构优化。相比Qwen3、Gemma3、Llama3.2等模型,Jet-Nemotron在数学、代码、 常识、检索和长上下文等维度上准确率更高,同时在H100 GPU上推理吞吐量最高提升至53倍。 英伟达最近真的痴迷上「小模型」了。 英伟达发布了一个全新的混合架构语言模型系列,Jet-Nemotron。 论文地址:https://arxiv.org/pdf/2508.15884 项目地址:https://github.com/NVlabs/Jet-Nemotron Jet-Nemotron系列有Jet-Nemotron-2B和Jet-Nemotron-4B大小。 英伟达表示Jet-Nemotron系列「小模型」性能超越了Qwen3、Qwen2.5、Gemma3和 Llama3.2等当前最先进的开源全注意力语言模型。 Jet-Nemotron-4B模型在六个维度MMLU-pro、Math、Re ...