JetBlock

Search documents
英伟达新模型上线,4B推理狂飙53倍,全新注意力架构超越Mamba 2
3 6 Ke· 2025-08-27 02:03
Jet-Nemotron是英伟达最新推出的小模型系列(2B/4B),由全华人团队打造。其核心创新在于提出后神经架构搜索(PostNAS)与新型线性注 意力模块JetBlock,实现了从预训练Transformer出发的高效架构优化。相比Qwen3、Gemma3、Llama3.2等模型,Jet-Nemotron在数学、代码、 常识、检索和长上下文等维度上准确率更高,同时在H100 GPU上推理吞吐量最高提升至53倍。 英伟达最近真的痴迷上「小模型」了。 英伟达发布了一个全新的混合架构语言模型系列,Jet-Nemotron。 论文地址:https://arxiv.org/pdf/2508.15884 项目地址:https://github.com/NVlabs/Jet-Nemotron Jet-Nemotron系列有Jet-Nemotron-2B和Jet-Nemotron-4B大小。 英伟达表示Jet-Nemotron系列「小模型」性能超越了Qwen3、Qwen2.5、Gemma3和 Llama3.2等当前最先进的开源全注意力语言模型。 Jet-Nemotron-4B模型在六个维度MMLU-pro、Math、Re ...
英伟达再出手!新型混合架构模型问世,两大创新实现53.6倍吞吐提速
机器之心· 2025-08-26 09:38
机器之心编辑部 又一个真正轻量、快速、强悍的大语言模型闪亮登场! Transformer 架构对计算和内存的巨大需求使得大模型效率的提升成为一大难题。为应对这一挑战,研究者们投入了大量精力来设计更高效的 LM 架构。 与此同时,大量工作致力于构建混合模型,将全注意力和线性注意力相结合,以在准确性和效率之间取得平衡。虽然这些模型比全注意力架构具有更高的效率, 但其准确性仍明显落后于 SOTA 全注意力模型。 近日, 来自英伟达的研究者提出了一种新的混合架构语言模型新系列 ——Jet-Nemotron 。其在达到 SOTA 全注意力模型精度的同时,还具备卓越的效率。 机器之心报道 具体来说,2B 版本的 Jet-Nemotron 性能就能赶超 Qwen3、Qwen2.5、Gemma3 和 Llama3.2 等最 SOTA 开源全注意力语言模型,同时实现了显著的效率提升。在 H100 GPU 上,其生成吞吐量实现了高达 53.6 倍的加速(上下文长度为 256K,最大 batch size)。 此外,在 MMLU 和 MMLU-Pro 基准上,Jet-Nemotron 的准确率也超过了近期一些先进的 MoE 全注意 ...