Workflow
硬件感知架构搜索
icon
Search documents
英伟达韩松团队新作:具有后神经架构搜索的高效语言模型
量子位· 2025-08-26 08:11
时令 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达开源又放大招了! 韩松团队 推出了一款全新的基于后神经架构搜索的高效语言模型—— Jet-Nemotron 。 该模型在一系列基准测试中,不仅表现出与Qwen3、Qwen2.5、Gemma 3和Llama 3.2相当甚至更优的准确率,还在生成吞吐量上实现最高 53.6倍加速,在预填充阶段达到6.1倍加速。 值得一提的是,在MMLU、MMLU-Pro和BBH基准上,Jet-Nemotron-2B相比Qwen3-1.7B-Base吞吐量提高了47倍,缓存大小缩小至1/47。 同时,它还实现了比DeepSeek-V3-Small和Moonlight (共150亿参数,22亿激活参数) 更高的准确率。 代码和预训练模型都将开源,我们先来看看Jet-Nemotron是如何构建的。 Jet-Nemotron:基于后神经架构搜索构建 首先,Jet-Nemotron是在 后神经架构搜索 (Post Neural Architecture Search,PostNAS)的基础上构建的。 其中,后神经架构搜索(PostNAS)模型是一种"站在大模型肩膀上做改造"的架构搜 ...