NeurIPS 2025 | 英伟达发布Nemotron-Flash:以GPU延迟为核心重塑小模型架构
NvidiaNvidia(US:NVDA) 机器之心·2025-12-01 00:40

导读 过去两年,小语言模型(SLM)在业界备受关注:参数更少、结构更轻,理应在真实部署中 "更快"。但只要真正把它们跑在 GPU 上,结论往往令人意外 —— 小模型其实没有想象中那么快。 参数缩小了,延迟却常常没有同步下降;结构轻量化了,吞吐却未必提升。这并非个别模型的问题,而是小模型设计长期忽略了一个根本事实: "模型更小" 并不 等于 "延迟更友好" 。 英伟达研究院就是从这一盲区重新出发:不是把大模型简单缩小,而是把 "真实 GPU 延迟" 作为结构设计的第一原则,全面重构小模型应该长成的样子。最终构建 的 Nemotron-Flash 模型同时实现了 SOTA 准确率、低延迟、高吞吐,打败了众多业界小模型。Nemotron-Flash 已集成进 TensorRT-LLM,单 H100 GPU 吞吐可达 41K tokens/second。 该论文已被 NeurIPS 2025 接收,相关海报将于 12 月 4 日在 San Diego 展示。 论文链接:https://arxiv.org/pdf/2511.18890 Hugging Face: https://huggingface.co/nvidi ...