Workflow
状态空间模型
icon
Search documents
Meta没做的,英伟达做了!全新架构吞吐量狂飙6倍,20万亿Token训练
具身智能之心· 2025-08-20 00:03
编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 【导读】 英伟达发布全新架构9B模型,以Mamba-Transformer混合架构实现推理吞吐量最高提升6倍,对标Qwen3-8B并在数学、代码、推理与长 上下文任务中表现持平或更优。 万万没想到,现在还紧跟我们的开源模型竟然是英伟达。 刚刚,英伟达发布了一个只有 9B大小 的 NVIDIA Nemotron Nano 2模型 。 对标的是业界标杆,千问的Qwen3-8B,但这个模型是一个完全不同的混合架构。 用英伟达的说法,这是一款革命性的 Mamba-Transformer 混合架构 语言模型。 在复杂推理基准测试中实现了和Qwen3-8B相当或更优的准确率,并且吞吐量 最高可达其 6倍 。 它的诞生只有一个目标: 在复杂的推理任务中, 实现无与伦比的 吞吐量 ,同时保持同级别模型中顶尖的精度! 在官网简单测试一下,一些 经典问题 ,都能答对。 英伟达还做了3个小工具,可以实时查天气、 ...
浙大MambaMap:基于状态空间模型的在线矢量高精地图构建
自动驾驶之心· 2025-08-04 23:33
作者 | 自动驾驶专栏 来源 | 自动驾驶专栏 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 摘要 本文介绍了 MambaMap:基于状态空间模型的在线矢量高精地图构建。高精(HD)地图对于自动驾驶至关重要,因为它们为下游任务提供了精确的道 路信息。最新的进展突出了时间建模在应对遮挡和延伸的感知范围等挑战方面的潜力。然而,现有的方法要么无法充分利用时间信息,要么在处理扩展序列 方面产生巨大的计算开销。为了应对这些挑战,本文提出了MambaMap,这是一种新型的框架,它能够高效地融合状态空间中的长距离时间特征,以构建 在线矢量高精地图。具体而言,MambaMap结合了记忆库来存储并且利用历史帧信息,动态地更新BEV特征和实例查询以提高对噪声和遮挡的鲁棒性。此 外,本文还在状态空间中引入了门控机制,以计算高效的方式选择性地集成地图元素的依赖关系。创新性地,本文设计了多向扫描策略和时空扫描策略,分 别在BEV级和实例级增强特征提取能力。这些策略显著提高了所提出方法的预测准 ...