Workflow
多输入多输出状态空间模型(MIMO SSM)
icon
Search documents
老牌Transformer杀手在ICLR悄然更新:Mamba-3三大改进趋近设计完全体
机器之心· 2025-10-14 08:24
机器之心报道 编辑:冷猫 至今为止 Transformer 架构依然是 AI 模型的主流架构,自从其确立了统治地位后,号称 Transformer 杀手的各类改进工作就没有停止过。 在一众挑战者中最具影响力的自然是 2023 年社区爆火的基于结构化的状态空间序列模型(SSM)架构的 Mamba。 Mamba 的爆火可能和名字有关,但硬实力确实强大。 在当时,Mamba 在语言建模方面可以媲美甚至击败 Transformer。而且,它可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度 序列,并实现 5 倍的推理吞吐量提升。 在 Mamba 问世后,涌现出了超多在不同任务上使用 Mamba 的工作以及一些改进工作,诞生了了 MoE-Mamba、Vision Mamba、VMamba、U-Mamba、 MambaByte、MambaOut 等多项工作,被称为 「Tra nsfor mer 最有力的继任者」 。 但 Mamba 在 2024 年的 ICLR 会议中遭遇了滑铁卢 ,最终还是被拒稿。 在 2024 年,在 Mamba 发布的半年后, Mamba-2 正式发布 ,拿下了顶会 ...