韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

机器之心报道机器之心编辑部今年 2 月，月之暗面提出了一种名为 MoBA 的注意力机制，即 Mixture of Block Attention，可以直译为「块注意力混合」。据介绍，MoBA 是「一种将混合专家（MoE）原理应用于注意力机制的创新方法。」该方法遵循「更少结构」原则，并不会引入预定义的偏见，而是让模型自主决定关注哪些位置。 MoBA 在处理长上下文时表现出极强的潜力，它允许 Query 只稀疏地关注少量 Key-Value 块，从而大幅降低计算成本。然而，目前业界对 MoBA 性能背后的设计原则仍缺乏深入理解，同时也缺少高效的 GPU 实现，这限制了其实际应用。在这篇论文中，来自 MIT、NVIDIA 机构的研究者首先建立了一个统计模型，用于分析 MoBA 的内部机制。模型显示，其性能关键取决于路由器是否能够基于 Query-Key 的相似度，准确区分相关块与无关块。研究者进一步推导出一个信噪比，将架构参数与检索准确率建立起形式化联系。基于这一分析，本文识别出两条主要的改进路径：一是采用更小的块大小，二是在 Key 上应用短卷积，使语义相关信号在块内聚集，从而提升路由准确性。然而 ...