Workflow
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
量子位·2025-07-07 09:35

鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI Meta挖走OpenAI大批员工后,又用OpenAI的技术搞出新突破。 这是什么杀人又诛心 (doge) ? 新架构名为 2-Simplicial Transformer ,重点是通过修改标准注意力,让Transformer能更高效地利用训练数据,以突破当前大模型发展的 数据瓶颈。 而核心方法,就是基于OpenAI提出的Triton,将标准点积注意力推广到三线性函数。 实验结果显示,在同等参数量和数据量下,相较于传统Transformer,新架构在数学、编程、推理等任务上均有更好的表现。 并且,2-Simplicial Transformer的缩放指数高于传统Transformer——这意味着 随着参数增加,新架构加持下的模型性能提升更快,更适用 于有限数据的场景 。 三元线性注意力 传统Transformer的核心机制是点积注意力,其计算复杂度较低,但对复杂任务 (如逻辑推理、数学运算等) 表达能力有限。 针对于此,Meta的这项研究,重点放在将点积注意力从二元线性操作扩展到三元线性操作。 简单来说,就是在计算注意力时引入第三个向量,来增加模型对复杂模式 ...