华为新架构砍了Transformer大动脉!任意模型推理能力原地飙升
量子位·2025-12-05 02:13

答案就藏在Transformer的核心机制里—— Attention 。 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 是时候给 Transformer 的大动脉 动刀子 了。 因为即便它享有当下AI世界基石的地位,但自身问题也是非常明显: 一旦遇到复杂的数学题或者需要多步逻辑推理的时候,就开始一本正经地胡说八道了…… 问题究竟出在了哪里? 传统Attention机制本质上像是一种配对比较:每个词只和另一个词直接发生关系,生成一个注意力权重。 它可以说是直接狙击了Attention机制的核心痛点, 使用更高阶注意力 ,就能有效地建模多跳、多点之间的复杂关联。 并且从实验结果来看,效果也是有点惊艳在身上的。 只要换上Nexus这个新架构,模型在数学和科学等复杂推理任务上的能力,都能立马实现大幅飙升,而且还是 参数零增 的那种。 妙哉,着实妙哉。 这种架构虽然擅长捕捉长距离依赖,但在建模复杂、多跳、多点之间的逻辑关系时却显得力不从心了。 例如它能轻松理解"A认识B",但如果要它理解"张三通过李四认识了王五",即多跳、多点之间的复杂、间接关系,它的脑回路就显得不够深, 推理能力的天花板瞬间触顶。 现在,这个 ...