极坐标位置嵌入
Search documents
LSTM之父率队造出PoPE:终结RoPE泛化难题,实现Transformer的极坐标进化
机器之心· 2026-01-02 01:55
而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中,分析表明,当前流行的旋转位置嵌入(RoPE)方法中的 what 与 where 是纠缠在一起的。这种纠缠会损害模型性能,特别是当决策需要对这两个因素进行独立匹配时。 基于这一观察,他们提出了新的方案: 极坐标位置嵌入(Polar Coordinate Position E mb edding ) ,简称 PoPE 。 编辑|Panda Transformer 架构中的注意力机制是根据内容(what)和序列中的位置(where)将键(key)与查询(query)进行匹配。 该团队表示,PoPE 消除了内容与位置的混淆,使得其在需要仅通过位置或仅通过内容进行索引的诊断任务上表现远优于 RoPE。 论文标题:Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings 论文地址:https://arxiv.org/abs/2509.10534 该论文的一作为 Anand Gopalakrishn ...