Workflow
AdaSEKA
icon
Search documents
让大模型看懂「高亮标注」:在注意力计算前编辑Key向量,用频谱分解让模型「听你指挥」丨ICLR'26
量子位· 2026-03-31 03:06
SEKA团队 投稿 量子位 | 公众号 QbitAI 想让大模型重点关注提示词里的某句话可没那么容易。 在NLP领域,注意力引导 (Attention Steering) 是控制大语言模型 (LLM) 聚焦行为的核心技术之一,其中提示高亮 (Prompt Highlighting) ,即让模型优先关注用户指定的关键文本是一项关键策略。 然而,现有方法因需要显式存储完整注意力矩阵,与FlashAttention等高效实现完全不兼容,带来了严重的延迟与显存瓶颈。 为了攻克这一难题,来自爱丁堡大学的Weixian (Waylon) Li联合华为英国研究所、伦敦玛丽女王大学以及RayNeo的合作者,提出了 SEKA (Spectral Editing Key Amplification) 及其自适应变体 AdaSEKA 。 该方法另辟蹊径,在注意力计算之前直接编辑Key向量,通过频谱分解学习"相关性子空间"来引导注意力分配,天然兼容FlashAttention, 延迟开销几乎为零。目前,该项工作已被人工智能顶级会议 ICLR 2026 接收。 这一操作在数学上等价于为注意力分数添加了一个低秩偏置项,但因为它完全作用于 ...