全新线性注意力范式！哈工深张正团队提出模长感知线性注意力！显存直降92.3%！

本文一作孟维康是哈尔滨工业大学（深圳）与鹏城实验室联合培养的博士生，本科毕业于哈尔滨工业大学，主要研究方向是高效能基础模型。通讯作者张正教授，哈尔滨工业大学（深圳）的长聘教授及博士生导师，教育部青年长江学者，广东特支计划青年珠江学者，深圳市优青。长期从事高效能多模态机器学习的研究，专注于高效与可信多模态大模型。当 Transformer 席卷计算机视觉领域，高分辨率图像、超长序列任务带来的算力与显存瓶颈愈发凸显：标准 Softmax 注意力的二次复杂度，让 70K+token 的超分辨率任务直接显存爆炸，高分辨率图像分割、检测的推理延迟居高不下。线性注意力虽通过核函数重构实现了线性复杂度，完美解决了算力开销问题，却始终无法摆脱性能退化的问题，与原生 Softmax 注意力的精度差距始终难以弥合。近日，哈工深张正团队、联合鹏城实验室、昆士兰大学等团队，发布重磅论文《Norm×Direction: Restoring the Missing Query Norm in Vision Linear Attention》，提出 NaLaFormer（Norm-aware Linear Attention ...