ICCV 2025 | FDAM:告别模糊视界,源自电路理论的即插即用方法让视觉Transformer重获高清细节
机器之心·2025-10-15 07:33
针对视觉 Transformer(ViT)因其固有 "低通滤波" 特性导致深度网络中细节信息丢失的问题,我们提出了一种即插即用、受电路理论启发的 频率动态注意力调制 (FDAM)模块。它通过巧妙地 "反转" 注意力以生成高频补偿,并对特征频谱进行动态缩放,最终在几乎不增加计算成本的情况下,大幅提升了模型在分割、检 测等密集预测任务上的性能,并取得了 SOTA 效果。 该工作来自北京理工大学、RIKEN AIP和东京大学的研究团队。 研究背景:为什么这是一个重要的问题? 论文全文: https://arxiv.org/abs/2507.12006 作者主页: https://linwei-chen.github.io 实验室主页: https://ying-fu.github.io 开源代码: https://github.com/Linwei-Chen/FDAM 正如上图所示,在标准的 ViT 中,高频信息随着层数加深迅速衰减至零。解决这一根本性缺陷,释放 ViT 在高清视觉任务上的全部潜力,是当前领域亟待突破的 关键瓶颈。 现有方法的局限性 此前,一些工作尝试缓解 ViT 的 "过平滑" 问题,例如通过正则 ...