Workflow
单向交叉注意力
icon
Search documents
聊一聊多模态的交叉注意力机制
自动驾驶之心· 2025-08-22 16:04
作者 | Trancy Wang 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1939104588109156480 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 >> 点击进入→ 大模型没那么大Tech技术交流群 本文只做学术分享,如有侵权,联系删文 ,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 一、交叉注意力在多模态里的位置 在多模态任务(图文匹配、VQA、视频理解、语音-图像结合等)里,光靠把不同模态的特征拼在一起是不够的。 我们希望让 一种模态主动去问另一种模态问题 ,而另一模态则 提供相关的上下文线索 。 交叉注意力(Cross-Attention)就是干这个的——它的核心思路是: Query(Q):主动方,要从另一模态获取信息; 公式和普通的 Transformer 注意力一样: 只是多模态版本里,Q 和 K/V 来自 不同来源 。 二、常见的四种设计方式 1. 单向交叉注意力(Single-direction Cross-Attention) 特点:只有一 ...