音视频哈希搜索
Search documents
SIGIR 2025 | 视频检索新范式!北邮、北大等联合提出AV-NAS:首个音视频哈希搜索架构,让Mamba与Transformer自动“组队”
AI前线· 2026-01-05 08:33
作者 | 陈勇 在海量视频检索场景中,传统方法往往"重视觉、轻听觉",且网络结构设计更多依赖经验与人工尝试,难以同时兼顾高效存储与快速检索。那么,是否 存在一种能够自动找到最优结构、并充分发挥多模态价值的方案? 近日,来自北邮与北大的研究团队提出 AV-NAS,在多模态视频哈希领域首次引入神经架构搜索(NAS),构建了一个同时覆盖 Transformer 与 Mamba 的统一搜索空间。该方法不仅使模型能够自动发现最优的跨模态融合机制(Cross-Mamba),还揭示了一个颇具启发性的结论——在音频时序 建模任务中,看似简单的 "CNN + FFN" 结构竟然优于复杂的 Transformer 方案。 论文题目: AV-NAS: Audio-Visual Multi-Level Semantic Neural Architecture Search for Video Hashing 论文链接: https://dl.acm.org/doi/10.1145/3726302.3729899 代码链接: https://github.com/iFamilyi/AV-NAS 目前,AV-NAS 已被 SIGIR 2 ...