Workflow
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架
机器之心·2025-06-09 04:33

本文第一作者为前 阿里巴巴达摩院高级技术专家 ,现一年级博士研究生满远斌,研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导 师,UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队,主要研究方向为多模态空间智能系统,致力于通过软件和系统的联合优化设计实现 空间人工智能的落地。 近年来,大语言模型(LLM)持续刷新着多模态理解的边界。当语言模型具备了「看视频」的能力,视频问答、视频摘要和字幕生成等任务正逐步迈入真正 的智能阶段。但一个现实难题亟待解决—— 如何高效理解超长视频? 为此,来自得克萨斯大学阿灵顿分校(UTA)计算机系研究团队提出了 AdaCM2 :首个支持 超长视频理解 的跨模态记忆压缩框架。该研究已被 CVPR 2025 正式接收 ,并荣获 Highlight 论文 (接收率为 3%),展示出其在技术创新与实际价值上的双重突破。 论文标题:AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction 论文地址:https://arxiv.o ...