CVPR 2025 Highlight｜AdaCM2：首个面向超长视频理解的跨模态自适应记忆压缩框架

本文第一作者为前阿里巴巴达摩院高级技术专家，现一年级博士研究生满远斌，研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师，UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队，主要研究方向为多模态空间智能系统，致力于通过软件和系统的联合优化设计实现空间人工智能的落地。近年来，大语言模型（LLM）持续刷新着多模态理解的边界。当语言模型具备了「看视频」的能力，视频问答、视频摘要和字幕生成等任务正逐步迈入真正的智能阶段。但一个现实难题亟待解决—— 如何高效理解超长视频？为此，来自得克萨斯大学阿灵顿分校（UTA）计算机系研究团队提出了 AdaCM2 ：首个支持超长视频理解的跨模态记忆压缩框架。该研究已被 CVPR 2025 正式接收，并荣获 Highlight 论文（接收率为 3%），展示出其在技术创新与实际价值上的双重突破。论文标题：AdaCM2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction 论文地址：https://arxiv.o ...