3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

Video-XL-Pro团队投稿量子位 | 公众号 QbitAI 3B模型超越Meta 7B模型，超长视频理解SOTA刷新了！来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了Video-XL-Pro，实现近一万帧视频的单卡处理，大海捞针准确率超 98%。现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈：一方面，难以大规模训练超长视频；另一方面，在处理长视频时，仍然面临性能差和效率低的双重挑战。对此， Video-XL-Pro 创新采用"重构式token压缩"技术，并且使用较少的训练数据，在多个基准评测上超越了之前Meta发布的7B模型 Apollo-7B，以及同尺寸的知名开源模型 Qwen2.5-VL-3B、InternVL2.5-4B 等，项目代码，模型，训练数据均已开源。此外，为了增强模型对超长视频理解能力，模型还引入了查询选择器，使得在输入上下文超过限制时模型能够选择性关注和查询有关的片段。为了进一步提升训练效率，研究团队还提出了视频数据集剪枝策略。这些方法通过筛选高质量视频数据，显著降低了计算成本，同时保障模型的性能。评测基准 Video-XL-Pro的核心 ...