重新定义视频大模型时序定位!南大腾讯联合提出TimeLens,数据+算法全方位升级
机器之心·2026-01-02 01:55
长期以来,大量研究致力于设计复杂的模型结构,却忽视了两个关键问题: 在数据层面,我们依赖 的评测基 准是否可靠?在算法层面,是否存在一套简洁通用的 最佳实践? 针对上述痛点,来自南京大学、腾讯 ARC Lab 和上海 AI Lab 的联合研究团队提出了 TimeLens (时间透镜),系统性地揭示了现有数据的"评测陷阱",构建出更 可靠的评测基准和高质量训练数据,并探索出一套简洁有效的算法优化。得益于这些贡献,仅 8B 参数的 TimeLens 模型成为了开源模型中的新 SOTA ,更击败了 GPT-5 和 Gemini-2.5-Flash 等闭源巨头。 随着多模态大模型(MLLMs)的飞速发展,模型已经能够很好地理解视频中 "发生了什么(What)",却无法精准地定位到事件在视频中 "何时发生(When)"。 这种视频时序定位(Video Temporal Grounding, VTG)能力的严重缺陷,已成为制约 MLLM 迈向更精细化的视频理解的主要瓶颈。 核心洞察:拨开数据质量的迷雾 在深度学习中,"Data is fuel"(数据即燃料)是公认的真理。然而,团队发现,在 VTG 领域,燃料的质量却令人 ...