无目标语句
Search documents
顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布
机器之心· 2025-12-26 04:35
近日,多模态视频理解领域迎来重磅更新!由 复旦大学、上海财经大学、南洋理工大学 联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。 作为目前该领域最具有代表性的数据集之一,MeViSv2 围绕 复杂动作推理 来挑战现有模型的多模态处理能力,其包含 2,006 个视频、 8,171 个目标及 33,072 条文本 / 音频表达,通过新增 15 万秒音频数据实现了向原生多模态的进化。 该数据集不仅全面支持 RVOS 、 RMOT 、 AVOS 以及 RMEG 四大核心任务,更引入了 "无目标语句" 和 "运动推理" 等机制,旨在挑战模型逻辑推理与 鲁棒性的天花板。目前,数据集、代码及评测平台均已开放。 图 1:MeViS 示例,MeViS 中的表达主要侧重于运动属性,使得仅凭单帧图像无法识别目标对象。最新的 MeViSv2 进一步提供了运动推理和无目标表达式,同时给每一个文本提供了对应的 音频记录。 论文:MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation,TPAMI 20 ...