音频-视觉全模态的未来预测，FutureOmni给出了首份答卷

复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni，要求模型从音频 - 视觉线索中预测未来事件，实现跨模态因果和时间推理。包含 919 个视频和 1,034 个多选题问答对，在 13 个全模态模型和 7 个纯视频模型上的评估显示，当前系统在预测未来事件方面存在显著困难，最佳准确率仅为 64.8%。在日常生活中，人类不仅能理解「发生了什么」，更重要的是能够预测「将会发生什么」。看到乌云密布、听到雷声渐近，我们会主动关窗收衣；看到老师眉头紧皱，反复强调某个知识点（听），我们知道接下来可能会有提问；看到球员起跳的动作和听到观众的惊呼，我们能够预判这是一个精彩的扣篮。然而，现有的多模态大语言模型（MLLMs）虽然在全方位感知方面展现出强大的能力，但它们从音频 - 视觉线索中预测未来事件的能力仍然很大程度上未被探索。现有的音视频模态基准主要关注回顾性理解 ⸺「视频中发生了什么」，而非前瞻性预测 ⸺「接下来会发生什么」。现在，这一空白终于被填补了！复旦大学、上海创智学院与新加坡国立大学联合发布 FutureOmni ，不仅重新定义了多模态模型的「未来预测」评测 ...