Domain Shift
Search documents
准确率腰斩!大模型视觉能力一出日常生活就「失灵」
量子位· 2025-12-09 01:21
针对此类问题,EgoCross项目团队聚焦跨域第一人称视频问答评测。新工作系统揭示现有MLLM在外科、工业、极限运动与动物视角等场景 下的泛化瓶颈。 目前大多数第一人称视频基准均集中于日常生活活动,而忽略了真实世界应用中巨大的领域差异。 来自华东师范大学、INSAIT的研究团队,首次提出跨域第一视角视频问答基准EgoCross,覆盖4个高价值专业领域、包含近千条高质量QA 对,同时提供闭卷 (CloseQA) 和开卷 (OpenQA) 双评测格式,彻底填补了该领域的评估空白。 EgoCross团队 投稿 量子位 | 公众号 QbitAI 我们习惯了AI在屏幕上侃侃而谈、生成美图,好像它无所不知。但假如把它"扔"进一个真实的手术室,让它用主刀医生的第一视角来判断下一 步该用哪把钳子,这位"学霸"很可能当场懵圈。 同时,团队通过8款主流MLLM的全面测试,揭示了现有模型的跨域短板,并验证了微调 (SFT) 、强化学习 (RL) 等方法的改进潜力。 目前该项研究已入选AAAI 2026,所有数据集、代码已全部开源。 打破日常"舒适圈" Egocentric Video Question Answering (Ego ...