长程地理与时间理解

Search documents
AI能否「圣地巡礼」?多模态大模型全新评估基准VIR-Bench来了
机器之心· 2025-10-15 04:08
大家或许都有过这样的体验: 看完一部喜欢的动漫,总会心血来潮地想去 "圣地巡礼";刷到别人剪辑精美的旅行 vlog,也会忍不住收藏起来,想着哪天亲自走一遍同样的路线。旅行与影像的 结合,总是能勾起人们的探索欲望。那么,如果 AI 能自动看懂这些旅行视频,帮你解析出 "去了哪些地方""顺序是怎样的",甚至还能一键生成属于你的旅行计 划,会不会很有趣?这不仅仅是阿宅的想象,更是多模态大模型在真实世界应用中的一个重要场景。 正是在这样的启发下,来自日本早稻田大学,CyberAgent 和奈良先端科学技术大学院大学的团队提出了一个全新的多模态大模型评估基准 VIR-Bench ,旨在评测 AI 是否真的能理解旅行视频中的地理位置与时间顺序,从而支撑更复杂、更实用的应用。用一句话来概括,这项研究就是在追问:"我从哪里来?我要到哪里 论文地址:https://www.arxiv.org/abs/2509.19002 在 VIR-Bench 中,给定一个旅行 vlog(在日本拍摄),模型要输出 访问顺序图 (visiting order graph),也就是 "我去了哪些地点、按什么顺序、地点之间有哪些 包含关系" 的结构 ...