空间智能终极挑战MMSI-Video-Bench来了
具身智能之心·2026-01-06 00:32

编辑丨机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 "通用型智能助手" 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依 赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。 要真正走入现实世界,模型不仅需要看得见,更要看得懂空间: 它需要在复杂、多变的真实场景中理解空间布局、感知运动变化、进行时空推理,并基于这些信 息做出合理决策,与环境产生有效交互。 为此, 上海人工 智能 实 验室 Inter nRobotics 团队 近日推出了一套 全面而硬核的空间智能视频基准 —— MMSI-Video-Bench ,对当前主流多模态大模型精心打 造了一场挑战系数极高的 "空间智能大考"。 本工作由上海人工智能实验室、上海交通大学、香港中文大学、浙江大学、香港大学、北京航空航天大学、西安交通大学、 ...