Workflow
FindingDory:具身智能体记忆评估的基准测试
具身智能之心·2025-06-22 10:56

点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 一、研究背景与核心问题 长期记忆缺失 是当前具身智能体的关键瓶颈。尽管视觉语言模型(VLMs)在规划与控制任务中表现突 出,但其 处理跨时空的多模态观察数据 能力严重受限: 核心矛盾 :具身智能需整合长期历史经验(如"找到昨天未整理的玩偶"),但缺乏针对性评估框架。 二、基准设计创新点 2.1 任务架构 作者丨 Karmesh Yadav等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 动态环境交互 记忆推理验证 输入限制 :主流VLMs仅能处理数百张图像(远低于真实场景的千帧级输入) 评估缺陷 :现有视频QA基准(如EgoSchema)依赖选择题形式,无法评估 物体操纵/导航 等需细粒 度推理的具身任务 记忆-动作脱节 :传统方法孤立评估记忆召回与决策执行,忽视二者在具身环境中的耦合性 动态环境构建 :脚本代理在Habitat模拟器中执行物体抓取-放置(Pick-and-Place),产生 ...