你的模型真的能打吗?操作任务的长尾场景评测来了
具身智能之心·2026-01-20 00:33

现有数据集真的推动机器人能力提升了吗? 近年来,随着机器人学习和模仿学习的快速发展,各类数据集与方法层出不穷。然而,这些数据集及其任务设计往往缺乏系统性的考量与原则。这引发了两个关键 问题:现有数据集与任务设计是否真正推动了机器人能力的提升?仅通过少数常见任务的评估,能否准确反映不同团队提出的各类方法在不同任务上的差异化性 能? 为解决这些问题,上海交大等研究团队提出GM-100基准测试,将其作为迈向机器人学习奥林匹克盛会的第一步。GM-100包含100项精心设计的任务,涵盖各类交互 场景与长尾行为,旨在提供一组多样化且具有挑战性的任务集合,全面评估机器人智能体的能力,并推动机器人数据集任务设计向多样化与复杂化方向发展。这些 任务通过对现有任务设计的系统性分析与扩展,并结合人物交互基元与物体功能特性的相关insights开发而成。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 本数据集在不同的 ...