瞭望 | 破题数据之困
Xin Hua She·2025-11-18 03:06
"训练具身智能大模型,需采集视、听、触、力觉等多模态数据,保守估计当前已有数据量与所需数据 量之间至少还差两个数量级。" "可借鉴互联网中台概念建立具身智能数据共享平台,制定贡献即获益规则,通过财政补贴、算力支持 等政策激励企业贡献数据,再用数据交易机制保障投入回报,共同做大产业蛋糕。" 文 |《瞭望》新闻周刊记者 杜康 石佳 当前,一些具身智能产品已能够灵活行走、腾跃翻转,甚至完成抓取装配。随着具身智能火出圈,人们 期待新一代机器人具有高泛化性,即机器人能够在不同场景中稳定执行任务,在产业应用中完成零部件 制造、精密装配,商用中走进家庭等。 业内认为,以真实世界数据训练大模型,可逐步实现高泛化性。 真实数据采集成本高、效率低。"训练具身智能大模型,需采集视、听、触、力觉等多模态数据,保守 估计当前已有数据量与所需数据量之间至少还差两个数量级。"上海市数据科学重点实验室主任、复旦 大学计算机科学技术学院教授肖仰华告诉记者。 目前,业界正创新多种采集方式,突破真实数据收集壁垒。 一是搭建真机数据采标平台。例如北京人形机器人创新中心有限公司(下称"北京人形")正与百度智能 云建设百万量级的高密度、高质量、高通用性 ...