把日常动作变成具身智能的终身教材
Xin Lang Cai Jing·2026-02-27 07:05
身智能的学习数据走进日常生活 上海交通大学卢策吾团队及穹彻智能研发团队 与语言模型不同,具身智能的学习严重依赖真实世界中的交互数据。语言模型可以利用互联网上天然存 在的海量文本进行训练,这些数据无需额外成本即可持续增长;但具身智能面对的是高维、动态且充满 不确定性的物理环境——从二维平面扩展到包含关节、力觉、接触等在内的八十多维状态空间。这意味 着,它需要大量与真实物体互动的经验才能学会拧瓶盖、叠毛巾或刮胡子这类看似简单却极其复杂的动 作。 机器期待来自全社会的数据 数据就像是具身智能的"粮食",但这份粮食在过去是稀缺且昂贵的。比如实验室里最常见的做法是搭 建"数据牧场":圈出上千平方米场地,请来专职操作员,让机器人在固定布景里反复抓取、推拉、旋 拧,四周布满动作捕捉相机和六维力台,一条一分钟的数据成本高达数美元。牧场模式养出的数据干 净、标注精细,却天然带着"天花板"——场地面积有限、人力工时有限、物体品类有限,更关键的是它 无法复制真实世界:塑料袋的静电吸附、药盒上的易撕口、果蔬表面看不见的弧度,这些细枝末节都成 了拦路虎。 团队估算过,想让通用机器人达到人类水准,至少需要几十亿小时的操作片段,相当于把全 ...