为什么 VLA 能叠毛巾，却测不准物体位姿？具身智能的 “空间感知” 补全是怎么做的？

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Zheng Geng等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。想象这样一组反差场景：VLA 模型能流畅完成叠毛巾、整理衣物等几何类操作，可面对 "用机械臂抓起陌生调料瓶""给未知零件定位 3D 姿态" 这类任务时，却频频失误——要么抓空，要么把物体碰倒。这背后藏着具身智能落地的关键瓶颈： 6D 物体位姿估计。玩过机器人操作的朋友都知道，"抓零件""放调料瓶" 这类需要精准交互的任务，核心是 "靠空间感知说话"——得知道物体的 3D 位置（平移）和朝向（旋转），还要确保测算的尺度与真实世界一致。可现有方法总在 "妥协"：要么依赖预先扫描的 CAD 模型（现实中根本找不到那么多），要么需要多视角图像（实时场景中哪来得及拍），就算是单视图重建，也会陷入 "不知道物体真实大小" 的尺度模糊困境。这就导致了鲜明的能力断层：VLA 能靠视觉规划完成 "叠毛巾" 这类不依赖精准空 ...