视觉VLA看不到的“那堵墙”，被发现了......

点击下方卡片，关注" 具身智能之心 "公众号想象一下：在一个阳光充足的下午，机器人在打扫房间。在窗户边上的桌子，透明的玻璃水杯需要放回指定的位置，机器人走过去，面对强光直射和透明的物体，机器人只能无意义的重复抓取动作，仿佛面对一个"幽灵"。这不是什么科幻场景，而是当下具身领域的现实困境 —— 在透明、反光、极端光照等日常场景中，3D 空间感知失效，让具身机器人不再智能...... 一、纯视觉方案的"有心无力" 具身领域正在逐渐脱离"讲故事"的阶段，转变为生产力是每家企业都在思考的问题。但在真实物理世界中，纯视觉依赖RGB图像的纹理、色彩信息推断空间关系，现实中大量场景让这种"空间感知"寸步难行。 1. 透明物体：纯视觉VLA的"幽灵" 透明材质（玻璃、亚克力、透明容器）是纯视觉感知的噩梦。在机器人抓取任务中，纯视觉甚至无法定位透明存储盒的存在，更别提精准抓取。虽然有一些方法尝试在解决这个问题，但效果还比较受限，主要是因为：透明物体无自身固定纹理，表面信息完全依赖环境反射与折射； 2. 反光与极端光照：无纹理场景的"感知失明" 同样，反光表面（金属器皿、镜子、光滑车漆）和极端光照（强 ...