3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心·2025-06-26 14:19
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行 动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中 均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率。 近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的 重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调; 反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因 此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果 以及3D操作策略的效率? 作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 2D VLA的泛化,3D Policy的效率,这下全部打包带走! 缩小VLM和VLA之间的迁 ...