Workflow
BridgeVLA
icon
Search documents
AI Day直播 | 冠军方案BridgeVLA(CVPR'25)
自动驾驶之心· 2025-06-30 12:33
>>直播和内容获取转到 → 自动驾驶之心知识星球 ...
重磅直播!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-30 12:17
>>直播和内容获取转到 → 具身智能之心知识星球 点击下方 卡片 ,关注" 具身智能之心 "公众号 ...
中科院&字节提出BridgeVLA!斩获CVPR 2025 workshop冠军~
自动驾驶之心· 2025-06-28 13:34
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 只需要三条轨迹,就能取得 96.8% 的成功率?视觉干扰、任务组合等泛化场景都能轻松拿捏?或许, 3D VLA 操作新范式已经到来。 当前,接收 2D 图像进行 Next Action Token 预测的「2D VLA」模型已经展现出了实现通用机器人 操作的潜力;同时,接受 3D 信息作为输入,并以下一时刻的关键帧作为输出的「3D 操作策略」已被 证明拥有极高的数据效率(≈10 条操作轨迹)。 那么,直觉上来讲,一个好的「3D VLA」模型应该能够综合以上的优点,兼具 efficient 和 effective 的特点。然而,当前 3D VLA 的模型设计并未实现上述期待。 为了解决上述问题,中科院自动化所谭铁牛团队联合字节跳动 Seed 推出 BridgeVLA,展示了一种全 新的 3D VLA 范式,实现了 模 型 能 力 与 数 据 效 率 的 同 步 飞 跃 , 并 斩 获 了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠军。 目前代码与数据已经全面 ...
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 14:19
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行 动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中 均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率。 近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的 重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调; 反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因 此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果 以及3D操作策略的效率? 作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 2D VLA的泛化,3D Policy的效率,这下全部打包带走! 缩小VLM和VLA之间的迁 ...
3D VLA新范式!中科院&字节Seed提出BridgeVLA,斩获CVPR 2025 workshop冠军!
机器之心· 2025-06-24 01:46
只需要三条轨迹,就能取得 96.8% 的成功率?视觉干扰、任务组合等泛化场景都能轻松拿捏?或许,3D VLA 操作新范式已经到来。 当前,接收 2D 图像进行 Next Action Token 预测的「2D VLA」模型已经展现出了实现通用机器人操作的潜力;同时,接受 3D 信息作为输入,并以下 一时刻的关键帧作为输出的「3D 操作策略」已被证明拥有极高的数据效率(≈10 条操作轨迹)。 那么,直觉上来讲,一个好的「3D VLA」模型应该能够综合以上的优点,兼具 efficient 和 effective 的特点。然而,当前 3D VLA 的模型设计并未实现 上述期待。 为了解决上述问题,中科院自动化所谭铁牛团队联合字节跳动 Seed 推出 BridgeVLA,展示了一种全新的 3D VLA 范式,实现了 模型能力与数据效率的同 步飞跃,并斩获了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠军。 目前代码与数据已经全面开源。 项目主页:https://bridgevla.github.io/ 出发点:对齐 VLM 与 VLA BridgeVLA 的核心理念 ...