Workflow
VLA
icon
Search documents
中科院&字节提出BridgeVLA!斩获CVPR 2025 workshop冠军~
自动驾驶之心· 2025-06-28 13:34
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 只需要三条轨迹,就能取得 96.8% 的成功率?视觉干扰、任务组合等泛化场景都能轻松拿捏?或许, 3D VLA 操作新范式已经到来。 当前,接收 2D 图像进行 Next Action Token 预测的「2D VLA」模型已经展现出了实现通用机器人 操作的潜力;同时,接受 3D 信息作为输入,并以下一时刻的关键帧作为输出的「3D 操作策略」已被 证明拥有极高的数据效率(≈10 条操作轨迹)。 那么,直觉上来讲,一个好的「3D VLA」模型应该能够综合以上的优点,兼具 efficient 和 effective 的特点。然而,当前 3D VLA 的模型设计并未实现上述期待。 为了解决上述问题,中科院自动化所谭铁牛团队联合字节跳动 Seed 推出 BridgeVLA,展示了一种全 新的 3D VLA 范式,实现了 模 型 能 力 与 数 据 效 率 的 同 步 飞 跃 , 并 斩 获 了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠军。 目前代码与数据已经全面 ...
谷歌拍了拍Figure说,“起来卷”
Hu Xiu· 2025-06-28 06:50
谷歌Gemini Robotics On-Device 模型发布于6月24日,AI 被引入了机器人,在整个过程中不需要持续的互联网连接,机器人实现了脱机工作。 6月28日消息,在谷歌的最新播客中,机器人在Gemini人工智能技术的加持下,未经教授就完成了一次"扣篮"动作,展现出迅速适应新场景的能力。 两天前的洛杉矶,运行着Gemini Robotics On-Device 模型的机器人还在RSS2025(机器人软件与系统大会)上完成了全球首个互动式现场展示。硅谷AI观察 人士Ted Xiao表示,"它仿佛是对未来的神奇一瞥——只需与你的机器人对话,它就会做出适当的回应,并尝试执行一些合理的操作。新的物体、新的命 令、新的技能。" 谷歌在X上表示,这是自己首个"视觉-语言-动作"模型,旨在能够帮助机器人更快、更高效地适应新任务和新环境。如果我们稍加回忆,今年2月底,Figure 发布的"历史上最重大的人工智能更新"——Helix也是一款用于通用人形机器人控制的"视觉-语言-动作"(VLA) 模型。 官方演示视频中,这一对灵巧手不仅可以拿起一支笔,还可以相互配合拔掉笔盖。 在接下来的测试中,这一对灵巧手完成了"放 ...
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 14:19
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行 动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中 均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率。 近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的 重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调; 反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因 此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果 以及3D操作策略的效率? 作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 2D VLA的泛化,3D Policy的效率,这下全部打包带走! 缩小VLM和VLA之间的迁 ...
显示端到端VLA是什么?有哪些方法?
具身智能之心· 2025-06-25 08:24
什么是显示端到端VLA,提到显示,这一点和隐式是对立的。上一期分享,我们分享了隐式端到端的模型定 义,显示端到端VLA模型视频生成GOAL,明确生成了未来机械臂如何运动的图像!可以浏览下图! 其中还涉及了一个比较重要的概念:逆运动学。 逆运动学 逆运动学主要应用在机器人学、动画学和计算机图形学中,与经典运动学相对。它的目标是根据目标位置,计 算物体(如机械臂或骨骼系统)的各个关节应该如何运动才能到达该目标。 列入在机器人领域,逆运动学会回答这样的实际问题:机械臂的末端(手爪)需要到达某个指定位置,那么每 个关节应该如何旋转。 逆运动学的核心步骤: 已知信息: 求解: 利用矩阵、三角学或迭代方法,计算每个关节的角度或未知,使得末端能够到达目标点。 多解性问题: 逆运动学通用会有多个解(甚至没解),需要在可能的解中选择一个最优解(如最小能量消耗或最自然运 动)。 主要工作一览 3)LAPA 1)开山之作:UniPi 将序列决策问题转化为文本条件视频生成问题:给定文本编码的目标描述,规划器会合成一组未来帧来描绘其 计划执行的行动序列,随后从生成的视频中提取控制动作。通过以文本作为底层目标描述,我们能够自然而然 地实 ...
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
量子位· 2025-06-25 05:00
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 不用提前熟悉环境,一声令下,就能让宇树机器人坐在椅子上、桌子上、箱子上! 还能直接解锁 "跨过箱子"、"敲门" 等任务~ 这是来自UC伯克利、卡内基梅隆大学等团队的最新研究成果 LeVERB框架 —— 基于 模拟数据训练 实现 零样本部署 ,让人形机器人通过感知新环境,理解语言指令就能直接完成全身动作。 传统人形机器人要么 "能看懂指令却动不了"(缺乏全身控制能力),要么 "只能机械执行动作却读不懂环境"(依赖人工预设动作库)。 LeVERB首次打通了 视觉 语义理解 与 物理运动 两者之间的断层,让机器人能像人类一样从"想"到"做",自动感知环境,直接遵循指令完成 动作。 上面展示的"坐下"动作就是通过 " 相机感知环境+'坐在[椅子/盒子/桌子]上'指令" 完成的: 团队还推出了配套基准: LeVERB-Bench 。 这是首个面向人形机器人WBC(全身控制)的 "仿真到真实" 视觉-语言闭环基准,包含10类超150个任务。 团队将该框架部署在 宇树G1机器人 上进行基准测试,结果显示: 在简单视觉导航任务中 零样本成功率达80% ,整体任务成功率 5 ...
3D VLA新范式!中科院&字节Seed提出BridgeVLA,斩获CVPR 2025 workshop冠军!
机器之心· 2025-06-24 01:46
只需要三条轨迹,就能取得 96.8% 的成功率?视觉干扰、任务组合等泛化场景都能轻松拿捏?或许,3D VLA 操作新范式已经到来。 当前,接收 2D 图像进行 Next Action Token 预测的「2D VLA」模型已经展现出了实现通用机器人操作的潜力;同时,接受 3D 信息作为输入,并以下 一时刻的关键帧作为输出的「3D 操作策略」已被证明拥有极高的数据效率(≈10 条操作轨迹)。 那么,直觉上来讲,一个好的「3D VLA」模型应该能够综合以上的优点,兼具 efficient 和 effective 的特点。然而,当前 3D VLA 的模型设计并未实现 上述期待。 为了解决上述问题,中科院自动化所谭铁牛团队联合字节跳动 Seed 推出 BridgeVLA,展示了一种全新的 3D VLA 范式,实现了 模型能力与数据效率的同 步飞跃,并斩获了 CVPR 2025 GRAIL workshop 的 COLOSSEUM Challenge 冠军。 目前代码与数据已经全面开源。 项目主页:https://bridgevla.github.io/ 出发点:对齐 VLM 与 VLA BridgeVLA 的核心理念 ...
国内外车企智驾方案对比
2025-06-23 02:09
国内外车企智驾方案对比 20250622 摘要 多家车企加速 L3 级智能驾驶研发,特斯拉在北美已实现完全一体式端到 端方案,国内仍采用模块化方案。华为预计下半年推送一体式端到端方 案,采用多传感器融合路线,比特斯拉更复杂。 下一代视觉语言行动(VLA)模型成为发展重点,参数量预计在 100 亿 以内,旨在通过图像数据直接输出动作,并加入大语言模型解释复杂场 景,目前国内车企多处于研发阶段。 特斯拉采用纯视觉方案,依赖 8 个摄像头实现智能辅助驾驶。其他车企 如华为、Momenta 和小鹏采用多传感器融合路线,但长期震动可能导 致激光雷达精度下降,需要算法补偿。 理想汽车结合 VLA 与端到端模型,使用两片 ORVIS 芯片分别处理场景 理解与复杂情况反馈,但 VRM 模型推理速度较慢。小鹏汽车通过改进 阿里千问的大语言模型进行预训练和后训练。 多数车企放弃高清地图,转而采购精度介于高清地图和传统导航地图之 间的地图。特斯拉领先世界生成技术,模拟多视角镜头并主动标注语义 信息,用于后续训练。 各智驾企业具体技术方案有哪些特点? 特斯拉目前领先,实现完全一体式纯视觉的自动驾驶,但国内采用模块化以适 应交通规则。 ...
隐式端到端VLA有哪些方法?领域一般是怎么分类的?
具身智能之心· 2025-06-22 14:47
1)视觉特征提取模块 (V) 隐式端到端VLA模型指的是没有明确生成了未来机械臂如何运动的图像。和显示、分层VLA方法有所不同,隐 式端到端VLA基础模块主要包含视觉特征提取模块(V)、视觉语言的联合特征学习(V+L)、视觉语言动作的 联合训练(V+L+A)。 3) 视觉语言动作的联合训练 (V+L+A) 通常情况: ResNet-18 2. 预训练模型: R3M, VC-1, Voltron, Theia 追求速度: Efficienet 为了和文本好对齐: CLIP 为了用大模型: CLIP, SigLIP 这就是端到端VLA要做的事情,不过可以给大家一个直观的感受!对于机器人任务如何得到VL--A的映射呢?找 到V中对action 有用的区域。 2)视觉语言的联合特征学习(V+L) 对于机器人任务如何处理同时处理视觉和文本信息呢?小模型的选择:FiLM,同时也可以依旧用Perceiver结 构。大模型的选择:MLLM基座(Paligemma )。 4)隐式端到端VLA怎么分类? 根据模型大小:大模型/小模型VLA; 根据架构差异:Transformer-based/Diffusion-based; 5) ...
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 14:09
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 写在前面 自UniAD(CVPR 2023 Best Paper)问世以来,端到端已经成为当下量产的主流范式。而从去年下半年开始,尤 其是DeepSeek思维链流行以来,视觉-语言-动作(VLA)相关方法伴随着具身智能的爆火,相关论文已经横扫自 动驾驶前沿领域。同时各家主机厂也争先恐后尝试落地研发,理想、文远知行、小米、小鹏等等都在大力尝试量 产。 随着2025年即将过半,学术界和工业界也出现了很多优秀的工作。 所以哪些高质量工作现在应该格外关注?趋势在往什么方向发展?量产应用究竟如何?全都是值得每一位前沿从 业者思考~ 为此,自动驾驶之心采访了学术界和工业界第一线的大佬并做了VLA相关工作的汇总,文章按照发表时间排 序,其中不乏全球顶尖高校团队和工业界研究团队的工作。 并在文末做了一些对当下工作的观点整理,感兴趣 的小伙伴不要错过呦~ 标题:AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adapt ...
理想最新DriveAction:探索VLA模型中类人驾驶决策的基准~
自动驾驶之心· 2025-06-21 13:15
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享理想汽车最新的工作—DriveAction! 探索VLA模型 中类人驾驶决策的基准。 如果您有相关工作需要分享,请在文末联系我们! >>点击进入→ 自动驾驶之心 『多模态大模型』技术交流群 论文作者 | Yuhan Hao等 编辑 | 自动驾驶之心 研究背景与问题提出 在自动驾驶技术不断发展的进程中,Vision-Language-Action(VLA)模型凭借其强大的多模态处理能力, 为自动驾驶系统的发展带来了新的机遇。然而,现有的基准数据集在场景多样性、动作级标注的可靠性以 及与人类偏好一致的评估协议等方面存在明显不足,这严重制约了VLA模型的进一步发展和实际应用。 具体来看,现有基准数据集主要存在以下问题: DriveAction基准的核心创新 为解决上述问题,本文提出了DriveAction基准,这是首个专为VLA模型设计的动作驱动基准,具有以下三 大核心创新: 场景多样性不足 :大多数基准数据集基于开源数据构建,来源单一,难以覆盖现实驾驶中的各种复杂 场景,如道路合并与出口 ...