视觉-语言-动作(VLA)

Search documents
DreamVLA:全球首个“世界知识预测”VLA模型,操作成功率近八成
具身智能之心· 2025-07-10 13:16
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Wenyao Zhang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与动机 近年来,视觉-语言-动作(VLA)模型在整合图像生成与动作预测以提升机器人操作的泛化性和推理能力 方面展现出潜力。但现有方法受限于基于图像的预测,存在信息冗余,且缺乏动态、空间和语义等关键世 界知识,难以形成闭环的感知-预测-动作循环。 动态区域预测 :利用光流预测模型识别场景中动态区域(如运动物体、机器人末端执行器),让模型 专注于任务关键的运动区域,避免冗余帧重建。通过CoTracker提取动态区域,训练模型仅重建这些区 域,优化目标为最大化对数似然的证据下界,损失函数为: $${\mathcal{L}}_{d y n}={\frac{1}{|{\mathcal{D}}|}}\sum_{x_{i}\in{\mathcal{D}}}\mathbb{E}_{z\sim Q_{\phi}(z|x_ ...
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型
具身智能之心· 2025-07-07 09:20
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiawei He等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 动机与出发点 随着大型模型的兴起,视觉-语言-动作系统使机器人能够处理日益复杂的任务。然而,受限于数据收集的难 度,研究进展主要集中在控制简单的夹持器末端执行器上。关于使用大型模型实现类人灵巧手的功能性抓 取研究较少。DexVLG是一个大型视觉-语言-抓取模型,用于根据语言指令,通过单视角RGBD输入预测灵 巧抓取姿态。 为实现这一目标,还生成了一个包含1.7亿个灵巧抓取姿态的数据集,这些姿态映射到174,000个模拟目标的 语义部分,并配有详细的part级描述。这个名为DexGraspNet 3.0的大规模数据集被用于训练一个VLM和基 于流匹配的姿态Head,该模型能够为桌面物体生成与指令对齐的抓取姿态。为了评估DexVLG的性能,在 基于物理的模拟中创建了基准,并进行了真实世界实验。大量测试表明,DexVLG具 ...
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 11:54
本文只做学术分享,如有侵权,联系删文 写在前面 视觉-语言-动作(VLA)模型为复杂机器人操作任务提供了强有力的框架,但训练成本往往很高。研究提出了一种新的VLA方法,利用视觉语言模型(VLMs)在 2D图像上的出色表现,直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同,该模型预测轨迹路标,不仅训练更高效, 还与机器人实体无关。尽管设计轻量,其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外,还探索了深度图像的潜力、解码策略等推理技 术,以及基于演示的动作生成。模型在模拟数据集上训练,展现出良好的模拟到现实迁移能力,并通过模拟和真实数据结合的评估,证明了在真实机器人系统上 的有效性。 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者丨 Max Argus等 编辑丨具身智能之心 1. 引言 视觉-语言-动作(VLA)模型通过融合视觉、语言和交互数据,实现细粒度感知与动作生成,能解决多种任务。但V ...
人形机器人首次打通视觉感知与运动断层,UC伯克利华人博士让宇树G1现场演示
量子位· 2025-06-25 05:00
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 不用提前熟悉环境,一声令下,就能让宇树机器人坐在椅子上、桌子上、箱子上! 还能直接解锁 "跨过箱子"、"敲门" 等任务~ 这是来自UC伯克利、卡内基梅隆大学等团队的最新研究成果 LeVERB框架 —— 基于 模拟数据训练 实现 零样本部署 ,让人形机器人通过感知新环境,理解语言指令就能直接完成全身动作。 传统人形机器人要么 "能看懂指令却动不了"(缺乏全身控制能力),要么 "只能机械执行动作却读不懂环境"(依赖人工预设动作库)。 LeVERB首次打通了 视觉 语义理解 与 物理运动 两者之间的断层,让机器人能像人类一样从"想"到"做",自动感知环境,直接遵循指令完成 动作。 上面展示的"坐下"动作就是通过 " 相机感知环境+'坐在[椅子/盒子/桌子]上'指令" 完成的: 团队还推出了配套基准: LeVERB-Bench 。 这是首个面向人形机器人WBC(全身控制)的 "仿真到真实" 视觉-语言闭环基准,包含10类超150个任务。 团队将该框架部署在 宇树G1机器人 上进行基准测试,结果显示: 在简单视觉导航任务中 零样本成功率达80% ,整体任务成功率 5 ...
ForceVLA:通过力感知MoE增强接触丰富操作的VLA模型
具身智能之心· 2025-06-18 10:41
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiawen Yu等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 研究背景与问题提出 在机器人操作领域,视觉-语言-动作(VLA)模型通过利用预训练的视觉和语言表示,推动了通用机器人 操作的发展。然而,这些模型在处理需要涉及力的精细控制的接触丰富任务时,尤其是在视觉遮挡或动态 不确定性情况下,表现出明显的局限性。现有的VLA模型严重依赖视觉和语言线索,往往忽略了力传感这 一对于精确物理交互至关重要的模态。 人类在操作过程中会自然地整合触觉和本体感受反馈来调整操作策略,但当前的VLA模型在面对插入、工 具使用或装配等任务时,经常在遮挡或视觉条件较差的情况下表现不佳,导致行为脆弱或任务失败。此 外,不同任务阶段对力的要求也不同,如精细抓取、受控插入和顺应性表面接触等,每个阶段都需要不同 形式的力调制,而现有方法缺乏感知和适应这些动态变化的机制。 核心创新点 (一)ForceVLA框架 ...