视觉 - 语言 - 动作(VLA)

Search documents
分析了102个VLA模型、26个数据集和12个仿真平台
自动驾驶之心· 2025-07-22 02:18
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 视觉 - 语言 - 动作(VLA)模型是机器人技术的变革性突破,其核心是将视觉感知、自然语言理解与具身 控制整合到单一学习框架中。本综述聚焦机器人操作与指令驱动自主性,全面梳理了 102 个 VLA 模型、26 个基础数据集和 12 个仿真平台,它们共同推动了 VLA 模型的发展与评估。模型被归为不同架构范式,体 现了视觉、语言和控制在机器人系统中整合的多样策略。对于基础数据集,基于任务复杂性、模态多样性 和规模建立新评估标准,还通过二维框架按语义丰富度和多模态对齐进行组织,揭示了数据领域的未探索 区域。仿真环境的评估围绕大规模数据生成效率、虚实迁移能力及任务多样性展开。综合学术与工业界成 果,明确了当前挑战,并指出可扩展预训练协议、模块化架构设计和稳健多模态对齐策略等发展方向。本 综述兼具技术参考价值与概念路线图意义,涵盖从数 ...
机器人「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证
具身智能之心· 2025-07-21 08:42
>> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。 但若要机械臂 自 主完成繁 重且复杂的任务 ,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。 近年来,随着 视觉 - 语言 - 动作(VLA) 模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智 能、更通用的方向迈进。 但是目前 VLA 的研究尚未达到里程碑式的成果,具身智能的「GPT」似乎离我们还很遥远。 作者丨 机器之心 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 前英伟达学者 Jiafei Duan 表示: 直到我看到了这两段视频: 机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。 深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步, ...
机器人的「GPT时刻」来了?丰田研究院悄悄做了一场最严谨的VLA验证实验
机器之心· 2025-07-21 04:04
机器之心报道 编辑:冷猫 提到机械臂,第一反应的关键词是「抓取」,高级些的机械臂也就做做冰淇淋和咖啡之类的小任务。 但若要机械臂 自 主完成繁 重且复杂的任务 ,如布置餐桌、组装自行车,难度便呈指数级上升。这类任务对感知、理解与动作控制的协同提出了极高要求。 近年来,随着 视觉 - 语言 - 动作(VLA) 模型的迅速发展,机器人已逐步具备整合多模态信息(如图像、指令、场景语义)并执行复杂任务的能力,朝着更智 能、更通用的方向迈进。 但是目前 VLA 的研究尚未达到里程碑式的成果,具身智能的「GPT」似乎离我们还很遥远。 直到我看到了这两段视频: 机械臂在现实世界中已经能够实现双臂写作,完成如此复杂的组合任务,并且还能够在操作过程中纠错。这相比过去的 VLA 研究成果有了非常明显的提高。 深入探索了一下这份研究,作者在 VLA 的思路基础上更进一步,在扩散模型策略的基础上,完全构建了一个针对机器人的 大型行为模型(Large Behavior Model,LBM) ,经过训练和微调,便能够实现机械臂自主执行复杂操作中如此令人惊艳的结果。 来自谷歌的研究者 Ted Xiao 说: 「如果你从事机器人技术和人工智 ...
分析了102个VLA模型、26个数据集和12个仿真平台
具身智能之心· 2025-07-20 01:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与工作背景 视觉 - 语言 - 动作(VLA)模型是机器人技术的变革性突破,其核心是将视觉感知、自然语言理解与具身 控制整合到单一学习框架中。本综述聚焦机器人操作与指令驱动自主性,全面梳理了 102 个 VLA 模型、26 个基础数据集和 12 个仿真平台,它们共同推动了 VLA 模型的发展与评估。模型被归为不同架构范式,体 现了视觉、语言和控制在机器人系统中整合的多样策略。对于基础数据集,基于任务复杂性、模态多样性 和规模建立新评估标准,还通过二维框架按语义丰富度和多模态对齐进行组织,揭示了数据领域的未探索 区域。仿真环境的评估围绕大规模数据生成效率、虚实迁移能力及任务多样性展开。综合学术与工业界成 果,明确了当前挑战,并指出可扩展预训练协议、模块化架构设计和稳健多模态对齐策略等发展方向。本 综述兼具技术参考价值与概念路线图意义,涵盖从数 ...
加利福尼亚大学!EgoVLA:从第一视角人类视频中学习VLA模型
具身智能之心· 2025-07-20 01:06
Core Insights - The article discusses a novel approach to robot learning that leverages egocentric human video data to enhance the training of Vision-Language-Action (VLA) models, overcoming limitations of traditional robot data collection methods [3][21]. Research Background and Core Ideas - Traditional robot learning relies heavily on large-scale real robot data, which is limited by hardware and operational costs. In contrast, human actions in various environments provide a vast amount of potential training data, as billions of people continuously engage in tasks where robots are expected to operate [3]. - The key breakthrough is the approximation of the action space difference between humans and robots through geometric transformations. This allows for training VLA models on human video data first, followed by fine-tuning with a small amount of robot demonstrations, facilitating skill transfer [3]. Model Architecture and Action Space Design - The framework is based on NVILA-2B, utilizing its visual-language understanding capabilities for efficient intent reasoning and fine-tuning. Inputs include current and historical first-person visual observations, language instructions, action query tokens, and human body sensations [5]. - The action space incorporates human wrist poses and the first 15 PCA components of the MANO hand model, balancing compactness and expressiveness for action transfer from humans to robots [8]. Training and Evaluation - A large-scale dataset of approximately 500,000 image-action pairs was created from four sources, covering various rigid objects and annotated with RGB observations, wrist poses, hand poses, and camera poses [12]. - The Ego Humanoid Manipulation Benchmark was established for unified evaluation of humanoid robot manipulation capabilities, consisting of 12 tasks and addressing data balance issues [14]. Experimental Results and Key Findings - Human pre-training significantly enhances core performance, with the EgoVLA model showing a success rate improvement of about 20% in fine manipulation tasks compared to models without pre-training [16][20]. - The model demonstrates robust performance across different visual configurations, with only a slight decrease in success rates for unseen visual backgrounds, indicating adaptability to new environments [20]. Impact of Data Scale and Diversity - Higher diversity in human data correlates with better model generalization, as evidenced by the combined model's superior performance in short-horizon tasks compared to those trained on single datasets [23]. - The performance of the EgoVLA model declines when relying solely on robot demonstration data, highlighting the necessity of combining human pre-training with a certain amount of robot data for optimal results [23].
VLA统一架构新突破:自回归世界模型引领具身智能
机器之心· 2025-07-10 04:26
Core Viewpoint - The article discusses the development of a new unified Vision-Language-Action (VLA) model architecture called UniVLA, which enhances the integration of visual, language, and action signals for improved decision-making in embodied intelligence tasks [4][5][13]. Group 1: Model Architecture and Mechanism - UniVLA is based on a fully discrete, autoregressive mechanism that models visual, language, and action signals natively, incorporating world model training to learn temporal information and causal logic from large-scale videos [5][9][14]. - The framework transforms visual, language, and action signals into discrete tokens, creating interleaved multimodal temporal sequences for unified modeling [9][10]. Group 2: Performance and Benchmarking - UniVLA has set new state-of-the-art (SOTA) records across major embodied intelligence benchmarks such as CALVIN, LIBERO, and SimplerEnv, demonstrating its strong performance advantages [18][21]. - In the CALVIN benchmark, UniVLA achieved an average score of 95.5%, outperforming previous models significantly [19]. Group 3: Training Efficiency and Generalization - The post-training stage of the world model significantly enhances downstream decision-making performance without relying on extensive action data, utilizing only vast amounts of video data for efficient learning [14][15]. - The model supports unified training for various tasks, including visual understanding, video generation, and action prediction, showcasing its versatility and data scalability [10][24]. Group 4: Future Directions - The article suggests exploring deeper integration of the UniVLA framework with multimodal reinforcement learning to enhance its perception, understanding, and decision-making capabilities in open-world scenarios [24].
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解~
具身智能之心· 2025-07-03 08:22
自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向! 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 麦吉尔大学、清华大学、小米公司 和威斯康辛麦迪逊的研究团队 最新的工作! 面向自动驾驶的视觉-语言-动作模 型综述! 如果您有相关工作需要分享,请在文末联系我们! 以下文章来源于自动驾驶之心 ,作者Sicong Jiang等 自动驾驶之心 . 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 当视觉(Vision)、语言(Language)和行动(Action)三大能力在一个模型中融合,自动驾驶的未来将走向何方? 近日,来自麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊的研究团队联合发布了全球首篇针对自动驾驶领域的视觉-语言-行动(Vision-Language-Action, VLA)模型的全面综述。这篇题为《A Survey on Vision-Languag ...
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 14:19
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行 动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中 均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率。 近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的 重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调; 反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因 此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果 以及3D操作策略的效率? 作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 2D VLA的泛化,3D Policy的效率,这下全部打包带走! 缩小VLM和VLA之间的迁 ...
再获超5亿融资,“伯克利”AI大牛领衔,这家具身智能机器人创企冲刺独角兽!
Robot猎场备忘录· 2025-04-27 10:09
温馨提示 : 点击下方图片,查看运营团队2025年最新原创报告(共210页) 具身智能赛道共有19家企业入榜,其中成立仅1年、刚完成 5.28 亿元 Pre-A 轮融资的"清华系"具身智能机器人公 司[ 千寻智能 ]成为榜单中最年轻创企;除此之外,公司还成功入选"2025杭州准独角兽企业"、"杭州AI18罗汉"三 项重磅榜单。 —— 公司依托"顶尖团队+全栈能力"的稀缺性组合,在资本市场备受青睐,成立1年时间,公司已完成4轮融资: 2024年3月,完成种子轮融资, 由顺为资本("小米系")领投,绿洲资本跟投; 2024年8月, 完成天使轮融资,由弘晖基金领投, 达晨创投 、千乘资本跟投,顺为资本和绿洲资本老股东 加码; 种子轮+天使轮累计融资 近2亿元; 2024年11月,完成 柏睿资本 独投 天使+轮融资; 2025年3月31日, 完成 5.28 亿元 Pre-A 轮融资, 本轮融资由阿美风险投资旗下Prosperity7 Ventures(P7)领投,招商局创投、 广发信德 、靖亚资本、东方富海、 东方嘉富 、 华控基金、达晨财智、 柏睿资本、弘晖基金、千乘资本参投;本轮融资后,公司将持续加速具身大模型的 ...
在与 OpenAI 分道扬镳后,Figure AI 推出了其第二代机器人,将业务重点从工厂拓展至家庭领域。
Counterpoint Research· 2025-04-03 02:59
Figure AI 是一家崭露头角的机器人领域独角兽企业,它正试图改写人形机器人领域的规则。在与 OpenAI 分道扬镳之后,该公司做出了大胆的战略调整,与此同时还在推进 C 轮融资。2 月 20 日,该公 司推出了第二代机器人 Figure 02,随后在 3 月发布了一系列演示视频。 关键技术突破 Helix 的四项关键技术突破 在与 OpenAI 分道扬镳,并在推进 C 轮融资之际,Figure AI 公司推出了其第二代机器人 ——Figure 02。 Figure AI 此次发布的核心是 Helix,这是一款开创性的视觉 - 语言 - 动作(VLA)模型,为 Figure 02 机器人提供动力支持,并且是专为通用型人形机器人的控制而设计的。 尽管在通用型机器人的研发方面可能存在炒作成分,但我们发现有四大因素足以支撑这一重大进 展,分别是:突破性的技术知识产权、市场拓展、适应性泛化能力以及商业可扩展性。 我们从演示视频中截取了关键画面,重点展示了两台机器人(均由单个 Helix 实例驱动)实时协作整理 食品杂货的场景。其中的关键之处是什么呢?它们此前从未见过这些物品。这不是预先设定好的自动化 操作,而是实 ...