Workflow
VLA
icon
Search documents
ICCV2025 | DexVLG:大规模灵巧视觉-语言-抓取模型
具身智能之心· 2025-07-07 09:20
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Jiawei He等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 动机与出发点 随着大型模型的兴起,视觉-语言-动作系统使机器人能够处理日益复杂的任务。然而,受限于数据收集的难 度,研究进展主要集中在控制简单的夹持器末端执行器上。关于使用大型模型实现类人灵巧手的功能性抓 取研究较少。DexVLG是一个大型视觉-语言-抓取模型,用于根据语言指令,通过单视角RGBD输入预测灵 巧抓取姿态。 为实现这一目标,还生成了一个包含1.7亿个灵巧抓取姿态的数据集,这些姿态映射到174,000个模拟目标的 语义部分,并配有详细的part级描述。这个名为DexGraspNet 3.0的大规模数据集被用于训练一个VLM和基 于流匹配的姿态Head,该模型能够为桌面物体生成与指令对齐的抓取姿态。为了评估DexVLG的性能,在 基于物理的模拟中创建了基准,并进行了真实世界实验。大量测试表明,DexVLG具 ...
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 11:54
本文只做学术分享,如有侵权,联系删文 写在前面 视觉-语言-动作(VLA)模型为复杂机器人操作任务提供了强有力的框架,但训练成本往往很高。研究提出了一种新的VLA方法,利用视觉语言模型(VLMs)在 2D图像上的出色表现,直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同,该模型预测轨迹路标,不仅训练更高效, 还与机器人实体无关。尽管设计轻量,其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外,还探索了深度图像的潜力、解码策略等推理技 术,以及基于演示的动作生成。模型在模拟数据集上训练,展现出良好的模拟到现实迁移能力,并通过模拟和真实数据结合的评估,证明了在真实机器人系统上 的有效性。 >> 点击进入→ 具身智能之心 技术交流群 点击下方 卡片 ,关注" 具身智能 之心 "公众号 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 作者丨 Max Argus等 编辑丨具身智能之心 1. 引言 视觉-语言-动作(VLA)模型通过融合视觉、语言和交互数据,实现细粒度感知与动作生成,能解决多种任务。但V ...
从25年顶会论文方向看后期研究热点是怎么样的?
自动驾驶之心· 2025-07-06 08:44
如果您有任何科研辅导需求,欢迎联系我们! 自驾方向: 大模型、VLA、端到端自动驾驶、3DGS、BEV感知、目标跟踪、毫米波雷达视觉融合、激光视觉融合、 多传感器标定、多传感器融合、车道线检测、在线地图、轨迹预测、世界模型、3D目标检测、Occupancy、高性能计 算、NeRF、语义分割、决策规划等。 具身方向: VLA、视觉语言导航、端到端、强化学习、Diffusion Policy、sim2real、具身交互、抓取点预测与位姿估 计、机器人决策规划、运动规划、3DGS、SLAM、触觉感知、双足/四足机器人、遥控操作、零样本学习等; 3D视觉 相关: 点云处理、3DGS、SLAM等; 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今年的CVPR和ICCV工作陆续放出,从今年的2大顶会来看热点研究方向,主要集中在四个部分:通用cv、自动驾驶 相关、具身相关、3D视觉相关。下面是4个领域中细分的子方向。 计算机视觉与图像:diffusion、图像质量评估、半监督学习、零样本、开放世界检测等; 自动驾驶相关,集中在端到端、闭环仿真3DGS、多模态大模型、扩 ...
小鹏汽车-W(09868):G7上市点评:辅助驾驶进入L3级算力时代,本地端VLA+VLM能力再进阶
Soochow Securities· 2025-07-04 12:55
证券研究报告·海外公司点评·汽车(HS) 小鹏汽车-W(09868.HK) 小鹏 G7 上市点评:辅助驾驶进入 L3 级算力 时代,本地端 VLA+VLM 能力再进阶 买入(维持) 证券分析师 黄细里 执业证书:S0600520010001 021-60199793 huangxl@dwzq.com.cn 股价走势 -17% 6% 29% 52% 75% 98% 121% 144% 167% 190% 2024/7/4 2024/11/2 2025/3/3 2025/7/2 小鹏汽车-W 恒生指数 市场数据 | [Table_EPS] 盈利预测与估值 | 2023A | 2024A | 2025E | 2026E | 2027E | | --- | --- | --- | --- | --- | --- | | 营业总收入(百万元) | 30,676 | 40,866 | 94,687 | 167,573 | 249,073 | | 同比(%) | 14.23 | 33.22 | 131.70 | 76.97 | 48.64 | | 归母净利润(百万元) | (10,375.78) | (5,790.26) ...
对VLA的RL最新进展的梳理~
自动驾驶之心· 2025-07-03 12:41
作者 | 瀑风 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1916810989434807458 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『VLA』技术交流群 本文只做学术分享,如有侵权,联系删文 2025年5月,VLA的RL领域掀起了一股热潮,不仅传统的PPO、GRPO、DPO等算法纷纷被移用到VLA上, 而且各种针对VLA特殊性的创新tricks层出不穷。本文将梳理VLA领域RL算法的来龙去脉。 早期探索:iRe-VLA (Improving Vision-Language-Action Model with Online Reinforcement Learning) ★ https://arxiv.org/pdf/2501.16664 arxiv.org/pdf/2501.16664 这篇文章的核心算法是PPO,并且针对在线强化学习不稳定的问题提出了双阶段的训练范式: 具体实现上,此文没有采用已有的VLA模型结构,而是将BLIP-2 3B用于VLM backb ...
VQ-VLA:大规模合成数据驱动动作tokenizer,推理速度提升近三倍
具身智能之心· 2025-07-02 10:18
1. 动作表示效率低 :传统连续动作离散化方法(如均匀分桶)难以捕捉复杂时空动态,导致长时域任务 中累积误差增大 2. 数据依赖瓶颈 :真实机器人数据采集成本高,限制模型泛化能力 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Yating Wang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 背景 视觉-语言-动作模型(VLA) 在多模态机器人控制中面临两大挑战: 核心贡献 通用动作分词器框架 :提出基于卷积残差VQ-VAE的通用动作分词器框架,替代传统分桶离散化方法。 合成数据驱动缩放 :首次证明动作轨迹的合成-真实域差异极小( Table 3 显示纯合成数据训练的VQ 在真实任务接近混合数据性能),利用超大规模合成数据(100倍于先前工作)训练分词器。 性能全面优化 :显著提升VLA模型的三项核心指标: 成功率 :长时域任务成功率最高提升30%(真实机器人实验 Figure 3 ) 关键技术方案 1. 卷积残差VQ-VA ...
3天搞定机械臂上的VLA完整部署:算法&项目实践
具身智能之心· 2025-07-01 12:07
2025年政府工作报告中首次将" 具身智能 "写入,它成为了 当下企业与院校竞相研究的热点。而 机械臂作为具身智能落地的 核心载体,在工业、医疗、服务等领域应用广泛。 许多研究者和工程师 往往会在 将算法从仿真环境部署到硬件本体时,经常面临诸多卡点。核心主要有2个方面的原因: 1.工程实践能力不足,难以将理论算法有效转化为实际可运行的硬件操作; 2.对机械臂操作与抓取的经典方法、模仿学习方法和端到端VLA方法掌握不透彻; 这使得他们 在实际部署时,难以有效整合这些方法的优势,导致VLA算法在机械臂上的部署和运行效果不佳 ,阻碍了具身智 能在实际场景中的应用。 ( 遥操作数据驱动的模仿学习实战) 因此,深蓝学院联合 首批 华为天才少年, VINS作者, 上海交通大学副教授 秦通老师 与知名 机器人技术平台型企业 松灵机器 人 ,共同开设了 「具身智能线下实训营:机械臂操作与抓取」 。 仅剩 9个 学习名额 扫码抢占,咨询详情 实训营 不仅提供 真实机械臂的实操机会 ,还会结合行业最新技术趋势,全面讲解 运动规划、视觉反馈、模仿学习、VLA 等 关键技术 ,贯穿 "感知 - 决策 - 控制" 全流程, 通过线下理 ...
千寻智能解浚源:展望迈向通用人形机器人的曙光时刻
Xin Lang Cai Jing· 2025-06-30 08:22
专题:具赋新能 智驱未来——青年科学家成果转化暨具身智能高质量发展研修会 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 文/新浪财经上海站 陈秀颖 上海智能工业中心近日成为智能科技焦点,"具赋新能 智驱未来"青年科学家成果转化暨具身智能高质 量发展研修会在此举行,这场盛会汇聚了百余位青年科学家与知名上市公司企业家。 千寻智能具身智能部负责人解浚源博士发表演讲《展望迈向通用人形机器人的曙光时刻》。 值得注意的是,具身智能的真正突破不止于技术路径选择,更在于工程化落地的厚积薄发。千寻智能的 独树一帜,源于其同时拥有全球顶尖的硬件制造能力(创始人韩峰涛博士拥有十年以上机器人量产经 验)以及学术界先锋(首席科学家高阳为清华大学助理教授)的软件团队。这种"软硬件全栈"的能力使 其具备将实验室成果转化为商业产品的核心优势。 解浚源表示,千寻智能的使命是十年之后,希望能够让全球10%的人拥有自己的机器人。 通过工业场景叠衣操作等具体案例展现技术成熟度,解浚源博士对VLA架构价值的剖析呈现核心洞 察。具身智能正站在从实验室迈向商用的分水岭阶段。 责任编辑:石秀珍 SF183 解浚源博士在分享千寻智 ...
中科院自动化所最新综述!VLA模型后训练与类人运动学习的共性
具身智能之心· 2025-06-29 09:51
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Tian-Yu Xiang等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 想象学习走路的情景:尽管祖先的经验让一些与生俱来的能力(例如:平衡感、反应)被编码到我们的 DNA中,但要真正学会走路,仍需要在真实环境中不断练习、摔倒、再爬起。经过一段时间的训练,我们 的大脑和身体会逐渐协调一致,形成与环境交互的策略。这种 由通用能力到特定技能 的转变过程在人类中 十分常见,而如今, 智能机器人 也面临着类似的挑战:即便拥有强大的预训练模型作为"大脑",在执行具 体复杂任务前,仍需要经过类似于人类学习的"后训练"阶段,才能在新环境、新任务下达到理想表现。 1. 概述 这项工作从 人类运动技能学习 的角度系统性地对总结 VLA模型(视觉-语言-动作模型) 的 后训练(post- training)策略 。其主要贡献如下: (1) 从人类运动学习视角讨论了VLA模型后训练方法 :将人类运动技能 ...
四家具身智能公司齐聚,热钱与泡沫并存的万亿赛道谁能挺进决赛圈
Bei Ke Cai Jing· 2025-06-29 08:26
"还是需要更多的热钱进来" 具身智能市场热度攀升,具身智能是否存在泡沫? 星动纪元是研发通用型人形机器人和机器人通用大脑的公司,陈建宇表示,完全没有到泡沫阶段。具身智能、人形机器人是物理的AI,是智能机器人,行 业理应比智能汽车、大语言模型更大。但目前行业投资规模、融资水平与智能汽车的头部企业相比还是少很多。因为这个周期稍微长些,现在还没有找到真 正长期的核心的规模化商业应用的闭环。一旦行业有玩家找到规模化商业应用,第二波非常大的资本马上爆发。 自变量机器人是一个基础模型公司,王潜认为,目前应该是中国AI历史上泡沫最小的时候,和美国市场比,我们水平差不多,具身智能是非常少见的中国 可以和美国站在一条起跑线上的大赛道,但融资规模还是差一个数量级。国内头部公司在几十亿元人民币的规模,美国是几十亿美元的规模。这是比较危险 的,虽处于一条起跑线上,而且国内具有特有优势,比如供应链、人才,但是融资还是差得比较多,还是需要更多的热钱进来。 地瓜是从地平线独立的专门做机器人软硬件芯片和系统平台的公司,王丛提到,泡沫是个真问题,也是一个假问题。创始人不需要关注赛道是否有泡沫,去 做就好了。当然实操层面是真问题,关注是否在泡沫 ...