VLA - filings, earnings calls, financial reports, news - Reportify

VLA

Search documents

ICCV2025 | DexVLG：大规模灵巧视觉-语言-抓取模型

具身智能之心· 2025-07-07 09:20

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Jiawei He等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。动机与出发点随着大型模型的兴起，视觉-语言-动作系统使机器人能够处理日益复杂的任务。然而，受限于数据收集的难度，研究进展主要集中在控制简单的夹持器末端执行器上。关于使用大型模型实现类人灵巧手的功能性抓取研究较少。DexVLG是一个大型视觉-语言-抓取模型，用于根据语言指令，通过单视角RGBD输入预测灵巧抓取姿态。为实现这一目标，还生成了一个包含1.7亿个灵巧抓取姿态的数据集，这些姿态映射到174,000个模拟目标的语义部分，并配有详细的part级描述。这个名为DexGraspNet 3.0的大规模数据集被用于训练一个VLM和基于流匹配的姿态Head，该模型能够为桌面物体生成与指令对齐的抓取姿态。为了评估DexVLG的性能，在基于物理的模拟中创建了基准，并进行了真实世界实验。大量测试表明，DexVLG具 ...

视觉-语言-动作系统

大型视觉-语言-动作（VLA）模型

DexGraspNet 3.0

视觉-语言-动作系统

大型视觉-语言-动作（VLA）模型

DexGraspNet 3.0

cVLA：面向高效相机空间VLA模型的关键位姿预测方法

具身智能之心· 2025-07-06 11:54

本文只做学术分享，如有侵权，联系删文写在前面视觉-语言-动作（VLA）模型为复杂机器人操作任务提供了强有力的框架，但训练成本往往很高。研究提出了一种新的VLA方法，利用视觉语言模型（VLMs）在 2D图像上的出色表现，直接推断机器人末端执行器在图像帧坐标中的位姿。与以往输出低级控制指令的VLA模型不同，该模型预测轨迹路标，不仅训练更高效，还与机器人实体无关。尽管设计轻量，其下一个token预测架构仍能有效学习有意义且可执行的机器人轨迹。此外，还探索了深度图像的潜力、解码策略等推理技术，以及基于演示的动作生成。模型在模拟数据集上训练，展现出良好的模拟到现实迁移能力，并通过模拟和真实数据结合的评估，证明了在真实机器人系统上的有效性。 >> 点击进入→ 具身智能之心技术交流群点击下方卡片，关注" 具身智能之心 "公众号更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。作者丨 Max Argus等编辑丨具身智能之心 1. 引言视觉-语言-动作（VLA）模型通过融合视觉、语言和交互数据，实现细粒度感知与动作生成，能解决多种任务。但V ...

视觉-语言-动作（VLA）模型

Franka Panda机械臂

视觉-语言-动作（VLA）模型

Franka Panda机械臂

从25年顶会论文方向看后期研究热点是怎么样的？

自动驾驶之心· 2025-07-06 08:44

如果您有任何科研辅导需求，欢迎联系我们！自驾方向：大模型、VLA、端到端自动驾驶、3DGS、BEV感知、目标跟踪、毫米波雷达视觉融合、激光视觉融合、多传感器标定、多传感器融合、车道线检测、在线地图、轨迹预测、世界模型、3D目标检测、Occupancy、高性能计算、NeRF、语义分割、决策规划等。具身方向： VLA、视觉语言导航、端到端、强化学习、Diffusion Policy、sim2real、具身交互、抓取点预测与位姿估计、机器人决策规划、运动规划、3DGS、SLAM、触觉感知、双足/四足机器人、遥控操作、零样本学习等； 3D视觉相关：点云处理、3DGS、SLAM等；点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线今年的CVPR和ICCV工作陆续放出，从今年的2大顶会来看热点研究方向，主要集中在四个部分：通用cv、自动驾驶相关、具身相关、3D视觉相关。下面是4个领域中细分的子方向。计算机视觉与图像：diffusion、图像质量评估、半监督学习、零样本、开放世界检测等；自动驾驶相关，集中在端到端、闭环仿真3DGS、多模态大模型、扩 ...

计算机视觉与图像

计算机视觉与图像

小鹏汽车-W（09868）：G7上市点评：辅助驾驶进入L3级算力时代，本地端VLA+VLM能力再进阶

Soochow Securities· 2025-07-04 12:55

证券研究报告·海外公司点评·汽车(HS) 小鹏汽车-W（09868.HK）小鹏 G7 上市点评：辅助驾驶进入 L3 级算力时代，本地端 VLA+VLM 能力再进阶买入（维持）证券分析师黄细里执业证书：S0600520010001 021-60199793 huangxl@dwzq.com.cn 股价走势 -17% 6% 29% 52% 75% 98% 121% 144% 167% 190% 2024/7/4 2024/11/2 2025/3/3 2025/7/2 小鹏汽车-W 恒生指数市场数据 | [Table_EPS] 盈利预测与估值 | 2023A | 2024A | 2025E | 2026E | 2027E | | --- | --- | --- | --- | --- | --- | | 营业总收入（百万元） | 30,676 | 40,866 | 94,687 | 167,573 | 249,073 | | 同比(%) | 14.23 | 33.22 | 131.70 | 76.97 | 48.64 | | 归母净利润（百万元） | (10,375.78) | (5,790.26) ...

辅助驾驶 L3 级算力

新能源汽车

辅助驾驶 L3 级算力

新能源汽车

对VLA的RL最新进展的梳理~

自动驾驶之心· 2025-07-03 12:41

作者 | 瀑风编辑 | 自动驾驶之心原文链接： https://zhuanlan.zhihu.com/p/1916810989434807458 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线 >>点击进入→ 自动驾驶之心『VLA』技术交流群本文只做学术分享，如有侵权，联系删文 2025年5月，VLA的RL领域掀起了一股热潮，不仅传统的PPO、GRPO、DPO等算法纷纷被移用到VLA上，而且各种针对VLA特殊性的创新tricks层出不穷。本文将梳理VLA领域RL算法的来龙去脉。早期探索：iRe-VLA （Improving Vision-Language-Action Model with Online Reinforcement Learning） ★ https://arxiv.org/pdf/2501.16664 arxiv.org/pdf/2501.16664 这篇文章的核心算法是PPO，并且针对在线强化学习不稳定的问题提出了双阶段的训练范式：具体实现上，此文没有采用已有的VLA模型结构，而是将BLIP-2 3B用于VLM backb ...

Vision-Language-Action (VLA)

Reinforcement Learning (RL)

Vision-Language-Action (VLA)

Reinforcement Learning (RL)

VQ-VLA：大规模合成数据驱动动作tokenizer，推理速度提升近三倍

具身智能之心· 2025-07-02 10:18

1. 动作表示效率低：传统连续动作离散化方法（如均匀分桶）难以捕捉复杂时空动态，导致长时域任务中累积误差增大 2. 数据依赖瓶颈：真实机器人数据采集成本高，限制模型泛化能力点击下方卡片，关注" 具身智能之心 "公众号作者丨 Yating Wang等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。背景视觉-语言-动作模型（VLA）在多模态机器人控制中面临两大挑战：核心贡献通用动作分词器框架：提出基于卷积残差VQ-VAE的通用动作分词器框架，替代传统分桶离散化方法。合成数据驱动缩放：首次证明动作轨迹的合成-真实域差异极小（ Table 3 显示纯合成数据训练的VQ 在真实任务接近混合数据性能），利用超大规模合成数据（100倍于先前工作）训练分词器。性能全面优化：显著提升VLA模型的三项核心指标：成功率：长时域任务成功率最高提升30%（真实机器人实验 Figure 3 ）关键技术方案 1. 卷积残差VQ-VA ...

视觉-语言-动作模型（VLA）

通用动作分词器框架

卷积残差VQ - VAE

视觉-语言-动作模型（VLA）

通用动作分词器框架

卷积残差VQ - VAE

3天搞定机械臂上的VLA完整部署：算法&项目实践

具身智能之心· 2025-07-01 12:07

2025年政府工作报告中首次将" 具身智能 "写入，它成为了当下企业与院校竞相研究的热点。而机械臂作为具身智能落地的核心载体，在工业、医疗、服务等领域应用广泛。许多研究者和工程师往往会在将算法从仿真环境部署到硬件本体时，经常面临诸多卡点。核心主要有2个方面的原因： 1.工程实践能力不足，难以将理论算法有效转化为实际可运行的硬件操作； 2.对机械臂操作与抓取的经典方法、模仿学习方法和端到端VLA方法掌握不透彻；这使得他们在实际部署时，难以有效整合这些方法的优势，导致VLA算法在机械臂上的部署和运行效果不佳，阻碍了具身智能在实际场景中的应用。（遥操作数据驱动的模仿学习实战）因此，深蓝学院联合首批华为天才少年， VINS作者，上海交通大学副教授秦通老师与知名机器人技术平台型企业松灵机器人，共同开设了「具身智能线下实训营：机械臂操作与抓取」。仅剩 9个学习名额扫码抢占，咨询详情实训营不仅提供真实机械臂的实操机会，还会结合行业最新技术趋势，全面讲解运动规划、视觉反馈、模仿学习、VLA 等关键技术，贯穿 "感知 - 决策 - 控制" 全流程，通过线下理 ...

千寻智能解浚源：展望迈向通用人形机器人的曙光时刻

Xin Lang Cai Jing· 2025-06-30 08:22

专题：具赋新能智驱未来——青年科学家成果转化暨具身智能高质量发展研修会炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！文/新浪财经上海站陈秀颖上海智能工业中心近日成为智能科技焦点，"具赋新能智驱未来"青年科学家成果转化暨具身智能高质量发展研修会在此举行，这场盛会汇聚了百余位青年科学家与知名上市公司企业家。千寻智能具身智能部负责人解浚源博士发表演讲《展望迈向通用人形机器人的曙光时刻》。值得注意的是，具身智能的真正突破不止于技术路径选择，更在于工程化落地的厚积薄发。千寻智能的独树一帜，源于其同时拥有全球顶尖的硬件制造能力（创始人韩峰涛博士拥有十年以上机器人量产经验）以及学术界先锋（首席科学家高阳为清华大学助理教授）的软件团队。这种"软硬件全栈"的能力使其具备将实验室成果转化为商业产品的核心优势。解浚源表示，千寻智能的使命是十年之后，希望能够让全球10%的人拥有自己的机器人。通过工业场景叠衣操作等具体案例展现技术成熟度，解浚源博士对VLA架构价值的剖析呈现核心洞察。具身智能正站在从实验室迈向商用的分水岭阶段。责任编辑：石秀珍 SF183 解浚源博士在分享千寻智 ...

SIASUN(SZ:300024)

通用人形机器人

通用人形机器人

中科院自动化所最新综述！VLA模型后训练与类人运动学习的共性

具身智能之心· 2025-06-29 09:51

点击下方卡片，关注" 具身智能之心 "公众号作者丨 Tian-Yu Xiang等编辑丨具身智能之心本文只做学术分享，如有侵权，联系删文 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。想象学习走路的情景：尽管祖先的经验让一些与生俱来的能力（例如：平衡感、反应）被编码到我们的 DNA中，但要真正学会走路，仍需要在真实环境中不断练习、摔倒、再爬起。经过一段时间的训练，我们的大脑和身体会逐渐协调一致，形成与环境交互的策略。这种由通用能力到特定技能的转变过程在人类中十分常见，而如今，智能机器人也面临着类似的挑战：即便拥有强大的预训练模型作为"大脑"，在执行具体复杂任务前，仍需要经过类似于人类学习的"后训练"阶段，才能在新环境、新任务下达到理想表现。 1. 概述这项工作从人类运动技能学习的角度系统性地对总结 VLA模型（视觉-语言-动作模型）的后训练（post- training）策略。其主要贡献如下： (1) 从人类运动学习视角讨论了VLA模型后训练方法：将人类运动技能 ...

VLA模型后训练

人类运动技能学习

可解释性与安全

神经科学启发的人工智能技术

VLA模型后训练

人类运动技能学习

可解释性与安全

神经科学启发的人工智能技术

四家具身智能公司齐聚，热钱与泡沫并存的万亿赛道谁能挺进决赛圈

Bei Ke Cai Jing· 2025-06-29 08:26

"还是需要更多的热钱进来" 具身智能市场热度攀升，具身智能是否存在泡沫？星动纪元是研发通用型人形机器人和机器人通用大脑的公司，陈建宇表示，完全没有到泡沫阶段。具身智能、人形机器人是物理的AI，是智能机器人，行业理应比智能汽车、大语言模型更大。但目前行业投资规模、融资水平与智能汽车的头部企业相比还是少很多。因为这个周期稍微长些，现在还没有找到真正长期的核心的规模化商业应用的闭环。一旦行业有玩家找到规模化商业应用，第二波非常大的资本马上爆发。自变量机器人是一个基础模型公司，王潜认为，目前应该是中国AI历史上泡沫最小的时候，和美国市场比，我们水平差不多，具身智能是非常少见的中国可以和美国站在一条起跑线上的大赛道，但融资规模还是差一个数量级。国内头部公司在几十亿元人民币的规模，美国是几十亿美元的规模。这是比较危险的，虽处于一条起跑线上，而且国内具有特有优势，比如供应链、人才，但是融资还是差得比较多，还是需要更多的热钱进来。地瓜是从地平线独立的专门做机器人软硬件芯片和系统平台的公司，王丛提到，泡沫是个真问题，也是一个假问题。创始人不需要关注赛道是否有泡沫，去做就好了。当然实操层面是真问题，关注是否在泡沫 ...

通用型人形机器人

机器人通用大脑

通用型人形机器人

机器人通用大脑