VLA模型

Search documents
小鹏智驾一把手换人,蔚来团队大调整,各有各的算盘
3 6 Ke· 2025-10-10 12:30
Core Insights - The leadership changes in the autonomous driving divisions of Xiaopeng Motors and NIO indicate a competitive evolution in the smart driving landscape, with both companies adjusting their strategies to enhance their technological capabilities [2][19]. Group 1: Leadership Changes - Xiaopeng Motors announced that Li Liyun, the former head of the autonomous driving center, will be replaced by Liu Xianming, who previously led the world foundation model team [1][2]. - Liu Xianming, who joined Xiaopeng Motors over a year ago, has a background in machine learning and computer vision, having worked at Facebook and Cruise [6][8]. - NIO's autonomous driving team also experienced significant personnel changes, with multiple key executives leaving, including the head of the world model and the product lead for autonomous driving [2][19]. Group 2: Strategic Focus - Liu Xianming's promotion reflects Xiaopeng's commitment to advancing its world foundation model, which is crucial for achieving higher levels of autonomous driving capabilities [13][14]. - The world model developed by Liu's team has a parameter scale of 72 billion, significantly larger than current mainstream VLA models, and is designed to enhance the vehicle's understanding of complex environments [14][16]. - The shift in leadership at both companies suggests a strategic pivot towards different technological approaches, with Xiaopeng focusing on the world model and NIO restructuring to improve its AI integration and delivery efficiency [17][19]. Group 3: Industry Dynamics - The autonomous driving sector is witnessing a bifurcation in technological approaches, primarily between VLA (Vision-Language-Action) and world model architectures, with different companies aligning with one of these strategies [17][18]. - The recent changes in leadership and organizational structure across various companies indicate a new phase of competition in the smart driving field, as firms seek to establish their technological dominance [20].
NeurIPS'25!AutoPrune:即插即用的自适应大模型剪枝框架
自动驾驶之心· 2025-10-07 07:46
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Hanshi Wang等 编辑 | 自动驾驶之心 先前大模型轻量化的token pruning论文主要集中在token的重要性度量metric上,但是实验发现其实还是最基础简单的几个算法更加通用,所以本文从另一个 维度考虑这个问题:在设定的budget下,如何给网络每一层分配pruning的比例。 现有方法通常是设置了固定的layer-wise allocation策略,要么在decoder最前面直接剪完,要么手工固定某几层设置比例,但是很明显这不是最优解,因为输 入问题和场景的难度不同,token注意力集中的速度也不一样。 针对上述问题,上交和中科院的团队提出了 AutoPrune,一种training free的复杂度自适应剪枝框架。本文提出的算法用decoder浅层的视觉与文本互信息度量 样本与任务难度,然后将该数字映射为受budget(全局计算量预算)约束的 Logistic 保留曲线,从而对每个样本生成层间视觉token数量保留轨迹, ...
三万字解读:数据采集革命,决定机器人走向大规模落地|假期充电
锦秋集· 2025-10-03 04:03
⚡️ 假期充电系列继续 今天为大家整理 2025 年 CoRL 期间举办的首届 "Making Sense of Data in Robotics" Workshop,一起探究: 在机器人技术飞速发展的今天,人 们常常把目光聚焦在算法与模型上,是否忽视了真正决定"能否走出实验室、实现大规模落地"的底层变量——数据。 数据不仅是训练基础模型的燃料,更是 支撑策略泛化、稳定运行与安全可控 的地基。没有高质量、场景匹配的数据,再先进的模型也只能停留在论文 与Demo里。 此次Workshop正是一次针对这一"被低估的核心要素"的集体深思。会议聚焦于数据构成、数据筛选与数据可解释性三大命题,试图回答机器人行业最 迫切的问题: 1. 机器人真正需要什么样的数据? 2. 如何从海量原始信息中提炼出能提升策略表现的数据? 3. 又该如何理解数据对机器人决策与行为的实际影响? 锦秋基金(公众号:锦秋集,ID:jqcapital)认为, 这场 Workshop 的价值不只是学术交流,而是揭示了实体智能走向产业化过程中的"关键一 环"。 无论是 Joseph Lim 团队提出的"任务拆解 + 模块复用"式数据高效利用,还是 Ke ...
单月交付超3万台 元戎启行9月份合作车型量产交付量再创新高
Zheng Quan Ri Bao Wang· 2025-09-29 14:01
未来,元戎启行将持续优化VLA模型的技术能力与平台生态布局,探索更多可移动智能体场景,加速推进从辅助驾驶到 RoadAGI的演进路径,为全球用户带来更普惠、更安全、更智能的出行体验。 自成立以来,元戎启行始终致力于打造"物理世界的通用人工智能",以创新技术引领人工智能行业变革。随着搭载VLA模 型的全新一代辅助驾驶平台DeepRouteIO2.0发布,元戎启行成为行业首批布局VLA模型的人工智能企业。 VLA模型融合视觉、语言与动作三大核心能力,对比传统端到端模型,VLA模型具备强大的思维链能力,能摆脱传统端到 端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外,它天然集成海量知识库,泛化能力更强,能够更好地 适应复杂多变的真实道路环境。 本报讯 (记者王镜茹)9月29日,深圳元戎启行科技有限公司(以下简称"元戎启行")发布消息称,合作车型单月交付量 正式突破3万台。这是继今年6月份首次突破1万台后取得的又一重要成果,标志着元戎启行的组合辅助驾驶方案应用已进入全 面加速阶段。 截至目前,元戎启行已实现超10万台具备城市领航辅助系统的量产车型交付,涵盖SUV、MPV、越野车、轿车等多个车 型,预计到 ...
单月交付超3万台 元戎启行9月合作车型量产交付量再创新高
Zheng Quan Shi Bao Wang· 2025-09-29 10:43
(原标题:单月交付超3万台 元戎启行9月合作车型量产交付量再创新高) 据了解,VLA模型融合视觉、语言与动作三大核心能力,对比传统端到端模型,VLA模型具备强大的 思维链能力,能摆脱传统端到端模型的黑盒难题,并将信息串联、分析,从而推理出因果关系。此外, VLA模型天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境。 元戎启行表示,未来公司将持续深化VLA模型的技术能力与平台生态布局,探索更多可移动智能体场 景,加速推进从辅助驾驶到RoadAGI的演进路径,为全球用户带来更普惠、更安全、更智能的出行体 验。 截至目前,元戎启行已实现超10万台具备城市领航辅助系统的量产车型交付,涵盖SUV、MPV、越野 车、轿车等多个车型,预计到2025年底,将有近20万台搭载元戎启行组合辅助驾驶方案的车辆进入消费 者市场。这些量产成果验证了公司平台方案的市场适配能力,也为后续VLA(Vision-Language-Action) 模型的商业化落地奠定坚实基础。 元戎启行表示,自成立以来公司始终致力于打造"物理世界的通用人工智能",以创新技术引领人工智能 行业变革。随着搭载VLA模型的全新一代辅助驾驶平台D ...
机器人感知大升级,轻量化注入几何先验,成功率提升31%
3 6 Ke· 2025-09-28 12:09
Core Insights - The article discusses the challenges in enabling AI to truly "understand" the 3D world, particularly in the context of visual language action (VLA) models that rely on 2D image-text data [1][2]. Group 1: VLA Model Limitations - Current VLA models lack the necessary 3D spatial understanding for real-world operations, primarily relying on pre-trained visual language models [1]. - Existing enhancement methods based on explicit depth input face deployment difficulties and precision noise issues [1]. Group 2: Evo-0 Model Introduction - Shanghai Jiao Tong University and the University of Cambridge proposed a lightweight method called Evo-0 to enhance the spatial understanding of VLA models by implicitly injecting 3D geometric priors without requiring explicit depth input or additional sensors [2]. - Evo-0 utilizes the Visual Geometry Grounding Transformer (VGGT) to extract 3D structural information from multi-view RGB images, significantly improving spatial perception capabilities [2][3]. Group 3: Model Architecture and Training - Evo-0 integrates VGGT as a spatial encoder, introducing t3^D tokens that contain depth context and cross-view spatial correspondence [3]. - A cross-attention fusion module is employed to merge 2D visual tokens with 3D tokens, enhancing the understanding of spatial structures and object layouts [3][6]. - The model is trained efficiently by only fine-tuning the fusion module, LoRA adaptation layer, and action expert, reducing computational costs [6]. Group 4: Experimental Results - In RLBench simulation tasks, Evo-0 achieved an average success rate improvement of over 28.88% compared to baseline models, particularly excelling in tasks requiring complex spatial relationships [10][11]. - The robustness of Evo-0 was tested under five different interference conditions, consistently outperforming the baseline model pi0 [12][15]. Group 5: Conclusion - Evo-0's key innovation lies in extracting rich spatial semantics through VGGT, bypassing depth estimation errors and sensor requirements, thus enhancing the spatial modeling capabilities of VLA models [16].
对比之后,VLA的成熟度远高于世界模型...
自动驾驶之心· 2025-09-26 16:03
作者 | 周彦武 来源 | 佐思汽车研究 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 首先需要指出VLA和世界模型都是端到端的一种,尽管很多人都认为一段式端到端比分段式优秀,但无论是产业界还是学术界,90%以上都是分段式端到端,纯 粹的VLA和世界模型非常罕见。 代表VLA阵营出战的是高德地图的 模型,地平线的SENNA模型,还有加州大学洛杉矶分校的AutoVLA。代表世界模型出战的有和特斯拉中国 FSD很接近的上海AI实验室的GenAD模型,做重卡自动驾驶的中科慧拓的GenAD模型,华为和浙江大学合作的Drive-OccWorld,还有理想汽车的World4Drive,理 想汽车尽管推崇VLA,但对世界模型的研究水平也是极高的。 | 模型名称 | L2平均距离(米) | 3秒平均碰撞率 | 备注 | | --- | --- | --- | --- | | AutoDrive-R2 | 0.19 | | 70亿参数版 | | AutoDrive-R2 | 0.49 | | 30亿参数版 | | SENNA | 0.22 | 0.08% | 加入自车状态 ...
VLA这个方向的论文产出,是真的多......
具身智能之心· 2025-09-26 00:04
想象一下,如果能通过语言下达指令,并且丝滑执行任何你想要的动作,是一件多么幸福的事情!如果能长时 间连续动作完成,将会非常方便。下面给大家介绍下VLA到底是啥? VLA打破了传统方法的单任务局限,使得机器人能够在多样化的场景中自主决策,灵活应对未见过的环境, 广泛应用于制造业、物流和家庭服务等领域。此外,VLA模型已成为研究热点,推动了多个前沿项目的发 展,如pi0、RT-2、OpenVLA、QUAR-VLA和HumanVLA,这些研究促进了学术界与工业界的合作。其适应性 体现在能够应用于机械臂、四足机器人和人形机器人等多种平台,为各类智能机器人的发展提供了广泛的潜力 和实际应用价值,成为智能机器人领域的关键驱动力。 从今年各个机器人与AI顶会来看,VLA及其相关衍生方向,占据了近一半的具身产出。特别是长程操作、泛 化、少样本、VLA+RL、人形相关。 从产业角度看,国内外具身智能领域正处于蓬勃发展阶段,Unitree、智元、星海图、银河通用、逐际动力等团 队从实验室走向商业化,华为、京东、腾讯等科技巨头也积极布局,与国外Tesla、Figure AI等公司正在一起 推动这一领域的发展。 很多同学后台留言,咨 ...
从300多篇工作中,看VLA在不同场景下的应用和实现......
具身智能之心· 2025-09-25 04:00
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 兰州大学、中科院、新加坡国立等单位联合出品的一篇最新survey! Pure Vision Language Action (VLA) Models: A Comprehensive Survey 论文链接:https://arxiv.org/pdf/2509.19012 视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉- 语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 机器人技术长期以来一直是科学研究的重要领域。在历史发展进程中,机器人主要依赖预编程指令和设计好的控制策略来完成任务分解与执行。这些 方法通常应用于简单、重复性的任务,例如工厂 ...
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-24 23:33
视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉-语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 为此,兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法,旨在提供清晰的分类体系,并对现有研究进行系统、全面的综述。文中全面分析了VLA 在不同场景下的应用,并将VLA方法划分为多个范式: 自回归、扩散模型、强化学习、混合方法及专用方法 ;同时详细探讨了这些方法的设计动机、核心策略与实现方 式。 此外,本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状,综述进一步提出了该领域面临的关键挑战与未来发展方向,以推动 VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解,本综述勾勒出这一快速发展领域的研究轮廓,并强调了将塑造可扩展、通用型VLA方法发 展的机遇与挑战。 论文标题:Pure Vision Language Action (VLA) M ...