Workflow
自动驾驶之心
icon
Search documents
理想最新DriveAction:探索VLA模型中类人驾驶决策的基准~
自动驾驶之心· 2025-06-21 13:15
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享理想汽车最新的工作—DriveAction! 探索VLA模型 中类人驾驶决策的基准。 如果您有相关工作需要分享,请在文末联系我们! >>点击进入→ 自动驾驶之心 『多模态大模型』技术交流群 论文作者 | Yuhan Hao等 编辑 | 自动驾驶之心 研究背景与问题提出 在自动驾驶技术不断发展的进程中,Vision-Language-Action(VLA)模型凭借其强大的多模态处理能力, 为自动驾驶系统的发展带来了新的机遇。然而,现有的基准数据集在场景多样性、动作级标注的可靠性以 及与人类偏好一致的评估协议等方面存在明显不足,这严重制约了VLA模型的进一步发展和实际应用。 具体来看,现有基准数据集主要存在以下问题: DriveAction基准的核心创新 为解决上述问题,本文提出了DriveAction基准,这是首个专为VLA模型设计的动作驱动基准,具有以下三 大核心创新: 场景多样性不足 :大多数基准数据集基于开源数据构建,来源单一,难以覆盖现实驾驶中的各种复杂 场景,如道路合并与出口 ...
MinMax-M1:超越DeepSeek,支持百万级token上下文
自动驾驶之心· 2025-06-21 13:15
以下文章来源于AIGC面面观 ,作者欠阿贝尔两块钱 AIGC面面观 . 整理LLM、AIGC的入门笔记 | 论文学习笔记 | 一线大厂面经 | 探索AIGC落地 作者 | 欠阿贝尔两块钱 来源 | AIGC面面观 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『大模型』技术交流群 主要贡献 1. 高效混合架构设计 :结合MoE架构与Lightning Attention)的模型MiniMax-M1, 支持百万级上下文窗 口(1M tokens) ,生成长度达80K tokens时FLOPs仅为传统注意力模型的25%。 2. 超越DAPO的算法CISPO :通过 剪裁重要性采样权重 提升RL效率,相比DAPO实现2倍加速,避免了 传统方法(如PPO/GRPO)对低概率token有更好的采样效果。 3. 可扩展上下文 :支持从40K到80K Token生成长度的扩展。 本文只做学术分享,如有侵权,联系删文 1.混合注意力架构 Lighting Attention : 采用I/O感知的线性注意力计算,通过分块计算和内存优化 ,将长 ...
量产项目卡在了场景泛化,急需千万级自动标注?
自动驾驶之心· 2025-06-21 13:15
而自从端到端和大语言LLM横空出世以来,大规模无监督的预训练 + 高质量数据集做具体任务的微调, 可能也会成为量产感知算法下一阶段需要发力的方向。同时数 据的联合标注也是当下各家训练模型的实际刚需,以往分开标注的范式不再适合智能驾驶的算法发展需求。今天自动驾驶之心就和大家一起分享下4D数据的标注流 程: 最复杂的当属动态障碍物的自动标注,涉及四个大的模块: 而为了尽可能的提升3D检测的性能,业内使用最多的还是点云3D目标检测或者LV融合的方法: 得到离线单帧的3D检测结果后,需要利用跟踪把多帧结果串联起来,但当下跟踪也面临诸多的实际问题: 离线3D目标检测; 离线跟踪; 后处理优化; 传感器遮挡优化; 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 千万级4D标注方案应该怎么做? 智能驾驶算法的开发已经到了深水区,各家都投入了大量的精力去做量产落地。其中一块最关键的就是如何高效的完成4D数据标注。无论是3D动态目标、OCC还是静 态标注。 相比于车端的感知算法,自动标注系统更像是一个不同模块组成的系统, 充分利用离线的算力和时序信息,才能得到更好的感知结果 ...
商汤绝影世界模型负责人离职。。。
自动驾驶之心· 2025-06-21 13:15
Core Viewpoint - The article discusses the challenges and opportunities faced by SenseTime's autonomous driving division, particularly focusing on the competitive landscape and the importance of technological advancements in the industry. Group 1: Company Developments - The head of the world model development for SenseTime's autonomous driving division has left the company, which raises concerns about the future of their cloud technology system and the R-UniAD generative driving solution [2][3]. - SenseTime's autonomous driving division has successfully delivered a mid-tier solution based on the J6M model to GAC Trumpchi, but the mid-tier market is expected to undergo significant upgrades this year [4]. Group 2: Market Dynamics - The mid-tier market will see a shift from highway-based NOA (Navigation on Autopilot) to full urban NOA, which represents a major change in the competitive landscape [4]. - Leading companies are introducing lightweight urban NOA solutions based on high-tier algorithms, targeting chips with around 100 TOPS computing power, which are already being demonstrated to OEM clients [4]. Group 3: High-Tier Strategy - The key focus for SenseTime this year is the one-stage end-to-end solution, which has shown impressive performance and is a requirement for high-tier project tenders from OEMs [5]. - Collaborations with Dongfeng Motor aim for mass production and delivery of the UniAD one-stage end-to-end solution by Q4 2025, marking a critical opportunity for SenseTime to establish a foothold in the high-tier market [5][6]. Group 4: Competitive Landscape - SenseTime's ability to deliver a benchmark project in the high-tier segment is crucial for gaining credibility with OEMs and securing additional projects [6][7]. - The current window of opportunity for SenseTime in the high-tier market is limited, as many models capable of supporting high-tier software and hardware costs are being released this year [6][8].
自动驾驶基础模型全面盘点(LLM/VLM/MLLM/扩散模型/世界模型)
自动驾驶之心· 2025-06-21 11:18
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 摘要 对于自动驾驶车辆而言,在复杂环境中安全导航依赖于应对广泛且多样化的罕见驾驶场景的能力。基于仿 真和场景的测试已成为自动驾驶系统开发与验证的关键方法。传统场景生成依赖基于规则的系统、知识驱 动模型和数据驱动的合成方法,但这些方法往往生成的场景多样性有限,且难以生成真实的高风险安全关 键场景。随着基础模型(Foundation Models)的出现——一种预训练的通用人工智能模型——开发者能够 处理异构输入(例如自然语言、传感器数据、高清地图和控制指令),从而实现对复杂驾驶场景的合成与 解析。本文围绕基础模型在自动驾驶场景生成与分析中的应用(截至2025年5月)开展综述研究。本综述提 出了一个统一分类体系,涵盖大语言模型(LLMs)、视觉-语言模型(VLMs)、多模态大型语言模型 (MLLMs)、扩散模型(DMs)和世界模型(WMs)在自动驾驶场景生成与分析中的应用。此外,我们回 顾了相关方法论、开源数据集、仿真平台和基准测试挑战,并探讨了针对场景生成与分析的专用评估指 标。最后,本文总结了当前面临的开放性 ...
多样化大规模数据集!SceneSplat++:首个基于3DGS的综合基准~
自动驾驶之心· 2025-06-20 14:06
以下文章来源于3D视觉之心 ,作者3D视觉之心 3D视觉之心 . 3D视觉与SLAM、点云相关内容分享 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 评估协议的关键局限性 三维计算机视觉领域高度关注于捕捉场景的几何和视觉外观,以及理解其内容。近年来,三维高斯溅射(3D Gaussian Splatting, 3DGS)因其独特的能力——能够以一种紧凑的形式联合编码场景的几何、外观和理解属性 (该形式可以有效地从二维带位姿的图像中优化得到)——已成为最理想的三维表示方法。此外,视觉-语言推 理代表了三维场景理解最具前景的方向,因为它将场景的视觉和几何属性与我们用来定义、描述和推理概念的语 言连接起来。因此,本文专注于利用 3DGS 进行视觉-语言场景理解。 语言高斯溅射(Language Gaussian Splatting, LGS)最相关的方法可分为三类。前两类方法首先使用视觉-语言基 础模型(例如 CLIP)从所有训练图像中提取二维特征。第一类随后执行基于梯度的单场景优化,将特征向量分 配给每个三维高斯基元(primitive),并优化它们,使其渲染 ...
为什么定义2000 TOPS + VLA + VLM为L3 级算力?
自动驾驶之心· 2025-06-20 14:06
专注于汽车及相关的电子技术研究与讨论 作者 | Xingwei 来源 | 辣笔小星 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『大模型』技术交流群 本文只做学术分享,如有侵权,联系删文 以下文章来源于辣笔小星 ,作者Xingwei 辣笔小星 . 小鹏在10亿(1B)、30亿、70亿直至720亿(72B)参数的VLA视觉-语言-行动模型上都验证了这一效应证明 了"参数规模越大模型能力越强"在自动驾驶场景中同样成立。确立了通过"海量高质量数据+大模型驱动"实现自 动驾驶能力的跃升路径。论文中VLM视觉-语言模型专注于"看懂和理解"而VLA视觉-语言-行动模型在VLM基础 上增加了"决策和行动"能力是从理解到执行的进化升级。也是小鹏基于论文提出2000TOPS+VLA+VLM定义L3级 自动驾驶算力新标准的底层逻辑,以及小鹏G7部署30B参数本地运行VLA模型的原因。 2000TOPS算力标准的技术逻辑 自动驾驶系统的算力需求呈现明显的分级特征。小鹏论文中从L2到L3级别的跨越不仅是功能上的提升更是算力 需求的指数级增长。自动 ...
打造万人的自动驾驶黄埔军校,一个死磕技术的地方~
自动驾驶之心· 2025-06-20 14:06
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 这几天刚和团队小伙伴沟通完后期工作建设,探讨究竟要做一个什么样的自动驾驶社区?其中一个答案比 较符合我们的思路,那就是一个能够凝聚行业人群、遇到问题能够快速响应、影响到整个行业的地方。 2025年我们应该瞄准哪些技术领域? 从24年下半年开始,自驾一个非常明显的信号是技术迭代的周期越来越短。2025年智驾的技术基调基本确 定,大模型赋能下的端到端2.0 — VLA。这里面涵盖的技术栈非常前沿:视觉大语言模型VLM基座、基于 扩散模型的端到端轨迹联合预测、端到端闭环仿真的3DGS和生成技术、世界模型解锁自动驾驶未来演进。 我们目标是未来3年内打造一个万人聚集的智能驾驶&具身智能社区,这里也非常欢迎优秀的同学加入我们 (目前已经有华为天才少年、自驾领域研究前沿的多为大佬加入)。我们和多家业内公司搭建了学术 + 产 品+ 招聘完整的桥梁和链路,同时内部在教研板块也基本形成了闭环(课程 + 硬件+问答)。社区里面既能 看到最新的行业技术动态、技术分享,也有非常多的技术讨论、入门问答,以及必不可少的行业动态及求 职分享 ...
[大模型实践] 卡比人贵时代的深度学习经验
自动驾驶之心· 2025-06-20 14:06
以下文章来源于刘聪NLP ,作者黄哲威 hzwer 刘聪NLP . NLP刘聪,如货币般流通!这里的刘聪,不会rapper,只发paper!长期关注AIGC前沿内容!还写过两 本书:ChatGPT原理与实战、大型语言模型实战指南!欢迎来讨论AI! 作者 | hzwer 黄哲威 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/22287171257 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>点击进入→ 自动驾驶之心 『大模型』技术交流群 本文只做学术分享,如有侵权,联系删文 评测的重要性 论文说自己的方法性能好,一般就是定量部分,要突出关键指标的提升;定性部分,着重强调新的现象和观察 太长不看版:大模型实验的一些新方法论: 选准关键指标 ,指导迭代方向。 识别真瓶颈 ,避免低效实验,验证强假设。 平衡大小实验 ,大实验找问题,小实验筛想法。 强化团队协作 ,整合资源,找比较优势。 (总结好像很套话,但真的努力写干货了,欢迎评论交流启发补充 "不要被表象所迷惑,要洞察事物的本质。" —— 亚里士多德 几年 ...
学习端到端大模型,还不太明白VLM和VLA的区别。。。
自动驾驶之心· 2025-06-19 11:54
以下是知识星球里面一位同学的提问: 请问VLA和VLM的区别是什么?现在推荐学哪个呢? 这两者互为表里: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型已经席卷各个领域,在智能驾驶领域,VLM也正在逐渐铺开落地量产。 不少入门的小伙伴也表示,现在大模型太重要了,想要入门学习,但有点拿不准方向。 1、VLM可以理解基础的能力,可以是通用的检测、问答、空间理解、思维链等等能力 2、VLA更侧重Action的能力,最终目的是为了做动作,在自动驾驶中可以理解为自车轨迹预测的能力,通时预 测的轨迹又要尽可能的符合人类的理解,这又进一步依赖vision和language的基本能力,比如我要解释这个行 为,可以使用思维链的形式一步步推理分析,这里面依赖自动驾驶基础的感知(行人在哪里,2D坐标,3D位置 等等) 这两者没办法完全独立的学习,我认为的方式应该是先学VLM,再去扩展到VLA VLM接扩散模型就可以预测轨迹,也就是Action,这块就涉及到多模轨迹的好处了,面对不确定的环境,单模 的能力有限,多模的上限是更高的 最后欢迎大家加入知识星球,硬核资料在星球置 ...