Workflow
端到端自动驾驶
icon
Search documents
工业界和学术界大佬带队!彻底搞定端到端与VLA
自动驾驶之心· 2025-10-09 23:32
端到端作为当前自动驾驶量产的核心算法,所涉及的技术栈十分丰富。很多研究生的同学和转行的工业界小伙伴在刚开始接触时,往往会遇到很多问 题。目前业内主要有两大类范式:一段式和两段式。一段式最具代表性的就是UniAD,直接从传感器输入(视觉/Lidar/Radar等)建模自车轨迹的输出, 二段式基于感知结果进一步输出自车和他车的轨迹。 一段式端到端又可以进一步延伸出基于感知的一段式、基于扩散模型的一段式、基于世界模型的一段式以及基于VLA的一段式端到端算法。不难看出, 端到端已经衍生出很多子领域,尤其是基于VLA的相关算法,这两年相关论文在爆发式发表,工业界也在争先量产。 从模块化的量产算法发展到端到端,再到如今的VLA。核心算法涉及BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等等。通过学习端 到端与VLA自动驾驶,可以掌握学术界和工业界最前沿的技术方向。 最近几个月,我们收到了很多同学的咨询如何快速高效的入门端到端和VLA。所以我们联合了 工业界 和 学术界 的大佬开展了 《端到端与VLA自动驾 驶小班课》 和 《自动驾驶VLA和大模型实战课程》 ! 扫码报名!抢占课程名额 课程大纲 自动驾驶VL ...
模仿学习无法真正端到端?
自动驾驶之心· 2025-10-08 23:33
BigBite思维随笔 . Big Bite Small Talk, 杂谈随笔,聊科技,AI,成长,理财,经验杂谈。Stay Hungry 作者 | BigBite 来源 | BigBite思维随笔 原文链接: 模仿学习无法真正端到端 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 以下文章来源于BigBite思维随笔 ,作者BigBite >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 自动驾驶行业新的技术名词层出不穷,在大家争论到底是VLA更好,还是世界模型更先进的时候,其实忽略了相比模型架构,训练方法才是决定功能效 果的关键。事实上无论是VLA也好,世界行为模型也罢,本质上他们都是实现端到端的具体模型结构,可是随着越来越多头部企业在端到端的技术范式 上努力探索投入,头部团队逐渐发现单纯依靠模仿学习实现不了彻底的端到端自动驾驶! 那么模仿学习在自动驾驶领域中的问题和局限性到底在哪里呢? 模仿学习假定专家数据是最优的 模仿学习的潜在假设是每一条训练数据轨迹都给出了在当前状态下最优的行为真值,因此越接近训练数据的行 ...
纵向端到端是自动驾驶技术的一道分水岭
自动驾驶之心· 2025-10-04 04:04
以下文章来源于BigBite思维随笔 ,作者BigBite BigBite思维随笔 . 为什么需要纵向端到端 为什么我们需要纵向端到端?如果大家还能记起横向端到端前的城市辅助驾驶功能是什么样子,就会回忆起那时候的城市辅助驾驶在绕行超车时候非常犹 豫,挣扎,经常会被莫名其妙的障碍物卡死导致接管。正如单纯依赖规则,依赖动态规划等方法无法完全实现拟人高效的超车,绕行等动作一样,单纯依 赖规则或者优化方法也难以保证纵向控制的拟人丝滑。 Big Bite Small Talk, 杂谈随笔,聊科技,AI,成长,理财,经验杂谈。Stay Hungry 而有驾驶经验的人应该都知道,日常驾驶中区分新手司机和老司机的关键其实在于老司机对速度,对刹车的控制力,踩油门,甚至打方向新手都能一学就 会,真正的驾驶智慧体现在对减速的控制。 作者 | EatElephant 来源 | 知乎 原文链接: https://zhuanlan.zhihu.com/p/1950344892866883662 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心 ...
有人在自驾里面盲目内卷,而有的人在搭建真正的壁垒...
自动驾驶之心· 2025-09-29 23:33
车企的新一轮变革已经拉开了帷幕。 九月,车企48位高管变动。理想把智驾团队拆成 11 个二级部门,比亚迪从斑马挖来 CTO 搞座 舱,长安汽车的高层也正经历大变动,连蔚来的任少卿都一边在公司管自动驾驶,一边去中科大 搭实验室了。 目前,自动驾驶的前沿方向聚焦在自动驾驶VLA/VLM、端到端自动驾驶、世界模型world model、闭环仿真3DGS、强化学习等等。但很多在校的同学根本不清楚业内实际的进展,很多 中小厂的算法工程师也是如此。通过几次的线上星友面对面交流,柱哥更是深刻意识到这个问 题。 所以我们最近一直在琢磨,怎样才能成为大家沟通的桥梁,打通学术界和工业界的信息壁 垒,打通不同公司之间的信息壁垒。 对于搞算法的同学来说,更是深有感触。三年前还是BEV,两年前是无图,一年期是端到端,今 年是VLA和世界模型,下一步是什么呢?在人工智能这条大的赛道上,什么才是算法岗位真正 的活力和壁垒? 柱哥认为是持续不断的更新自己的认知,要敢于跳出自己的舒适圈。 添加博主微信咨询自驾社区 所以我们联合了诸多学术界和工业界的大佬,共同打造了我们维护三年之久的『自动驾驶之心知 识星球』! 星球目前集视频 + 图文 + 学 ...
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 08:45
Core Viewpoint - 2023 is identified as the year of end-to-end production, with 2024 expected to be a significant year for this development in the automotive industry, particularly in autonomous driving technology [1][3]. Group 1: End-to-End Production - Leading new forces and manufacturers have already achieved end-to-end production [1]. - There are two main paradigms in the industry: one-stage and two-stage approaches, with UniAD being a representative of the one-stage method [1]. Group 2: Development Trends - Since last year, the one-stage end-to-end approach has rapidly evolved, leading to various derivatives such as perception-based, world model-based, diffusion model-based, and VLA-based one-stage methods [3]. - Major autonomous driving companies are focusing on self-research and mass production of end-to-end autonomous driving solutions [3]. Group 3: Course Offerings - A course titled "End-to-End and VLA Autonomous Driving" has been launched, covering cutting-edge algorithms in both one-stage and two-stage end-to-end approaches [5]. - The course aims to provide insights into the latest technologies in the field, including BEV perception, visual language models, diffusion models, and reinforcement learning [5]. Group 4: Course Structure - The course consists of several chapters, starting with an introduction to end-to-end algorithms, followed by background knowledge essential for understanding the technology stack [9][10]. - The second chapter focuses on the most frequently asked technical keywords in job interviews over the next two years [10]. - Subsequent chapters delve into two-stage end-to-end methods, one-stage end-to-end methods, and practical assignments involving RLHF fine-tuning [12][13]. Group 5: Learning Outcomes - Upon completion, participants are expected to reach a level equivalent to one year of experience as an end-to-end autonomous driving algorithm engineer [19]. - The course aims to deepen understanding of key technologies such as BEV perception, multimodal large models, and reinforcement learning, enabling participants to apply learned concepts to real projects [19].
会自检的VLA!ReflectDrive:更安全更高效scaling的端到端框架(理想&清华)
自动驾驶之心· 2025-09-27 23:33
会自检的ReflectDrive:我的轨迹我做主,安全感拉满! 端到端自动驾驶已成为一个重要且快速发展的研究领域。通过大规模数据集学习类人驾驶策略具有相当大的潜力。但是在多模态性能以及长尾场景, 没有可持续解决问题的框架。如果仅依赖强化学习来加强,那么reward hack又成为了棘手的问题,很难写出一个全面的reward可以适用连续轨迹复杂的 三维空间。所以近年来大语言模型的泛化能力突破让大家看到了希望,是否能够利用模型scaling以及数据scaling去激发模型的泛化性能,也就是vla模 型的兴起。 大家都想利用上vlm的泛化能力,用更少的数据去解决few shot/zero shot的场景。下面是对于目前自动驾驶方案vla方案的痛点分析: 基于上面的描述,可以看出目前迫切需要做到的是L模态和A模态的融合,一种更容易scaling的统一的架构,同时还要做到高效生成。为应对这些挑 战, 理想和清华的团队提出ReflectDrive——一种新型学习框架,通过离散扩散的反思机制实现安全轨迹生成。 我们首先将二维驾驶空间离散化以构 建动作代码本,从而能够通过微调将预训练扩散语言模型用于规划任务。该框架的核心是安 ...
对比之后,VLA的成熟度远高于世界模型...
自动驾驶之心· 2025-09-26 16:03
作者 | 周彦武 来源 | 佐思汽车研究 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 首先需要指出VLA和世界模型都是端到端的一种,尽管很多人都认为一段式端到端比分段式优秀,但无论是产业界还是学术界,90%以上都是分段式端到端,纯 粹的VLA和世界模型非常罕见。 代表VLA阵营出战的是高德地图的 模型,地平线的SENNA模型,还有加州大学洛杉矶分校的AutoVLA。代表世界模型出战的有和特斯拉中国 FSD很接近的上海AI实验室的GenAD模型,做重卡自动驾驶的中科慧拓的GenAD模型,华为和浙江大学合作的Drive-OccWorld,还有理想汽车的World4Drive,理 想汽车尽管推崇VLA,但对世界模型的研究水平也是极高的。 | 模型名称 | L2平均距离(米) | 3秒平均碰撞率 | 备注 | | --- | --- | --- | --- | | AutoDrive-R2 | 0.19 | | 70亿参数版 | | AutoDrive-R2 | 0.49 | | 30亿参数版 | | SENNA | 0.22 | 0.08% | 加入自车状态 ...
AnchDrive:一种新端到端自动驾驶扩散策略(上大&博世)
自动驾驶之心· 2025-09-26 07:50
端到端多模态规划已成为自动驾驶领域的变革性范式,能有效应对行为多模态问题及长尾场景下的 泛化挑战。 本文提出端到端框架AnchDrive,该框架可有效引导扩散策略(diffusion policy),以降低传统生成 模型的高计算成本。 与从纯噪声开始去噪不同,AnchDrive利用丰富的混合轨迹锚点(hybrid trajectory anchors)为规划器 初始化。这些锚点来源于两个互补的数据源:一是包含通用驾驶先验知识的静态词汇表,二是一组 动态的、具备情境感知能力的轨迹。其中,动态轨迹由Transformer实时解码生成,该Transformer可 处理密集型与稀疏型感知特征。随后,扩散模型通过学习预测轨迹偏移分布来优化这些锚点,从而 实现精细化调整。这种基于锚点的引导式设计,能够高效生成多样化、高质量的轨迹。在NAVSIM 基准测试中的实验表明,AnchDrive达到了新的性能上限(state-of-the-art),并展现出强大的泛化能 力。 更多关于端到端自动驾驶、VLA、世界模型的前沿技术,欢迎加入『自动驾驶之心知识星球』! 一、引言 近年来,端到端自动驾驶算法受到广泛关注,其相较于传统基于规 ...
如何向一段式端到端注入类人思考的能力?港科OmniScene提出了一种新的范式...
自动驾驶之心· 2025-09-25 23:33
如何向一段式端到端注入人类思考的能力? 人类视觉能够将2D观察结果转化为以自身为中心的3D场景理解,这一能力为理解复杂场景和展现自适应行为提供了基础。然而当前自动驾驶系统仍缺乏 这种能力—主流方法在很大程度上依赖于基于深度的三维重建,而非真正的场景理解。 为解决这一局限,港科、理想和清华的团队提出一种全新的类人框架OmniScene。 首先本文引入OmniScene视觉-语言模型(OmniVLM),这是一种结合 环视感知与时序融合能力的VLM框架,可实现全面的4D场景理解。其次通过师生结构的OmniVLM架构与知识蒸馏,将文本表征嵌入3D实例特征中以实 现语义监督,既丰富了特征学习过程,又明确捕捉了类人的注意力语义信息。这些特征表征进一步与人类驾驶行为对齐,形成更贴近人类认知的"感知-理 解-行动"架构。 此外本文提出分层融合策略(HFS),以解决多模态融合过程中模态贡献不平衡的问题。该方法能在多个抽象层级上自适应校准几何特征与语义特征的相 对重要性,实现视觉模态与文本模态互补信息的协同利用。这种可学习的动态融合机制,使得异质信息能够被更细致、更有效地挖掘。 本文在nuScenes数据集上对OmniScene ...
FlowDrive:一个具备软硬约束的可解释端到端框架(上交&博世)
自动驾驶之心· 2025-09-22 23:34
在BEV空间中引入具有物理可解释性的基于能量的增强信息,助力端到端新SOTA! 这两年的端到端算法基于环视BEV表示实现运动规划。在车辆运动规划过程中,自动驾驶需同时考虑两类约束:一类是由几何占据障碍物(如车辆、 行人)带来的 硬约束 ,另一类是无明确几何形态、基于规则的 软语义约束 (如车道边界、交通先验知识)。然而现有端到端框架通常依赖以隐式方 式学习的BEV特征,缺乏对"风险"和"导向先验"的显式建模,难以实现安全且可解释的规划。 为解决这一问题,上交、博世中国、清华AIR和上海大学的团队共同提出 FlowDrive ——其核心是在BEV空间中引入具有物理可解释性的基于能量的流 场(包括风险势场与车道吸引力场),将语义先验和安全线索编码至BEV空间中。这些 流感知特征 能够实现锚定轨迹的自适应优化,并为轨迹生成提 供可解释的导向。此外,FlowDrive通过带有特征级门控的条件扩散规划器,将运动意图预测与轨迹去噪解耦,有效缓解了任务间干扰,提升了多模态 多样性。 在NAVSIM v2基准数据集上的实验表明,FlowDrive实现了当前最优性能,Extended Predictive Driver Mod ...