端到端自动驾驶
Search documents
刷新NAVSIM SOTA!端到端自动驾驶新框架Masked Diffusion
自动驾驶之心· 2025-12-26 03:32
来源 | 机器之心 原文链接: 刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。然而,将感知、推理与规划压缩进单一模型 后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本 质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当前 的短期操控动作。此外,基于模仿学习的模型容易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之间灵活切 换。 针对上述痛点, 复旦大学与引望智能联合提出了 WAM-Diff 框架 。该研究创新 ...
刷新NAVSIM SOTA,复旦提出端到端自动驾驶新框架
具身智能之心· 2025-12-26 00:55
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。然而,将感知、推理与规划压缩进单一模型 后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本 质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当 前的短期操控动作。此外,基于模仿学习的模型容易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之间灵 活切换。 针对上述痛点, 复旦大学与引望智能联合提出了 WAM-Diff 框架 。该研究创新性地将 离散掩码扩散模型 (Discrete Masked Diffusion)引入 VLA 自动 ...
刚做了一份世界模型的学习路线图,面向初学者......
自动驾驶之心· 2025-12-25 03:24
Core Viewpoint - The article discusses the distinction between world models and end-to-end models in autonomous driving, clarifying that world models are not a specific technology but rather a category of models with certain capabilities. It emphasizes the trend in the industry towards using world models for closed-loop simulation to address the high costs associated with corner cases in autonomous driving [2]. Course Overview - The course on world models in autonomous driving is structured into six chapters, covering the introduction, background knowledge, discussions on general world models, video generation-based models, OCC-based models, and job-related insights in the industry [5][6][7][8][9]. Chapter Summaries - **Chapter 1: Introduction to World Models** This chapter outlines the relationship between world models and end-to-end autonomous driving, discussing the development history and current applications of world models, as well as various streams such as pure simulation, simulation plus planning, and generating sensor inputs [5]. - **Chapter 2: Background Knowledge** This chapter covers foundational knowledge related to world models, including scene representation, Transformer technology, and BEV perception, which are crucial for understanding subsequent chapters [6]. - **Chapter 3: General World Models** Focuses on popular general world models like Marble from Li Fei-Fei's team and Genie 3 from DeepMind, discussing their core technologies and design philosophies [7]. - **Chapter 4: Video Generation-Based World Models** This chapter delves into video generation algorithms, starting with GAIA-1 & GAIA-2 and extending to recent works like UniScene and OpenDWM, highlighting both classic and cutting-edge advancements in this area [8]. - **Chapter 5: OCC-Based World Models** Concentrates on OCC generation algorithms, discussing three major papers and a practical project, emphasizing the potential for these methods to extend into vehicle trajectory planning [9]. - **Chapter 6: World Model Job Topics** This chapter shares practical insights from the instructor's experience, addressing industry applications, pain points, and interview preparation for positions related to world models [9]. Learning Outcomes - The course aims to provide a comprehensive understanding of world models in autonomous driving, equipping participants with the knowledge to achieve a level comparable to one year of experience as a world model algorithm engineer [10].
刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架
机器之心· 2025-12-25 03:12
随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范 式转移。然而,将感知、推理与规划压缩进单一模型后,主流的自回归(Auto-regressive)生成范式逐渐显 露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在 本质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶 意图(如切入匝道、避让行人、靠边停靠),再反推当前的短期操控动作。此外,基于模仿学习的模型容 易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之 间灵活切换。 针对上述痛点, 复旦大学与引望智能联合提出了 WAM-Diff 框架 。该研究创新性地将 离散掩码扩散模型 (Discrete Masked Diffusion)引入 VLA 自动驾驶规划,并结合 稀疏混合专家(MoE)架构与在线强化学习 (GSPO) ,构建了一套不再受限于单向时序的生成式规划系统。 在权威评测基准 NAVSIM 中,WAM-Diff 展现了卓越的性能,在 NAVSIM-v1 ...
下周开课!我们设计了一份自动驾驶世界模型学习路线图....
自动驾驶之心· 2025-12-24 09:22
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近和业内专家jason老师讨论了很多,分享一个最近被问到很多的问题: 世界模型是不是端到端?以及如何看待世界模型最近爆发式的工作发表。 第一个问题的答案是明确的:不是。 世界模型和端到端都不指某个具体的技术,而是一类具备某些特定能力的模型。可以理解为 世界模型只是一种实现端到端自 动驾驶的途径。 早鸟优惠!开课即止~ 目前学术界和工业界把自动驾驶世界模型收敛到生成和重建两个领域,并且主流都在利用世界模型在做闭环仿真,所以我们看到了很多相关工作的推出。这也是业 内风格转换的一个趋势,Corner Case的成本过高,我们需要更有效的的其他手段...... 先前平台和Jason老师共同打造的《端到端与VLA自动驾驶小班课》备受大家好评,因此我们进一步推出这门世界模型小班课, 课程聚焦于通用世界模型、视频生 成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大家加入学习~ 讲师介绍 Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主 ...
深扒特斯拉ICCV的分享,我们找到了几个业内可能的解决方案......
自动驾驶之心· 2025-12-23 00:53
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 编辑 | 自动驾驶之心 首先看上图,展示了Tesla标准的端到端自动驾驶方案,其中Large Neural Network可以为LLM(Large Language Model),也可以为非LLM架构,总之是一个具有强大 表征能力的大规模神经网络。这种架构通过直接从传感器输入到控制输出的映射,避免了传统模块化系统的复杂性和错误累积问题。然而,这种端到端架构在实际部 署中面临着如下三大核心挑战: 论文标题 :UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs 论文链接 :https://arxiv.org/pdf/2511.01768 项目链接 :https://github.com/happinesslz/UniLION UniLION主要特点:统一的3D骨干网络架构,基于线性组RNN实现线性计算复杂度,解决了传统Transformer在处理长序列数据时的计算效率瓶 ...
世界模型工作正在呈现爆发式增长
自动驾驶之心· 2025-12-20 02:16
Core Viewpoint - The article discusses the distinction between world models and end-to-end models in autonomous driving, emphasizing that world models are a means to achieve end-to-end autonomous driving rather than a specific technology [2]. Group 1: World Model Overview - The article highlights the recent surge in publications related to world models, particularly in the context of closed-loop simulation, which is becoming a trend in the industry due to the high costs associated with corner cases [2]. - It introduces a new course focused on world models, covering various algorithms such as general world models, video generation, and OCC generation, with applications in Tesla's world model and the Marble project by Fei-Fei Li's team [2][5]. Group 2: Course Structure - The course consists of six chapters, starting with an introduction to world models and their relationship with end-to-end autonomous driving, followed by a discussion on the historical development and current applications of world models [5][6]. - The second chapter covers foundational knowledge related to world models, including scene representation and technologies like Transformer and BEV perception, which are crucial for understanding subsequent chapters [5][6]. Group 3: Advanced Topics - The third chapter focuses on general world models, discussing notable models such as Marble, Genie 3 from DeepMind, and the latest developments from Meta, including the VLA+ world model algorithm [6][7]. - The fourth chapter delves into video generation-based world models, presenting classic works and recent advancements in the field, including projects like GAIA-1 & GAIA-2 and OpenDWM [7][8]. - The fifth chapter addresses OCC generation methods, explaining their potential for trajectory planning and end-to-end implementation [8]. Group 4: Industry Application and Career Preparation - The sixth chapter provides insights into the practical applications of world models in the industry, discussing pain points and how to prepare for job interviews in this field [9]. - The course aims to equip participants with the skills to understand and implement world model technologies, preparing them for roles as world model algorithm engineers [10][13].
某新势力智驾负责人遭排挤离职......
自动驾驶之心· 2025-12-19 09:25
来源 | 雷峰网 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 以下文章来源于雷峰网 ,作者智驾情报局 雷峰网 . 洞见智能未来,共与产业变迁 本文只做学术分享,如有侵权,联系删文 智驾公司高层内斗或为停摆元凶,欺上瞒下失信集团被全面接管 上期雷峰网聊到智驾独角兽 A 停摆,是因为其在技术方面存在硬伤,但实际上A公司早就因人事管理问题被集团B全面接管。 据知情人爆料,早在上个月公司通过群聊通知停工消息前,该公司的全员群就已被禁言。目前留下的 300 多位员工,也是去年 11 月大裁员后剩余的人员,而 这家公司的下滑趋势,其实早在去年 4 月份就已显现。 当时 B 集团纪委收到了一封举报信,信中指明 A 公司一位年薪近百万的销售存在简历造假问题。集团大老板得知此事后十分震怒,当场拍了桌子要求彻查。这 一查不要紧,竟暴露出 A 公司财务方面的大问题,导致 A 公司彻底失去了集团大老板的信任。从那时起,A 公司的公章和包括审批付款在内的所有权限,都被 集团收回。 想当年 B 集团老大对 A 公司负责人乙可算是 ...
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 03:18
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近和业内专家jason老师讨论了很多,分享一个最近被问到很多的问题: 世界模型是不是端到端? 答案是明确的:不是。 其实世界模型和端到端都不指某个具体的技术,而是一类具备某些特定能力的模型。 端到端自动驾驶可以这么定义:没有显示的信息处理与决策逻辑,一端接受信息输入,另一端输出决策结果的模型。 世界模型使用类似的定义:它接受信息输入,内在建立起对整个世界/环境的完整认知,能够重建、预测未来变化的模型。 所以世界模型是一种实现端到端自动驾驶的途径。 先前平台打造的《端到端与VLA自动驾驶小班课》备受大家好评,因此我们进一步推出这门世界模型小班课, 课程聚焦于通用世界模型、视频生成、OCC生成等 世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大家加入学习~ 早鸟优惠!开课即止~ 讲师介绍 Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量 产,并已主持和完成多项自动驾驶感知和端 ...
端到端VLA的入门进阶和求职,我们配备了完整的学习路线图!
自动驾驶之心· 2025-12-18 00:06
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近很多中游厂商联系自动驾驶之心,想要挖掘端到端、VLA方向的技术人才,明年会投入更多的资源进行落地,对于经验丰富的专家级人才,基本上都是百万年 薪起步了。 针对工业界明确的需求,自动驾驶之心联合了诸多大佬 大佬开展了 《面向量产的端到端实战小班课》、《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大 模型实战课程》! 入门、进阶、求职全部打通! 扫码报名!抢占课程名额 端到端与VLA自动驾驶课程 由工业界大佬带队! 这门课程则聚焦在端到端自动驾驶的宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解了BEV感知、大语言模型、扩散模 型和强化学习。课程设计了两大实战:基于扩散模型的Diffusino Planner和基于VLA的ORION算法。课程大纲如下: 课程老师介绍:Jason, C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算 法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量 ...