Workflow
自动驾驶之心
icon
Search documents
收到很多同学关于自驾方向选择的咨询......
自动驾驶之心· 2025-12-26 09:18
对于从事自动化和计算机的同学,建议搞深度学习,VLA、端到端、世界模型都是很好的方向,从入门、到 工作甚至读博都有很大空间。对于机械和车辆的同学,可以先学习传统PnC、3DGS这些方向算力低、入手简 单。 剩下的就是一些方法论的提升了,多看论文多交流,慢慢形成自己的思考和idea。 对很多新人研究者,一个 好的idea需要踩很多次坑。如果你还是新人,不知道怎么入门,可以看看我们推出的论文辅导。 论文辅导上线了! 端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、点云感知、毫米波雷 达、单目感知、车道线/在线高精地图等方向。 如果您有任意论文发表需求,支持带课题/研究方向咨询,欢迎联系我们, 微信:paperguidance 提供的服务 论文选题; 论文全流程指导; 实验指导; 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近收到不少同学的咨询,很多都是计算机、车辆、自动化和机械方向的同学。 先看自驾一些 ...
冷静看待VLA:不是救世主,也不是“垃圾”
自动驾驶之心· 2025-12-26 09:18
作者 | 郑纯然Range 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1921620079314961855 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 它并不完全是黑盒,最近NVIDIA有个工作CoT-VLA,就主要展示了VLA思维链并拆分为三层: 和人的思考模式真挺像的。 真正的挑战在于让模型学会泛化。 在遮挡/复杂背景/3D空间中的表现,关键是要把subgoal embedding设计好来保证泛化性。要保证subgoal embedding具有: 例如用cross-attention: 任务文本token attend到图像patch token,上面4条都能保证,可能效果就不错。 说不定,learning方法在复杂环境下反而更有优势。 昨晚睡前刷到一篇批判VLA的帖子,说"有些搞VLA公司又懒又蠢... (此处省略2000个字)",全篇非常犀利,我整理了下弗雷哥 (答主) 说的几个槽点: 肯定不能全盘否定 ...
刷新NAVSIM SOTA!端到端自动驾驶新框架Masked Diffusion
自动驾驶之心· 2025-12-26 03:32
来源 | 机器之心 原文链接: 刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。然而,将感知、推理与规划压缩进单一模型 后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本 质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当前 的短期操控动作。此外,基于模仿学习的模型容易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之间灵活切 换。 针对上述痛点, 复旦大学与引望智能联合提出了 WAM-Diff 框架 。该研究创新 ...
端到端下半场,如何做好高保真虚拟数据集的构建与感知?
自动驾驶之心· 2025-12-26 03:32
▍文章来源于 康谋自动驾驶 点击下方 卡片 ,关注" 康谋自动驾驶 " 公众号 获取更多自动驾驶资讯 随着自动驾驶技术的日益升级,以UniAD、FSD V12为代表的" 端到端 "架构正重构行业格局。这一架构试图通过 单一 神经网络 直接建立从 传感器输入 到 车辆控制 的映射,从而突破传统模块化累积误差的局限。 然而 端到端模型 对数据分布的 广度 与 深度 均有着高要求,尤其是对缺乏归纳偏置的 Transformer架构 而言," 数据 规模 "与" 场景覆盖度 "可谓直接决定了 模型上限 。 现实路测数据 面临极端的 长尾工况 数据局限,如实车采集" 采不到、标不准、测不起、太危险 "。在此背景下," 虚拟 数据集 "成为了大家关注的热点,通过构建涵盖极端天气、复杂交互及事故场景的高保真虚拟数据,我们不仅能够以 低成本、高效率 的方式生成 海量带标签的样本 ,更能为端到端模型提供 闭环训练环境 。虚拟数据集已不再是现实数 据的简单补充,而是训练 高阶端到端模型 不可或缺的一环。 为满足自动驾驶算法对 高质量数据资产 的迫切需求,并有效应对真实路测的局限,本文将全面阐述 高 保真虚拟数据 集SimData ...
前馈GS在自驾场景落地的难点是什么?
自动驾驶之心· 2025-12-26 03:32
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这两天有小伙伴在群里抛出这个问题,非常有建设性,分享给大家? 探讨feed-forward GS在自驾场景落地的难点目前在哪里? 目前来看Feed-forward的相关方法在点云精度还是差一点的,尤其是ff的方法在私有数据的域上精度不稳定。前馈方法的前景是广阔的,毕竟克服了per scene优化 的弊端,值得持续尝试预研和落地。 关于3DGS相关的技术栈,很多同学想入门却苦于没有有效的学习路线图:既要吃透点云处理、深度学习等理论,又要掌握实时渲染、代码实战。 为此自动驾驶之 心联合 工业界算法专家 开展了这门 《3DGS理论与算法实战教程》! 我们花了两个月的时间设计了 一套3DGS的学习路线图,从原理到实战细致展开。全面吃透 3DGS技术栈。 第二章则正式进入到3DGS的原理和算法部分。 整体上第二章的设计思路是带大家先打好基础,先详细梳理3DGS的原理部分及核心伪代码,接着讲解动态重建、 表面重建、鱼眼重建和光线追踪的经典文章和最新的算法,由点及面层层深入。实战我们选取了英伟达开源的3DGRUT框架,适合 ...
一个在量产中很容易被忽略重要性的元素:导航信息SD
自动驾驶之心· 2025-12-26 01:56
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 最近和业内专家讨论了导航信息SD如何应用到自动驾驶中,分享给大家: 图商提供的导航信息SD/SD Pro目前已经在很多量产方案上使用了。导航可以提供车道、粗粒度的waypoint等信息,相当于给司机提供了一个粗略的全局和局部视 野,将导航信息应用到车端模型上也就顺水渠成。目前来看,导航模块的核心职责有两个: 当然还有非常重要的一part,提供参考线reference line,这是下游规控强需的信息,有了参考线,可以极大的减轻规划的压力,相当于车辆已经有一条行驶的参考路 线,只需在细化即可。 除此之外,还可以提供规划约束与优先级、路径监控和重规划。 1. 车道级的全局路径规划:搜索一条目标车道的最优lane sequence; 2. 给行为规划提供明确的语义指导,方便车辆提前准备变道、减速、让行; 具体涉及到自车定位、道路结构构建和感知定位匹配可以参考下图: 在两段式中,导航输入到感知模型中,输出navi path,navi path作为ml planner的输入进而预测自车的行驶轨迹。 本文均出自平台最新推 ...
一见Auto采访小米陈光的一些信息分享......
自动驾驶之心· 2025-12-26 01:56
以下文章来源于一见Auto ,作者易思琳 一见Auto . 汽车竞争中的野心、方法论与新秩序。21世纪经济报道旗下汽车报道品牌。 作者 | 易思琳 来源 | 见谈|小米陈光:我们不想制造技术焦虑了 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 理想汽车智驾团队从端到端+世界模型全面切向VLA(Vision Language Action),在算法架构中引入大语言模型(LLM)。和理想一样坚定选择VLA的还 有智驾供应商元戎启行。 行业里也有坚定的VLA反对派。华为表示,不会走向VLA,而是会坚定选择WA(World Action,世界模型)。和华为一样尝试去掉Language环节的还有小 鹏。 而在这场争鸣中,端到端仍展现出巨大的潜力,小米汽车就是在这一方向持续深耕的企业。 "现在竞争太激烈,大家会产生一些焦虑,倾向于通过各种方式或技术让用户觉得更先进。"小米汽车端到端负责人陈光告诉《21汽车·一见Auto》, "但无 论VA、WA还是VLA,在我看来其实都一样,都 ...
年末L4的商业化落地被九识悄悄打响了......
自动驾驶之心· 2025-12-25 09:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 柱哥上周末盘了部分L4公司的融资情况,有几家公司自动驾驶之心近期也在展开深度调研。 在低速物流赛道,像 九识、 新石器做的都还不错。 具体融资情况可以参考公众号的文章: 我们盘点了L4相关公司的融资情况...... 宏观层面上,L3牌照开始密集发放,L4市场端大量车型也相继推出,Robotaxi、无人配送、重卡、矿卡。很多L2的量产技术都在快速下沉到这些领域。 像OCC、 一段式/两段式端到端、无图感知、VLA等等。 就像柱哥之前分享的观点:智驾技术走向成熟,才是真正大规模量产的起点。 本月15日,我们注意到九识智能与东风达成了新的战略合作,其实也是在顺应这个趋势。在智能汽车产业进入深水区后,从传感器配置到地图的"轻"与"重"之分, 再到芯片的采用,主机厂的每一次合作选择,都呈现出对技术和成本的考量。 据悉,本次合作指向了载货车、环卫车、VAN车、客车等多个细分车型,显露出更强的商业化导向。 从技术和成本两个维度拆解,这一选择并非偶然。 "长期可用"——L4能力的工程化成熟度 对东风这样的央企而言,自动驾驶合 ...
华科&港大提出UniLION:基于线性组 RNN 的统一自动驾驶模型
自动驾驶之心· 2025-12-25 09:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhe Liu等 此外,UniLION 在广泛的核心任务中持续提供具有竞争力甚至最先进的性能,包括 3D 感知(如 3D 物体检测、3D 物体跟踪、3D 占用预测、BEV 地图分割)、预测 (如运动预测)和规划(如端到端规划)。这种统一的范式自然简化了多模态和多任务自动驾驶系统的设计,同时保持卓越的性能。最终,我们希望 UniLION 能为自 动驾驶领域的 3D 基础模型开发提供全新视角。 项目链接:https://github.com/happinesslz/UniLION 项目简介 UniLION 是一种基于线性组RNN(也可以看作为linear attention)的统一自动驾驶模型,它能够高效处理大规模 LiDAR 点云、高分辨率多视角图像和时间序列数据。 UniLION作为单一多功能架构,且无需显式的时序或多模态融合模块,便可无缝支持多种不同设置(即LiDAR-only、Temporal LiDAR、LiDAR-Camera和Temp ...
Physical Intelligence内部员工分享(从数采到VLA再到RL)
自动驾驶之心· 2025-12-25 09:33
以下文章来源于具身智能之心 ,作者具身智能之心 >> 点击进入→ 具身智能之心 技术交流群 更多VLA与RL实战项目,欢迎加入国内首个工业级VLA实战课程 : 具身VLA实战与求职教程来啦~ 。 原文链接:https://vedder.io/misc/state_of_robot_learning_dec_2025.html 这次来学习一下 PI 内部人员写的 blog,介绍了很多 robot learning 的现状,而且都是一线的真正经验,很多在一线的同学应该深有感 触,说了很多实话,质量很高,值得精读和学习。不管是对 IL DAgger RL 的看法都是很一手的经验。 接下来请享受这份知识 具身智能之心 . 与世界交互,更进一步。具身智能之心是国内具身与机器人领域的专业技术平台,集企业咨询、在线教育、展会服务、线下培 训、硬件研发、技术方案为一体。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 基本上,目前(2025 年 12 月)所有机器人学习系统都是纯粹的行为克隆(BC,也称模仿学习)系统。人类提供(接近)最优的任务演 示,机器学习模 ...