Workflow
自动驾驶之心
icon
Search documents
AI Day直播!免位姿前馈4D自动驾驶世界DGGT
自动驾驶之心· 2025-12-23 00:53
论文标题 : DGGT:Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 自动驾驶的训练与评估需要快速、可扩展的4D重建与重新仿真能力,然而现有大多数针对动态驾驶场景的方法仍依赖于 逐场景优化、已知相机标定或短时间窗口,导致速度缓慢、实用性受限。 本文从前馈视角重新审视该问题,提出了 Driving Gaussian Grounded Transformer(DGGT) ,一个统一的、无需位姿 的动态场景重建框架。本文注意到,现有方法通常将相机位姿作为必需输入,限制了灵活性与可扩展性。相反,本文将 位姿重新定义为模型的输出,从而能够直接从稀疏、无位姿的图像进行重建,并支持长序列中任意数量的视角。该方法 联合预测每帧的3D高斯图与相机参数,通过轻量级动态头解耦动态元素,并利用寿命头调制随时间变化的可见性以保持 时序一致性。 此外,基于扩散的渲 ...
深扒特斯拉ICCV的分享,我们找到了几个业内可能的解决方案......
自动驾驶之心· 2025-12-23 00:53
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 编辑 | 自动驾驶之心 首先看上图,展示了Tesla标准的端到端自动驾驶方案,其中Large Neural Network可以为LLM(Large Language Model),也可以为非LLM架构,总之是一个具有强大 表征能力的大规模神经网络。这种架构通过直接从传感器输入到控制输出的映射,避免了传统模块化系统的复杂性和错误累积问题。然而,这种端到端架构在实际部 署中面临着如下三大核心挑战: 论文标题 :UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs 论文链接 :https://arxiv.org/pdf/2511.01768 项目链接 :https://github.com/happinesslz/UniLION UniLION主要特点:统一的3D骨干网络架构,基于线性组RNN实现线性计算复杂度,解决了传统Transformer在处理长序列数据时的计算效率瓶 ...
强化学习应用在自动驾驶中的一些思考
自动驾驶之心· 2025-12-23 00:53
作者 | 小小螺丝钉 编辑 | 自动驾驶之心 举个例子,怎样才能在考试中取得高分?一个比较有效的方法是刷考试真题,多刷几套总结经验。因此,如果能将开环训练换成闭环训练,模拟实车测试的环 境,我相信是更加有效的训练方式。但是 RL 这种闭环训练方法非常依赖仿真环境是否真实,尤其是自动驾驶这样强交互的任务,仿真环境的真实性更加重要,这 也是很多大厂在朝 world model 上发力的原因之一。那如果我们没有一个高保真的仿真环境,那怎么用 RL 呢,这篇文章给我们提供了一个比较好的思路。 本文的网络结构是沿用了 waymo 之前发的一篇论文 MotionLM,如下图所示,是用自回归的方式进行轨迹输出。简单介绍下自回归,在推理阶段每次输出 ego 和 agent 的一个 action,通过 for 循环,输出完整的轨迹。这样做可以确保因果关系一致。由于网络同时会输出 ego 和 agent 的 action,这样就天然构成了一个 simulation,从某种程度上说,这就是一个简易版的 world model。 原文链接: https://zhuanlan.zhihu.com/p/19813730555079079 ...
工业界大佬带队!三个月搞定自动驾驶世界模型......
自动驾驶之心· 2025-12-22 09:20
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 世界模型,业内各家公司都在卷的技术。目前的技术趋势已经确定,世界模型可以应用到数据生成、闭环仿真等等。国外特斯拉是基于前馈GS做的世界仿真器,国 内小米、理想是利用世界模型做长尾数据生成和端到端闭环仿真。这一岗位的需求,明年会更旺盛! 所以自动驾驶之心联合 工业界大佬 共同开展了新的《 世界模型与自动驾驶小班课 》, 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特 斯拉世界模型、李飞飞团队Marble等。欢迎大家加入学习~ 早鸟优惠!开课即止~ 讲师介绍 Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量 产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 课程大纲 这门课程讲如何展开 第一章:世界模型介绍 第三章:通用世界模型探讨 第三章聚焦在大家最关心的通用世界模型和最近自驾的热门工作。 李飞飞团队的Marble、Deep ...
港大领衔DrivePI:统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM
自动驾驶之心· 2025-12-22 09:20
编辑 | 自动驾驶之心 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhe Liu等 尽管多模态大语言模型(MLLMs)在各种领域展示了强大的能力,但它们在自动驾驶中生成精细化3D感知和预测输出的应用仍有待探索。本文提出了DrivePI,一种新 型的空间感知4D MLLM,作为统一的视觉-语言-行为(VLA)框架,同时兼容视觉-行为(VA)模型。我们的方法通过端到端优化,并行执行空间理解、3D感知(如3D占用 体素)、预测(如占用流)和规划(如动作输出)任务。为了获取精确的几何信息和丰富的视觉外观,我们的方法在统一的MLLM架构中集成了点云、多视角图像和语言指 令。我们还开发了一个数据引擎,用于生成文本-占用和文本-流问答对,以实现4D空间理解。 值得注意的是,仅使用0.5B参数的Qwen2.5模型作为MLLM主干网络,DrivePI作为单一统一模型,性能已经匹配或超越了现有的VLA模型和专业的VA模型。具体而 言,与VLA模型相比,DrivePI在nuScenes-QA上的平均准确率比 ...
研究生实验到什么程度可以写小论文?
自动驾驶之心· 2025-12-22 03:23
如果你 可以看看我们推出的论文辅导,旨在 有限时间内高效产出科研成果 ,避免自主写作的各种坑。 论文辅导上线了! 端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、 Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、 点云感知、毫米波雷达、单目感知、车道线/在线高精地图等方向。 支持带课题/研究方向过来咨询, 我们只说实话,做实事,不会夸大也不会打鸡血, 认真听完你的 情况然后告诉你可以怎么走。 微信:paperguidance 很多研究生发paper的共性问题就是一上来就想整高大上的东西,问题是数据也没看过,baseline也 没跑出来。 要知道离春节只剩下1个多月了,现在不把小论文投出去,明年上半年见刊真要来不及 了。 小论文重在完整性不在novelty ,项目能讲一个完整的故事就够了,在现有方法上做点改进、解决 个具体问题就行。故事讲得清楚、实验做得扎实,照样能发出去了。 无论是idea还是debug,这种事情有时候真是旁观者清,就怕你卡住了自己闷头搞两周还没进展。 以结果为导向,配套代码提升指导,提供 ...
DiffusionDriveV2核心代码解析
自动驾驶之心· 2025-12-22 03:23
作者 | wenbo9 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1982760169126510973 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving https://github.com/hustvl/DiffusionDrive https://github.com/hustvl/DiffusionDriveV2 DiffusionDrive的整体架构 DiffusionDriveV2: Reinforcement Learning-Constrained Truncated DiffusionModeling in E2E AD 整体架构 环境编码(bev和自车状态) 多尺度bev特征 ★ 参考文献 :TransFuser代码 TransFuser: Imit ...
小米7篇论文入选顶会AAAI,前沿领域全覆盖!
自动驾驶之心· 2025-12-22 03:23
以下文章来源于深蓝AI ,作者深蓝学院 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 深蓝学院 来源 | 深蓝AI 原文链接: 小米7篇论文入选顶会AAAI,前沿领域全覆盖! 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 小米交出了一份全景 AI 答卷 」 你能想到的小米 AI 研究热点,这次几乎都有代表作入选。这既是小米在大模型与具身智能上的阶段性成果,也是对其科技战略—— "深耕底层技术、长 期持续投入" ——的最好注脚。 「 图1| 小米创始人雷军微博发文祝贺小米研究团队七篇论文入选AAAI 1 — 论文盘点 AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale 主要内容 : 做大规模 text-to-SQL 最大的难题之一,就是 数据库太大 。工业场景动不动就是上千张表、几千个字 ...
业内团队负责人对Waymo基座模型的一些分析
自动驾驶之心· 2025-12-22 00:42
Core Insights - Waymo's latest blog discusses advancements in safety validation and explainability methods under a new end-to-end paradigm, the operational framework of its large-scale driving model, and the data flywheel concept [2][4][8] Group 1: Safety Validation and Explainability - The safety validation and explainability methods are closely tied to Waymo's foundational model, which operates on a dual system: a fast system focused on perception and a slow system based on a Vision-Language Model (VLM) [2][4] - The VLM is designed for complex semantic reasoning, utilizing rich camera data and fine-tuned on Waymo's driving data to handle rare and complex scenarios, such as navigating around a vehicle on fire [4][5][7] Group 2: Data Flywheel Concept - Waymo's data flywheel consists of an inner loop based on reinforcement learning for simulation-validation-vehicle integration and an outer loop based on real vehicle testing [8][11] - The insights from the data flywheel emphasize the importance of vehicle data mining and the reliance on world model-based generative simulations [12] Group 3: Foundation Model Applications - The foundational model serves three main purposes, including vehicle data extraction, cloud simulation, and evaluation for safety and explainability under the new paradigm [6][11] - The model's architecture allows for the transformation of vehicle trajectory prediction into a next-token prediction task, leveraging large language models for enhanced performance [5][11]
最近Feed-forward GS的工作爆发了
自动驾驶之心· 2025-12-22 00:42
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 特斯拉ICCV的分享吸引了很多小伙伴的关注,里面的3D Gaussian的引入可谓是一大亮点。基本上可以判断特斯拉是基于前馈式GS算法实现的,近期学术界的工 作也相当多,像小米的WorldSplat和清华最新的DGGT等等。3DGS正在自动驾驶焕发又一轮生机。目前业内普遍的共识是引入了前馈GS重建场景在利用生成技术 生成新视角,不少公司都在开放HC招聘。 但3DGS的技术迭代速度远超想象,静态重建3DGS、动态重建4DGS、表面重建2DGS,再到feed-forward 3DGS。很多同学想入门却苦于没有有效的学习路线图: 既要吃透点云处理、深度学习等理论,又要掌握实时渲染、代码实战。 为此自动驾驶之心联合 工业界算法专家 开展了这门 《3DGS理论与算法实战教程》! 我 们花了两个月的时间设计了 一套3DGS的学习路线图,从原理到实战细致展开。全面吃透3DGS技术栈。 正式开课!添加助理咨询课程 讲师介绍 Chris:QS20 硕士,现任某Tier1厂算法专家,目前从事端到端仿真、多模态大模型、世界模型等前 ...