自动驾驶之心 - filings, earnings calls, financial reports, news

自动驾驶之心

Search documents

自动驾驶之心· 2025-12-23 00:53

论文标题： DGGT:Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>直播和内容获取转到 → 自动驾驶之心知识星球点击按钮预约直播自动驾驶的训练与评估需要快速、可扩展的4D重建与重新仿真能力，然而现有大多数针对动态驾驶场景的方法仍依赖于逐场景优化、已知相机标定或短时间窗口，导致速度缓慢、实用性受限。本文从前馈视角重新审视该问题，提出了 Driving Gaussian Grounded Transformer（DGGT），一个统一的、无需位姿的动态场景重建框架。本文注意到，现有方法通常将相机位姿作为必需输入，限制了灵活性与可扩展性。相反，本文将位姿重新定义为模型的输出，从而能够直接从稀疏、无位姿的图像进行重建，并支持长序列中任意数量的视角。该方法联合预测每帧的3D高斯图与相机参数，通过轻量级动态头解耦动态元素，并利用寿命头调制随时间变化的可见性以保持时序一致性。此外，基于扩散的渲 ...

Autonomous Driving

4D Reconstruction

Autos

Driving Gaussian Grounded Transformer (DGGT)

Autonomous Driving

4D Reconstruction

Autos

Driving Gaussian Grounded Transformer (DGGT)

深扒特斯拉ICCV的分享，我们找到了几个业内可能的解决方案......

自动驾驶之心· 2025-12-23 00:53

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球编辑 | 自动驾驶之心首先看上图，展示了Tesla标准的端到端自动驾驶方案，其中Large Neural Network可以为LLM（Large Language Model），也可以为非LLM架构，总之是一个具有强大表征能力的大规模神经网络。这种架构通过直接从传感器输入到控制输出的映射，避免了传统模块化系统的复杂性和错误累积问题。然而，这种端到端架构在实际部署中面临着如下三大核心挑战：论文标题：UniLION: Towards Unified Autonomous Driving Model with Linear Group RNNs 论文链接：https://arxiv.org/pdf/2511.01768 项目链接：https://github.com/happinesslz/UniLION UniLION主要特点：统一的3D骨干网络架构，基于线性组RNN实现线性计算复杂度，解决了传统Transformer在处理长序列数据时的计算效率瓶 ...

自动驾驶之心· 2025-12-23 00:53

作者 | 小小螺丝钉编辑 | 自动驾驶之心举个例子，怎样才能在考试中取得高分？一个比较有效的方法是刷考试真题，多刷几套总结经验。因此，如果能将开环训练换成闭环训练，模拟实车测试的环境，我相信是更加有效的训练方式。但是 RL 这种闭环训练方法非常依赖仿真环境是否真实，尤其是自动驾驶这样强交互的任务，仿真环境的真实性更加重要，这也是很多大厂在朝 world model 上发力的原因之一。那如果我们没有一个高保真的仿真环境，那怎么用 RL 呢，这篇文章给我们提供了一个比较好的思路。本文的网络结构是沿用了 waymo 之前发的一篇论文 MotionLM，如下图所示，是用自回归的方式进行轨迹输出。简单介绍下自回归，在推理阶段每次输出 ego 和 agent 的一个 action，通过 for 循环，输出完整的轨迹。这样做可以确保因果关系一致。由于网络同时会输出 ego 和 agent 的 action，这样就天然构成了一个 simulation，从某种程度上说，这就是一个简易版的 world model。原文链接： https://zhuanlan.zhihu.com/p/19813730555079079 ...

工业界大佬带队！三个月搞定自动驾驶世界模型......

自动驾驶之心· 2025-12-22 09:20

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线世界模型，业内各家公司都在卷的技术。目前的技术趋势已经确定，世界模型可以应用到数据生成、闭环仿真等等。国外特斯拉是基于前馈GS做的世界仿真器，国内小米、理想是利用世界模型做长尾数据生成和端到端闭环仿真。这一岗位的需求，明年会更旺盛！所以自动驾驶之心联合工业界大佬共同开展了新的《世界模型与自动驾驶小班课》，课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法，涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大家加入学习~ 早鸟优惠！开课即止~ 讲师介绍 Jason：C9本科+QS50 PhD，已发表CCF-A论文2篇，CCF-B论文若干。现任国内TOP主机厂算法专家，目前从事端到端、大模型、世界模型等前沿算法的预研和量产，并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付，拥有丰富的端到端算法研发和实战经验。课程大纲这门课程讲如何展开第一章：世界模型介绍第三章：通用世界模型探讨第三章聚焦在大家最关心的通用世界模型和最近自驾的热门工作。李飞飞团队的Marble、Deep ...

港大领衔DrivePI：统一自动驾驶理解、感知、预测和规划的空间智能4D MLLM

自动驾驶之心· 2025-12-22 09:20

编辑 | 自动驾驶之心点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球论文作者 | Zhe Liu等尽管多模态大语言模型(MLLMs)在各种领域展示了强大的能力，但它们在自动驾驶中生成精细化3D感知和预测输出的应用仍有待探索。本文提出了DrivePI，一种新型的空间感知4D MLLM，作为统一的视觉-语言-行为(VLA)框架，同时兼容视觉-行为(VA)模型。我们的方法通过端到端优化，并行执行空间理解、3D感知(如3D占用体素)、预测(如占用流)和规划(如动作输出)任务。为了获取精确的几何信息和丰富的视觉外观，我们的方法在统一的MLLM架构中集成了点云、多视角图像和语言指令。我们还开发了一个数据引擎，用于生成文本-占用和文本-流问答对，以实现4D空间理解。值得注意的是，仅使用0.5B参数的Qwen2.5模型作为MLLM主干网络，DrivePI作为单一统一模型，性能已经匹配或超越了现有的VLA模型和专业的VA模型。具体而言，与VLA模型相比，DrivePI在nuScenes-QA上的平均准确率比 ...

自动驾驶之心· 2025-12-22 03:23

如果你可以看看我们推出的论文辅导，旨在有限时间内高效产出科研成果，避免自主写作的各种坑。论文辅导上线了！端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、 Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、点云感知、毫米波雷达、单目感知、车道线/在线高精地图等方向。支持带课题/研究方向过来咨询，我们只说实话，做实事，不会夸大也不会打鸡血，认真听完你的情况然后告诉你可以怎么走。微信：paperguidance 很多研究生发paper的共性问题就是一上来就想整高大上的东西，问题是数据也没看过，baseline也没跑出来。要知道离春节只剩下1个多月了，现在不把小论文投出去，明年上半年见刊真要来不及了。小论文重在完整性不在novelty ，项目能讲一个完整的故事就够了，在现有方法上做点改进、解决个具体问题就行。故事讲得清楚、实验做得扎实，照样能发出去了。无论是idea还是debug，这种事情有时候真是旁观者清，就怕你卡住了自己闷头搞两周还没进展。以结果为导向，配套代码提升指导，提供 ...

DiffusionDriveV2核心代码解析

自动驾驶之心· 2025-12-22 03:23

作者 | wenbo9 编辑 | 自动驾驶之心原文链接： https://zhuanlan.zhihu.com/p/1982760169126510973 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文 DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving https://github.com/hustvl/DiffusionDrive https://github.com/hustvl/DiffusionDriveV2 DiffusionDrive的整体架构 DiffusionDriveV2: Reinforcement Learning-Constrained Truncated DiffusionModeling in E2E AD 整体架构环境编码（bev和自车状态）多尺度bev特征 ★ 参考文献：TransFuser代码 TransFuser: Imit ...

Diffusion Model

Reinforcement Learning

Reinforcement Learning

小米7篇论文入选顶会AAAI，前沿领域全覆盖！

自动驾驶之心· 2025-12-22 03:23

以下文章来源于深蓝AI ，作者深蓝学院深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。作者 | 深蓝学院来源 | 深蓝AI 原文链接：小米7篇论文入选顶会AAAI，前沿领域全覆盖！点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文小米交出了一份全景 AI 答卷」你能想到的小米 AI 研究热点，这次几乎都有代表作入选。这既是小米在大模型与具身智能上的阶段性成果，也是对其科技战略—— "深耕底层技术、长期持续投入" ——的最好注脚。「图1｜小米创始人雷军微博发文祝贺小米研究团队七篇论文入选AAAI 1 — 论文盘点 AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale 主要内容：做大规模 text-to-SQL 最大的难题之一，就是数据库太大。工业场景动不动就是上千张表、几千个字 ...

XIAOMI(HK:01810)

Artificial Intelligence

Artificial Intelligence

业内团队负责人对Waymo基座模型的一些分析

自动驾驶之心· 2025-12-22 00:42

Core Insights - Waymo's latest blog discusses advancements in safety validation and explainability methods under a new end-to-end paradigm, the operational framework of its large-scale driving model, and the data flywheel concept [2][4][8] Group 1: Safety Validation and Explainability - The safety validation and explainability methods are closely tied to Waymo's foundational model, which operates on a dual system: a fast system focused on perception and a slow system based on a Vision-Language Model (VLM) [2][4] - The VLM is designed for complex semantic reasoning, utilizing rich camera data and fine-tuned on Waymo's driving data to handle rare and complex scenarios, such as navigating around a vehicle on fire [4][5][7] Group 2: Data Flywheel Concept - Waymo's data flywheel consists of an inner loop based on reinforcement learning for simulation-validation-vehicle integration and an outer loop based on real vehicle testing [8][11] - The insights from the data flywheel emphasize the importance of vehicle data mining and the reliance on world model-based generative simulations [12] Group 3: Foundation Model Applications - The foundational model serves three main purposes, including vehicle data extraction, cloud simulation, and evaluation for safety and explainability under the new paradigm [6][11] - The model's architecture allows for the transformation of vehicle trajectory prediction into a next-token prediction task, leveraging large language models for enhanced performance [5][11]

端到端新范式

数据飞轮

next token prediction

next token prediction

Autonomous Driving

Waymo基座模型

Gemini智驾大模型

最近Feed-forward GS的工作爆发了

自动驾驶之心· 2025-12-22 00:42

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线特斯拉ICCV的分享吸引了很多小伙伴的关注，里面的3D Gaussian的引入可谓是一大亮点。基本上可以判断特斯拉是基于前馈式GS算法实现的，近期学术界的工作也相当多，像小米的WorldSplat和清华最新的DGGT等等。3DGS正在自动驾驶焕发又一轮生机。目前业内普遍的共识是引入了前馈GS重建场景在利用生成技术生成新视角，不少公司都在开放HC招聘。但3DGS的技术迭代速度远超想象，静态重建3DGS、动态重建4DGS、表面重建2DGS，再到feed-forward 3DGS。很多同学想入门却苦于没有有效的学习路线图：既要吃透点云处理、深度学习等理论，又要掌握实时渲染、代码实战。为此自动驾驶之心联合工业界算法专家开展了这门《3DGS理论与算法实战教程》！我们花了两个月的时间设计了一套3DGS的学习路线图，从原理到实战细致展开。全面吃透3DGS技术栈。正式开课！添加助理咨询课程讲师介绍 Chris：QS20 硕士，现任某Tier1厂算法专家，目前从事端到端仿真、多模态大模型、世界模型等前 ...