自动驾驶之心 - filings, earnings calls, financial reports, news

自动驾驶之心

Search documents

自动驾驶之心· 2025-10-14 07:12

这几天时候看到了晚点团队采访蔚来任少卿的文章，把里面关于VLA和WA的观点提炼出来分享给大家。晚点团队原文链接：任少卿的智驾非共识：世界模型、长时序智能体与 "变态" 工程主义任少卿认为智能驾驶真正的上限在世界模型，即以视频为核心，通过跨模态的互相预测和重建，让系统学习时空和物理规律，再叠加语言层去交互与注入知识，让机器能像人一样理解环境。世界模型解决的是时空认知，语言模型解决的是概念认知。语言模型低带宽和稀疏性无法真正有效的建模真实世界的四维时空（时间+空间）。世界模型的认知包含两个层面：但VLA本质还是语言模型的模态扩展。这些扩展虽然加入了新模态，但 "根" 依然在语言模型上。它像是在原有的语言体系上不断 "加模态"。但世界模型不是 "语言加法"，而是要建立一套高带宽的认知系统。因为语言通道的带宽太低了。人类如果没有眼睛，只靠嘴和耳朵交流，效率会有多低？眼睛带来的视觉带宽就大得多。世界模型要直接在视频端建立能力，而不是先转成语言。现在的智驾系统，你和它的交互都还是闭集的。而自动驾驶的终极目标是通过 Open-set（开放集指令交互）智能引擎实现真正的开放式交互。 ...

FutureSightDrive：世界模型&VLM 统一训练

自动驾驶之心· 2025-10-13 23:33

作者 | 么么牛编辑 | 自动驾驶之心原文链接： https://zhuanlan.zhihu.com/p/1961012043571266494 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文 | https://arxiv.org/pdf/2505.17685 | | --- | | Q1: 这篇论文试图解决什么问题？ | 这篇论文试图解决自动驾驶中视觉语言模型（VLMs）在进行轨迹规划和场景理解时存在的时空关系模糊和细粒度信息丢失的问题。现有的VLMs通常使用离散的文本链式思考（Chain-of-Thought, CoT）来处理当前场景，这种方法本质上是对视觉信息的高度抽象和符号化压缩，可能导致时空关系不明确、细粒度信息丢失以及模态转换的差距。论文提出了一种新的时空链式思考（spatio-temporal CoT）方法，使模型能够通过视觉方式思考，从而更有效地进行轨迹规划和场景理解。 Q2: 有哪些相关研究？论文中提到了以下相关研究：统一多模态理解 ...

时空链式思考（Spatio - Temporal CoT）

统一预训练范式

自动驾驶

FutureSightDrive（FSDrive）

视觉语言模型（VLMs）

时空链式思考（Spatio - Temporal CoT）

统一预训练范式

自动驾驶

FutureSightDrive（FSDrive）

视觉语言模型（VLMs）

开放几个自动驾驶技术交流群（世界模型/端到端/VLA）

自动驾驶之心· 2025-10-13 23:33

Group 1 - The establishment of a technical exchange group focused on autonomous driving technology has been announced, covering areas such as world models, end-to-end systems, and VLA [1] - The company invites interested individuals to join the discussion by adding a designated assistant on WeChat with specific instructions for group entry [1]

地平线残差端到端是如何实现的？ResAD：残差学习让自动驾驶决策更接近人类逻辑

自动驾驶之心· 2025-10-13 23:33

点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球论文作者 | Zhiyu Zheng等编辑 | 自动驾驶之心想让车子自己开，传统方法得像搭积木：先"看"（感知），再"猜"（预测），最后"做决定"（规划）。这套流程环环相扣，一个环节出错，后面全跟着错，既不高效，也不安全。于是，端到端自动驾驶成了一条新路。它想让AI像老司机一样，直接把看到的（传感器数据）变成要走的路线（未来轨迹）。想法很美好，但现实很骨感：现有的端到端模型，大多在死磕一个问题—— "未来的轨迹长啥样？" 为了解决这些问题，地平线、华科和武大的团队提出了 ResAD 框架。核心思想很简单：不直接预测整条轨迹，而是先给一个"惯性参考线"——就是车子如果不动方向盘会走的路线。然后，让模型只学习一个"调整量"（残差），即为了安全行驶，需要偏离这根参考线多少。这样一来，学习目标就从 "轨迹是什么？" 变成了 "为什么要调整方向？" 。模型被迫去关注那些导致调整的真实原因，比如障碍物、交通规则等，而不是死记硬背数据里的巧合。我们 ...

工业界大佬带队！自动驾驶4D标注全流程实战（动静态/OCC）

自动驾驶之心· 2025-10-13 23:33

自动驾驶能力的背后是千万级训练数据赋予的强大动力，而这动力的源头就是数据闭环源源不断的自动化4D标注数据产出。随着端到端、VLA的大力铺开，训练所需要的数据形式也越来越复杂。不再是以往2D框、3D框、静态元素的单帧分别标注。端到端数据需要时间同步后的传感器统一标注动静态元素、OCC和轨迹等等，这样才能保证训练数据的完整性。面对越来越复杂的标注需求和训练数据需求，自动化4D自动标注的重要性日益凸显。本课程面向想要深入自动驾驶数据闭环领域的学习者，系统讲解自动驾驶4D自动标注全流程及核心算法结合真实落地算法，配合实战演练，全方面提升算法能力。课程核心内容如下：全面掌握4D自动标注的整体流程和核心算法；每章节均配套大量实战，不仅听懂更能实战；动态障碍物检测&跟踪&问题优化&数据质检；基于重建图的静态元素标注；通用障碍物OCC的标注全流程；端到端标注的主流范式和实战教学；而自动标注的核心在于高性能的自动标注算法，面对不同城市、道路、天气和交通状况的智驾场景，如何做好不同传感器的标定和同步？如何处理跨传感器遮挡问题？算法如何保持泛化性？如何筛选高质量的标注结果？又如何做好自动化质检？全都是当下业 ...

小米第三款车要来了！雷军胡峥楠亲赴新疆试车，多张谍照曝光

自动驾驶之心· 2025-10-13 04:00

以下文章来源于车东西，作者R 车东西 . >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文雷军远赴新疆，要亲自测试小米第三款车？车东西10月11日消息，今日，有一段疑似小米第三款车型（以下暂时称为小米YU9）在新疆路测的视频在网上曝光。未来汽车看车东西！智能汽车产业专业新媒体车东西专注智能汽车产业创新，重点关注自动驾驶、智能座舱、整车创新等；用专业视角，大众认知传播智能汽车新技术新体验。本文转自《车东西》（ID：chedongxi）作者 | 张睿编辑 | 志豪点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线同时就在今天下午，小米创办人、董事长兼CEO雷军在社交媒体上发文，表示他来到了新疆塔县，进行小米汽车高原测试，而这引起了网友们的猜测，雷军可能是来到新疆亲自测试小米的第三款车。 ▲雷军在社交媒体上发文表示来到了新疆此外，除了雷军，小米汽车高级顾问胡峥楠和小米集团副总裁、采购委员会主席、资产与工程管理部总经理张剑慧等小米高管的社交媒体账户IP属地均显示为新疆，看起来很多小米高管都前往新疆参与此 ...

端到端和VLA占据自动驾驶前沿方向的主流了。。。

自动驾驶之心· 2025-10-13 04:00

Core Insights - The article discusses the evolution of end-to-end algorithms in autonomous driving, highlighting the transition from modular production algorithms to end-to-end approaches and the recent focus on Vision-Language Models (VLA) [1][3]. Group 1: End-to-End Algorithms - End-to-end algorithms are central to the current mass production of autonomous driving technology, involving a rich technology stack [1]. - There are two main paradigms in the industry: single-stage and two-stage approaches, with UniAD being a representative of the single-stage paradigm [1]. - The single-stage approach can be further categorized into several subfields, including perception-based, diffusion model-based, world model-based, and VLA-based end-to-end algorithms [1]. Group 2: VLA and Course Offerings - The article mentions the recent surge in interest regarding how to efficiently learn about end-to-end and VLA technologies, leading to the creation of specialized courses [3]. - The "End-to-End and VLA Autonomous Driving Course" focuses on VLA, covering topics from VLM as an autonomous driving interpreter to modular and integrated VLA approaches [3]. - The course includes a detailed theoretical foundation and practical assignments to help participants build their own VLA models and datasets [3]. Group 3: Course Instructors - The course features a team of instructors with significant academic and practical experience in multi-modal perception, autonomous driving VLA, and large model frameworks [7][9]. - Instructors have published numerous papers in top international conferences and have hands-on experience in developing and implementing cutting-edge algorithms in the field [7][9][10]. Group 4: Target Audience and Requirements - The courses are designed for individuals with a foundational understanding of autonomous driving and familiarity with key technologies such as transformer models, reinforcement learning, and BEV perception [13]. - Participants are expected to have a basic knowledge of probability theory, linear algebra, and proficiency in Python and PyTorch [13].

30场重磅报告｜第三届自主机器人技术研讨会火热报名中，探访两大Top企业！

自动驾驶之心· 2025-10-12 23:33

今年不容错过的重磅学术会议，ARTS 2025 将带领参会者走进「宇树科技」与「微分智飞」进行实地参访交流。 2025年10月18日-19日，第三届自主机器人技术研讨会（ARTS 2025）将在中国· 浙江大学（玉泉校区）盛大举办。在常规学术议程基础之上，ARTS 2025 进一步推出 ARTS奖学金、学术辩论赛、学术吐槽大会（脱口秀）及企业参观。旨在打破传统会议单向输出的模式，让思想的碰撞不止于论文宣讲，构建产学融合与坦诚对话的立体化交流场景。会议将组织参会者走进一线企业：「宇树科技」「微分智飞」等多元活动。我们诚挚邀请国内外学界同仁、科研工作者及行业工程师踊跃报名，共筑新知。了解会议详情，扫码加入【 ARTS 2025 交流群】 ARTS 2025 组织机构主办单位：中国自动化学会承办单位：浙江大学控制科学与工程学院上海交通大学自动化与感知学院协办单位：深蓝学院 ARTS 2025 会议议程 | 09:00-09:10 | 开幕式 | | --- | --- | | 09:10-09:20 | 企业颁奖 | | 09:20-0 ...

Waymo提出Drive&Gen：用生成视频评估端到端自动驾驶（IROS'25）

自动驾驶之心· 2025-10-12 23:33

作者 | Jiahao Wang 来源 | 我爱计算机视觉传统的自动驾驶系统像一个部门林立的大公司，感知、预测、规划等模块各司其职，虽然稳定，但流程繁琐，一个环节出错就可能影响全局。而E2E模型就像一个全能的创业团队，直接从摄像头画面等原始输入，一步到位输出驾驶决策，简洁高效，潜力巨大。但问题也随之而来：AI生成的视频真的足够"真实"，能骗过自动驾驶系统，并用来做严肃的评估吗？我们又该如何深入了解E2E驾驶模型的"脾气"，修复它的短板，让它在没见过的新场景（比如突然的暴雨天）里也能从容应对？为了回答这些问题，来自约翰霍普金斯大学、Waymo和谷歌DeepMind的研究者们联手，在即将于IROS 2025会议上发表的论文中，提出了一个名为 Drive&Gen 的新框架。这个名字很直白，就是将驾驶（Drive）和生成（Gen）结合起来，旨在连接E2E驾驶模型和生成式世界模型，共同评估和提升彼此。背景：当E2E驾驶遇上生成式AI 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术 ...

自动驾驶之心· 2025-10-12 23:33

作者 | sunnyzhao 编辑 | 大模型之心Tech 1，planing阶段带来了巨大的耗时，当tool变多后，turbo系列模型的准确率堪忧，因此不得不使用旗舰模型，这让延时进一步增加。 2，planing的质量不够高，原来的task bot做任务所使用的workflow是人工决定的，现在改成了模型自助决定，从目前的测试来看，由模型构建的复杂工作流的可用率远远不及人类水平。简单工作流使用判别式小模型反而性能更好。 3，reflection是一种时间换准确度的策略，然而这个策略非常容易重复进行自我内耗，和死循环。这几个问题，确实是目前AI Agent技术的通病。如果把Agent当成"LLM+工具调用"的简单组合，没有认真处理工程细节，实际的效果也确实未必比工作流编排就更好。主要结合看到一些论文，和一点实际经验，按题主说到的三点谈一下自己的看法。本文只做学术分享，如有侵权，联系删文，自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询 Planning慢的本质原因原文链接： https://www.zhihu.com/question/657739588/ ...