自动驾驶之心

Search documents
2025年,盘一盘中国智驾的自动驾驶一号位都有谁?
自动驾驶之心· 2025-09-10 23:33
Core Viewpoint - The automatic driving industry is undergoing a significant technological shift towards "end-to-end" solutions, driven by Tesla's leadership and advancements in large model technologies. This shift is prompting domestic automakers to increase investments and adjust their structures, making "end-to-end" a mainstream production solution by 2024 [1]. Group 1: Key Figures in Automatic Driving - The article highlights key figures in China's automatic driving sector, focusing on those who directly influence technology routes and team growth [1]. - Notable leaders include: - **Lang Xianpeng** from Li Auto, who has led advancements in assisted driving technology, including the launch of full-scene NOA and the no-map NOA feature [5]. - **Ye Hangjun** from Xiaomi, who has been pivotal in the development of Xiaomi's end-to-end driving system and has overseen multiple cutting-edge projects [7][9]. - **Ren Shaoqing** from NIO, who has significantly contributed to the development of urban NOA and emphasizes the importance of data in smart driving [11]. - **Li Liyun** from XPeng, who has taken over leadership in smart driving and focuses on a pure vision solution [14][15]. - **Yang Dongsheng** from BYD, who has led the development of the DM-i hybrid system and is pushing for the integration of advanced driving systems across all BYD models [17][20]. - **Su Jing** from Horizon Robotics, who is leading the development of end-to-end HSD solutions [21][22]. - **Cao Xudong** from Momenta, who has developed a data-driven strategy for autonomous driving and is focusing on end-to-end large models [25][26]. Group 2: Technological Trends and Innovations - The article discusses the technological evolution in the automatic driving sector, emphasizing the transition to end-to-end architectures and the emergence of large models, world models, and VLM solutions [1][53]. - Companies are adopting various strategies: - Li Auto is focusing on E2E and VLA systems [5]. - Xiaomi is heavily investing in end-to-end technology with significant output [9]. - NIO is pursuing a world behavior model approach [11]. - XPeng is committed to a pure vision strategy [15]. - BYD is integrating advanced driving systems across its entire lineup [20]. - Momenta is leveraging a dual strategy of L2 and L4 development to enhance its market position [26]. Group 3: Future Outlook - The article concludes that the leaders in the automatic driving industry are crucial in shaping the future of smart driving in China, with a shared goal of creating systems that are safe, reliable, and tailored to local conditions [51][53]. - The ongoing competition and collaboration among these leaders will drive the industry towards more intelligent and user-friendly solutions [51].
港科&理想最新!OmniReason: 时序引导的VLA决策新框架
自动驾驶之心· 2025-09-10 23:33
端到端学习已迅速成为自动驾驶的基础范式,促进了感知、预测和规划在统一框架下的联合优化。借助大规模驾驶数据集,这些模型能够直接从原始传感器数据中学习 驾驶策略,在各种真实场景中展现出令人印象深刻的性能。然而,尽管取得了这些进展,当前的E2E方法仍面临持续的挑战:它们往往难以泛化到稀有的长尾事件,对 高级场景语义理解不足,并且缺乏在开放世界环境中所需的自适应且可解释的推理能力。 与此同时,大型语言模型(LLMs)和视觉语言模型(VLMs)的出现,凸显了它们在上下文学习、常识推理和超越训练分布的泛化能力方面的卓越表现。这些新兴能力 为提升自动驾驶系统的智能性和鲁棒性提供了极具吸引力的机会,特别是在面对真实世界、安全关键的部署复杂性时。然而,直接将现有的VLM应用于自动驾驶存在显 著挑战。大多数VLM主要针对静态二维视觉语言任务进行优化,限制了其在丰富、动态的三维驾驶环境中的空间推理和全面场景理解能力。更关键的是,缺乏显式的时 间建模机制使得这些模型无法有效推理随时间展开的交互、运动和因果关系。此外,它们倾向于产生幻觉式或不可靠的描述,严重影响了自动驾驶等高风险应用所需的 可信度。因此,一个重要的技术难题浮现出来:如 ...
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-09-10 23:33
小林是某C9高校的研二同学,目前实验室主要是做自动驾驶和机器人方向的。这两周刚开学,忙完 了寝室和班里里面杂七杂八的事情,该去实验室和老板Meeting一下了。老板这个暑假没闲着啊,看 了企业不少VLA都量产上车了,说咱们实验室也可以搞搞看,发发论文。 而传统的BEV感知、车道线、Occupancy等工作相对较少出现在顶会了,最近也有很多同学陆续来咨 询峰哥,传统的感知、规划这块还能继续发论文吗?感觉工作都已经被做的七七八八了,审稿人会 打高分吗? 确实自动驾驶最近的热点都在大模型和VLA靠拢,然而VLA并不是那么好做的,对于一个新手或者 转行的同学,开展研究蛮难受的。踩了一年坑,也不一定能有效果。这时候,峰哥给他推荐了自动 驾驶之心的1v6论文辅导。 ⼀、VLA科研论文辅导课题来啦⭐ 端到端(End-to-End)自动驾驶旨在构建一个统一的智能模型,直接将传感器原始输入(如摄像头图 像)映射到车辆的驾驶控制指令(如转向、油门、刹车),从而替代传统的多模块、级联式架构 (感知、预测、规划、控制)。这一演进过程大致可分为以下几个阶段,而VLA模型的出现正是为 了解决前序阶段的瓶颈,标志着一个新范式的开启。 1. ...
研三了,找工作的时候卡在了论文上......
自动驾驶之心· 2025-09-10 12:00
Core Viewpoint - The article emphasizes the importance of high-quality research papers for graduate students, especially those aiming for doctoral programs or competitive job positions in the tech industry. It highlights the challenges faced by students in producing quality research and offers professional guidance to help them succeed in their academic endeavors [1]. Group 1: Challenges Faced by Students - Many students struggle to secure jobs due to average research outcomes and seek to pursue doctoral studies to alleviate employment pressure [1] - Students often face difficulties in selecting research topics, structuring their papers, and providing strong arguments, leading to delays in producing satisfactory work [1][8] Group 2: Services Offered - The company provides specialized guidance for students in writing research papers, particularly in the fields of autonomous driving, embodied intelligence, and robotics [3][5] - A structured 12-week program is outlined, which includes determining research direction, literature review, experimental design, drafting, and submission processes [4] Group 3: Expertise and Success Rate - The company boasts a team of over 300 dedicated instructors from top global universities, with a high acceptance rate of 96% for students they have guided in the past three years [5] - The service aims to help students build research thinking, familiarize themselves with research processes, and enhance their practical abilities [8][10] Group 4: Target Audience - The services are tailored for graduate students in computer science, those with no guidance from advisors, and individuals seeking to improve their academic credentials for job applications or further studies [9][10] Group 5: Additional Benefits - Outstanding students may receive recommendation letters from prestigious institutions and direct referrals to leading tech companies for internships or job positions [15]
阿里AgentScope发布,掀翻了国产Agent的餐桌
自动驾驶之心· 2025-09-09 23:33
在近年来,人工智能从单一模型到多模态、从AI Agent到Agentic AI的过渡,从工具调用到完整工作流,已经形成了一个由"智能体"驱动的全新生态。 阿里的通义 实验室最新发布了一款能够对标LangGraph的企业级智能体开发框架AgentScope 1.0 ,它将消息驱动与分层架构深度融合,为企业级应用提供了一套开箱即用、 可扩展且易维护的方案。我们先来看看效果: 阿里先后发布过一个Mobile-Agent和Qwen-Agent,其中Qwen-Agent就是网页版Qwen的后端使用智能体框架,虽说也很稳定,但是略显简陋,后面有退出专为编程 设计的Qwen-code,可以说阿里在智能体开发框架方脉年积累的经验也着实不少了, 这次推出的AgentScope,可以看出来,这是一款集大成者,是一款非常全 面、稳定的企业级的智能体开发框架。 在大语言模型(LLMs)快速发展的推动下,Agent能够将内在知识与动态工具使用相结合,大幅提升了其处理现实任务的能力。顺应这一发展趋势,AgentScope 在新版本(1.0)中实现了重大改进,旨在全面支持基于工具的灵活、高效智能体 - 环境交互,助力智能体应用构建。具体而 ...
自动驾驶VLA再升级!博世IRL-VLA:打造全新闭环强化学习框架
自动驾驶之心· 2025-09-09 23:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 今天自动驾驶之心为大家分享 清华&博世等团队 最新的工作! IRL-VLA:基于逆向强化学习奖励世界模型的视觉-语言-动作策略闭环训练框 架! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与 技术交流群加入 ,也欢迎添加小助理微信AIDriver005 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Anqing Jiang等 编辑 | 自动驾驶之心 自动驾驶VLA深入行业视野以来,一直面临两个关键的问题: 1. 现有的VLA架构通常基于开环设置中的模仿学习,倾向于捕捉数据集中的记录行为,性能在一定程度上收到了限制; 2. 闭环训练严重依赖高保真的传感器仿真,但仿真环境和真实环境的domain gap和计算效率的问题阻碍了VLA的泛化。 针对这两个问题,博世、上海大学、上交和清华AIR的团队提出了IRL-VLA,一个全新的闭环强化学习方法,通过逆向强化学习奖励世界模型结合设计的VLA方法。IRL- VLA采用三阶段范式:在第一阶段,提出了一种VLA架构,并通过模仿学习对VL ...
花了很久,才整理好的自动驾驶学习路线......
自动驾驶之心· 2025-09-09 23:33
最近秋招大规模开启了,很多业内公司联系我们发布招聘岗位,也感叹满足需求需求的同学越来越少。。。 因为一直在做自驾自媒体,我们也分析了自动驾驶的从业同学,主要有几类:机械/通信出身转码(算法接触 少)、自动化/计算机/电子信息专业、传统机器人领域。自动驾驶行业发展太快了,在学校里面学的东西根本跟 不上业界的发展,培养根本跟不上。22年入学的刚接触BEV,25年毕业就都是端到端、大模型了,好多入门的 同学都是野路子。这也不怪他们,毕竟很多高校老师转向也没那么快。 根因就是没有系统的培养体系,导致这方面的高质量人才严重不足。前面我们在社区内给大家梳理了很多自动驾 驶技术子领域的学习路线,大家可以好好学习下,助力成为一个真正懂自驾的从业者。 如果您还不是我们的成 员,欢迎加入我们和近4000名星球成员一起交流。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社 区,已经超过4000人了。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是 许多初学者和进阶的同学经常逛的地方。 社区内部还经常为大家解答各类实用问题:端到端如何入门? ...
超越GPT-4o!AgentThink: 清华&小米融合推理&工具调用的自动驾驶框架(EMNLP25)
自动驾驶之心· 2025-09-09 23:33
近年来,视觉语言模型(VLM)在自动驾驶领域展现出巨大潜力。凭借出色的场景理解与推理能力,VLM有望显著简化传统自动驾驶系统中依赖人工设计的感 知、预测与决策模块。然而,现有方法仍在不确定性建模、泛化性能与可解释性等方面存在明显局限。如何让自动驾驶VLM不仅"看得懂",更能像人类一样"思 考"——在复杂的自动驾驶环境中自主调用工具、进行推理与判断? 近日,由 清华大学、小米、麦吉尔大学 等团队联合提出的AgentThink框架,被自然语言处理顶会EMNLP 2025 Findings接收。该工作首次将动态工具调用与思维链 推理深度融合,极大提升了VLM在自动驾驶任务中的推理可靠性和泛化能力。目前,代码与项目网站均已开源。 现状与挑战 随着小米等车企在自动驾驶技术上的快速迭代,行业突破点正从基础感知与控制层面向 高阶语义场景理解 与 复杂拓扑关系 等问题收敛。比如一些大路口的复杂 红绿灯问题,以及一些复杂标牌的语义理解问题。此外,在探索和使用VLM的过程中,我们发现VLM模型存在严重的幻觉问题 (即模型给出的答案格式是对的, 但答案内容都是错的)。这就如同一个看似聪明的导航员,却总是给出错误的路线,让人哭笑不得 ...
自动驾驶论文速递 | 端到端、Diffusion、VLM、OCC等方向~
自动驾驶之心· 2025-09-09 07:51
分享下最近自动驾驶领域的前沿文章,涉及端到端、Diffusion Policy、OCC、VLM几个方向!更多内容欢迎加 入 自动驾驶之心知识星球 ,行业动态、大佬交流、技术问答、求职内推,一站直达。 每天仅需七毛钱,欢迎加 入与我们共创自动驾驶未来~ 主要贡献: 论文标题:A Knowledge-Driven Diffusion Policy for End-to-End Autonomous Driving Based on Expert Routing 论文链接:https://arxiv.org/abs/2509.04853 项目主页:https://perfectxu88.github.io/KDP-AD/ 1. 提出知识驱动的端到端驾驶框架:将混合专家(Mixture of Experts, MoE)中的专家重塑为 抽象驾驶知识单 元 ,突破传统任务中心式模型设计局限,实现模块化、组合式的策略学习,支持跨场景知识复用与新行为的 涌现式生成。 2. 融合扩散建模与专家路由机制:将扩散策略(Diffusion Policy)与 MoE 架构结合,扩散组件通过条件去噪 过程生成时序连贯的多模态动作序列,保 ...
π0.5开源了!!!
自动驾驶之心· 2025-09-09 07:51
Core Viewpoint - The article discusses the release of the π0.5 model, an upgraded version of the π0 model, which enhances open-world generalization capabilities through knowledge insulation [3]. Group 1 - The π0.5 model has been open-sourced and is available on GitHub, providing a base model pre-trained on over 10,000 hours of robotic data [5][4]. - The repository includes practical examples and guidelines for fine-tuning custom datasets, making it accessible for users [5]. - The PyTorch version of both π0 and π0.5 models has been implemented and validated on the LIBERO benchmark, which includes inference and fine-tuning [10]. Group 2 - The π0-FAST model features mixed precision training, fully sharded data parallel (FSDP) training, low-rank adaptation (LoRA) training, and exponential moving average (EMA) weights during training [12].