Workflow
自动驾驶之心
icon
Search documents
车圈一个月48位高管变动,新一轮的变革要开始了......
自动驾驶之心· 2025-09-25 03:45
车企的新一轮变革已经拉开了帷幕。 这一个月车企48位高管变动。理想把智驾团队拆成 11 个二级部门,比亚迪从斑马挖来 CTO 搞座 舱,长安汽车的高层也正经历大变动,连蔚来的任少卿都一边在公司管自动驾驶,一边去中科大搭 实验室了。 整个自动驾驶行业在"踩油门" 变方向,老话说的透彻, 这个世界上唯一不变的恰恰就是变化本身。 对于搞算法的同学来说,更是深有感触。三年前还是BEV,两年前是无图,一年期是端到端,今年 是VLA和世界模型,下一步是什么呢?在人工智能这条大的赛道上,什么才是算法岗位真正的活力 和壁垒? 柱哥认为是持续不断的更新自己的认知,要敢于跳出自己的舒适圈。 这一个月,柱哥和很多学术界&工业界的小伙伴进行了交流。有打算转行具身、转行Agent的,有研 一想做自动驾驶摸索方向的,也有车企大佬在联系柱哥招人攻坚端到端的。 自动驾驶还行不行这个话题总是有不同的答案,每个人都会基于自己的认知做出选择。 所以我们搭建了自动驾驶、具身智能和大模型三个平台,在变化中不断摸索前行的道路并反过来提 升自己。别盼着稳定,要在变化里找新机会。这一个月我们在尝试新的文章风格,开启了第一次星 球内部成员的线上交流活动,也正 ...
深度综述 | 300+论文带你看懂:纯视觉如何将VLA推向自动驾驶和具身智能巅峰!
自动驾驶之心· 2025-09-24 23:33
视觉-语言-动作(Vision Language Action, VLA)模型的出现,标志着机器人技术从传统基于策略的控制向通用机器人技术的范式转变,同时也将视觉-语言模型(Vision Language Models, VLMs)从被动的序列生成器重新定位为在复杂、动态环境中执行操作与决策的主动智能体。 为此,兰州大学、中科院和新加坡国立大学的团队深入探讨了先进的VLA方法,旨在提供清晰的分类体系,并对现有研究进行系统、全面的综述。文中全面分析了VLA 在不同场景下的应用,并将VLA方法划分为多个范式: 自回归、扩散模型、强化学习、混合方法及专用方法 ;同时详细探讨了这些方法的设计动机、核心策略与实现方 式。 此外,本文还介绍了VLA研究所需的基础数据集、基准测试集与仿真平台。基于当前VLA研究现状,综述进一步提出了该领域面临的关键挑战与未来发展方向,以推动 VLA模型与通用机器人技术的研究进展。通过综合300多项最新研究的见解,本综述勾勒出这一快速发展领域的研究轮廓,并强调了将塑造可扩展、通用型VLA方法发 展的机遇与挑战。 论文标题:Pure Vision Language Action (VLA) M ...
西交利物浦&港科最新!轨迹预测基座大模型综述
自动驾驶之心· 2025-09-24 23:33
摘要与引言 这篇综述探讨了将大语言模型(LLMs)和多模态大语言模型(MLLMs)等大型基础模型应用于自动驾驶轨迹预测的新范式 。这种方法通过整合语言 和情境知识,使自动驾驶系统能更深入地理解复杂的交通场景,从而提升安全性和效率。文章回顾了从传统方法到由 LFM 引入的范式转变,涵盖了车 辆和行人的预测任务、常用的评估指标和相关数据集 。它详细介绍了LLM的三种关键应用方法: 轨迹-语言映射、多模态融合和基于约束的推理 ,这 些方法显著提高了预测的可解释性和在长尾场景中的鲁棒性 。尽管LLM有诸多优势,但也面临计算延迟、数据稀缺和真实世界鲁棒性等挑战 。 图1展示了自动驾驶中"感知-预测-规划与控制"的闭环过程,突出了LFM如何帮助自动驾驶车辆预测其他交通参与者的轨迹 。 论文链接:https://www.arxiv.org/abs/2509.10570 作者单位:西交利物浦大学,澳门大学,利物浦大学,香港科技大学(广州) 图2则以时间线形式展示了轨迹预测方法的演变,从基于物理模型、机器学习、深度学习到最新的LFM方法 。 轨迹预测概述 轨迹预测是自动驾驶的核心技术,它利用历史数据(如位置和速度)以及上下文信 ...
为什么 VLA 能叠毛巾,却测不准物体位姿?
自动驾驶之心· 2025-09-24 23:33
以下文章来源于具身智能之心 ,作者Zheng Geng等 玩过机器人操作的朋友都知道,"抓零件""放调料瓶" 这类需要精准交互的任务,核心是 "靠空间感知说话"——得知道物体的 3D 位置(平移)和朝向(旋转), 还要确保测算的尺度与真实世界一致。可现有方法总在 "妥协":要么依赖预先扫描的 CAD 模型(现实中根本找不到那么多),要么需要多视角图像(实时场景 中哪来得及拍),就算是单视图重建,也会陷入 "不知道物体真实大小" 的尺度模糊困境。 这就导致了鲜明的能力断层:VLA 能靠视觉规划完成 "叠毛巾" 这类不依赖精准空间定位的任务,却在 "抓陌生物体" 这类需要 6D 位姿支撑的操作上寸步难行。 根本原因在于, 仅凭 RGB 视觉和语言指令,无法构建 "生成模型-真实物体-空间姿态" 的闭环关联 ——而机器人与物理世界的交互,恰恰依赖这种精准的空间 感知。 基于此背景,由北京智源研究院、清华大学、南洋理工大学等机构联合提出的 OnePoseViaGen,给出了一套颠覆性解决方案:它不需要预设 3D 模型,仅凭一张 参考图,就能通过 "单视图 3D 生成 + 粗精对齐 + 文本引导域随机化" 的组合拳,完 ...
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心· 2025-09-24 23:33
一、引言 世界建模已成为人工智能(AI)与机器人领域的一项基础性任务,其核心目标是使智能体具备理解、表示并预测其所处动态环境的能力。近年来,生成 式建模技术(包括变分自编码器(VAEs)、生成对抗网络(GANs)、扩散模型(diffusion models)和自回归模型(autoregressive models))取得了显 著进展,通过实现复杂的生成与预测能力,极大地丰富了该领域的研究内容。 然而,这些进展在很大程度上集中于2D数据,主要是图像或视频。与之形成对比的是,现实世界场景本质上处于3D空间中且具有动态特性,通常需要 利用原生3D与4D表示的模型。这类表示包括RGB-D图像、占用网格、激光雷达点云,以及能够捕捉时间动态的时序形式。这些模态可提供明确的几何 信息和物理基础,对于自主驾驶、机器人等嵌入式系统(embodied systems)和安全关键系统(safety-critical systems)而言至关重要。 除上述原生格式外,世界建模的研究也已拓展至相邻领域。部分研究关注视频、全景或基于网格(mesh)的数据,此类系统具备大规模、通用的视频- 网格生成能力;与此同时,另一类研究聚焦于3D物体 ...
基于模仿学习的端到端决定了它的上限不可能超越人类
自动驾驶之心· 2025-09-24 06:35
基于模仿学习的端到端本质只是在模仿人类,对物理世界的理解并不透彻。 因此VLA提供了这样一种可能,从模仿人类到成为人类。 业内这两年追捧的端到端,标志着智能驾驶从规则驱动向数据驱动的根本转变。但在实际量产中,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场景 仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。这里也借用李想AI Talk的一段话: " 端到端比较像什么呢?端到端比较像哺动物的智能,比如像马戏团里的一些动物,向人类学习怎么骑自行车。它学了人类的这些行为,人类怎么去做出各种的行为的开 车。但是它对物理世界并不理解,它只是看到了一个什么样的三维的图像,知道自身的速度,并给出了一个什么样的轨迹,所以它应付大部分的泛化是没有问题的,去面 对它从来没有学到的、特别复杂的,其实就会遇到问题。所以这时候我们也会配合,视觉语言模型 VLM,然后放进来。但是我们能够用到的视觉语言模型这些开源的, 用在交通上的能力都非常的有限,所以只能起到一些非常有限的辅助的一个作用。我觉得第二个阶段就是哺乳动物智能运作的一个方式。 " VLA本质上也可以算作是一种 ...
等了大半年的Qwen3-VL终于也开源了!
自动驾驶之心· 2025-09-24 06:35
以下文章来源于刘聪NLP ,作者刘聪NLP 刘聪NLP . 不会rap的刘聪,在这里分享着AI的flow。 作者 | 刘聪NLP 来源 | 刘聪NLP 抓着云栖大会,猛开源是吧,两天时间,开源了Qwen3-Omni系列模型、Qwen-Image-Edit-2509模型、 Qwen3-VL模型、Qwen3Guard-Gen系列模型,共计12个。 还有一些没开源的API,比如Qwen-TTS、Qwen3-Coder-Plus、Qwen3-Max、Qwen3-LiveTranslate等等等 PS: 我恨俊旸呀!天天凌晨开源~ 说实话,根本测不完,都知道我一直在等Qwen3的VL模型,其他模型先放一放,今天先来测试一波VL模 型。 先来看看模型相关内容,Qwen3-VL相较于Qwen2.5-VL有以下方面改进, vision encoder部分 ,Qwen3-VL沿用之前的VisionPatchEmbed,使用Conv3d,不过patch_size从14扩到了 16,激活函数从silu变成gelu_pytorch_tanh projector部分 ,从之前的MLP-based Projector,额外增加DeepS ...
自动驾驶之心国庆&中秋节活动开始了(课程八折/星球七折/辅导/硬件优惠)
自动驾驶之心· 2025-09-24 04:00
驾 + 具 身 所有课程 频售课程除夕 ▲星球福利 / xING QIU FU LI 7折优惠,立减80 7折优惠, 立减99 节后将再次涨价 赠送7门精品课程 具身智能之心 自动驾驶之心 ▲ 福利专区 /FU LI ZHUAN QU O 1.大模型星球 99元一年,(技术 + 行 业 + 求职) 2. 1v1辅导辅导最高1000抵扣 5000 3.1v6论文辅导立减*1000 4. 超级折扣卡:*299元 自驾课程七折 优惠 (一年期) ▲ 伊件福利 /YIN JIAN FU LI 星球核心内容一览! 欢迎添加小助理咨询活动详情! 自动驾驶之心 知识星球 技 最前沿的 自驾技术社区 术 f 7 P 7 5 r 6 自动驾驶VLA 世界模型 闭环仿真 扩散模型 BEV感知 --- 近40+学习路线 保持活力,持续学习 交 学术界&工业界 大佬面对面交流 4 r r VLA和WA的路线之争 未来自驾的发展方向 世界模型到底model了个館? 关于端到端的讨论 星友面对面 直击行业第一线 直 → 顶会作者亲临 播 6 f t r r Impromptu VLA NavigScene LangCoop DriveB ...
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-23 23:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
什么样的技术才能成就一家顶流自动驾驶公司?
自动驾驶之心· 2025-09-23 23:32
导语 1989年,卡内基·梅隆大学的 Dean Pomerleau 把三层神经网络塞进一辆军用悍马,并取名 ALVINN(Autonomous Land Vehicle In A Neural Network)。它虽然只在卡耐基·梅陇大学校园实 现了自主行驶, 却点燃了全球工程师对"让机器自己驾驶"的集体想象。 36 年过去,自动驾驶技术正在重塑我们的出行方式,我们已能把更高的算力塞进方向盘下方,把 端到端大模型装进车规芯片,让"车位到车位"的无人通行在 200 座城市同时发生。不得不承认, 这场始于十多年前实验室探索的变革,如今已逐渐走向大众市场。 各大科技公司、车企和初创公司在全球范围内展开了一场技术竞赛,推动着智能驾驶技术的快速 发展。从最开始基于规则的 "if-else" 到现在 VLA、 World Model,从封闭的测试场景到现在马路 上随处可见的"智驾小蓝灯",每一次技术的跃迁都离不开每个企业,每个工程师的努力。 这篇文章,自动驾驶之心团队将带你回顾国内外主流智驾公司的技术发展历程,梳理关键节点以 及技术路线。 PS.本文是自动驾驶编年史系列的第一篇,后续还将持续回顾业内其他优秀公司的技术发展 ...