Workflow
NavigScene
icon
Search documents
一文尽览!近一年自动驾驶VLA优秀工作汇总~
自动驾驶之心· 2025-07-15 12:30
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 写在前面 自UniAD(CVPR 2023 Best Paper)问世以来,端到端已经成为当下量产的主流范式。而从去年下半年开始,尤 其是DeepSeek思维链流行以来,视觉-语言-动作(VLA)相关方法伴随着具身智能的爆火,相关论文已经横扫自 动驾驶前沿领域。同时各家主机厂也争先恐后尝试落地研发,理想、文远知行、小米、小鹏等等都在大力尝试量 产。 2025年已经过半,学术界和工业界也出现了很多优秀的工作。这期间我们和很多小伙伴做了交流:VLA能落地 么?扩散模型的多模轨迹可靠么?强化学习如何优化VLA模型?如何构建强化学习的训练&推理流程? 带着这些问题,自动驾驶之心采访了学术界和工业界第一线的大佬并做了VLA相关工作的汇总,文章按照发表 时间排序,其中不乏全球顶尖高校团队和工业界研究团队的工作。并在文末做了一些对当下工作的观点整理,感 兴趣的小伙伴不要错过呦~ 更多关于自动驾驶的讨论、技术分享和求职交流,欢迎加入 『 自动驾驶之心知识星球』 ,我们已经邀请了数百 位学术界和工业界大佬入驻~ 标题:Navi ...
小鹏最新!NavigScene:全局导航实现超视距自动驾驶VLA(ACMMM'25)
自动驾驶之心· 2025-07-14 11:30
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 中佛罗里达大学和小鹏汽车ACMMM25中稿的最新 工作 - NavigScene ! 连接局部感知和全局导航,实现超视距自动驾驶! 如果您有 相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Qucheng Peng等 编辑 | 自动驾驶之心 写在前面 & 笔者的个人理解 自动驾驶系统在基于局部视觉信息的感知、预测和规划方面取得了显著进展,但它们难以整合人类驾驶员 通常使用的更广泛的导航背景。为此,小鹏汽车的团队提出了NavigScene,期望解决局部传感器数据与全 局导航信息之间的关键差距,NavigScene是一种辅助的导航引导自然语言数据集,可在自主驾驶系统中模 拟类人驾驶环境。此外开发了三种互补的方法来利用NavigScene:(1)导航引导推理,通过在提示方法中 结合导航上下文来增强视觉-语言模型;(2)导航引导偏好优化,这是一 ...
自动驾驶论文速递 | 多模态大模型、运动规划、场景理解等~
自动驾驶之心· 2025-07-13 08:10
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 MCAM:面向自车层面驾驶视频理解的多模态因果分析模型 重庆大学&国防科技大ICCV25中稿的工作,本文提出 MCAM 模型,通过 DSDAG 因果图建模自车状态动 态演化,在BDD-X数据集上将驾驶行为描述任务BLEU-4提升至 35.7%,推理任务BLEU-4提升至 9.1%,显 著优于DriveGPT4等基线模型。 主要贡献: 算法框架: 实验结果: 论文标题:MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding 论文链接:https://arxiv.org/abs/2507.06072 代码:https://github.com/SixCorePeach/MCAM 1. 提出驾驶状态有向无环图(DSDAG),用于建模动态驾驶交互和状态转换,为因果分析模块(CAM) 提供结构化理论基础。 2. 提出多模态因果分析模型(MCAM),这是首个针对 ego-vehicle 级驾驶视频理解 ...