Workflow
驾驶世界模型
icon
Search documents
ICCV‘25 | 华科提出HERMES:首个统一驾驶世界模型!
自动驾驶之心· 2025-07-25 10:47
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 华中科技大学&旷视科技 最新的工作! 首个统一驾 驶世界模型HERMES,BEV+世界查询协同优化3D驾驶场景,生成误差降三成! 如果您有相关工作需要分享,请在文末联系我们! 自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一 步咨询 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Xin Zhou等 编辑 | 自动驾驶之心 概述 自动驾驶领域中,驾驶世界模型(DWMs)已成为核心工具,但现有模型存在明显割裂:一类专注于场景 生成,能预测环境演化(figure 1(a)),却难以解读、描述环境或回答相关问题;另一类以视觉语言模型 (VLMs)为代表,擅长场景理解,可处理复杂查询、生成描述(figure 1(b)),但缺乏对未来场景的预测 能力。 为打破这种割裂,本文提出HERMES——一个能同时实现3D场景理解与未来场景生成的统一框架(figure 1(d))。其核心创新在于通过BEV表示整合多视图空间信息,并引入"世界查询"机制, ...
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 12:17
写在前面 & 笔者的个人理解 扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而,现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面 仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模,而非逐步构建每个时间下的局部化分布。本研究提出 Epona ,一种自回 归扩散世界模型,通过两项关键创新实现局部时空分布建模:1) 解耦的时空分解 ,将时间动态建模与细粒度未来世界生成分离;2) 模块化的轨迹与视频预测 ,通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的"链式前向训练策略"(chain-of-forward training strategy),在实现高分辨率、长持 续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明,与现有方法相比,Epona在FVD指标上提升7.4%,预测时长可达数分钟。该世界模型进一 步可作为实时端到端规划器,在NAVSIM基准测试中优于现有端到端规划器。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 地平线联合 ...
理想新一代世界模型首次实现实时场景编辑与VLA协同规划
理想TOP2· 2025-06-11 02:59
以下文章来源于自动驾驶之心 ,作者Anthony Chen等 自动驾驶之心 . 在TOP2 翻阅的数十篇理想论文中,这是第一次论文作者出现了非大陆拼音名,分别为Anthony Chen和Kurt Keutzer。 论文核心4点突破: 几何条件驱动:用3D渲染替代数值控制信号,解决动作漂移问题。 动态编辑机制:在静态点云中注入可控运动,平衡效率与灵活性。 最小化训练代价:冻结主干模型 + 轻量化适配器,实现数据高效训练。 自动驾驶开发者社区,关注自动驾驶、计算机视觉、感知融合、BEV、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向! 2025年5月28日北大&理想&伯克利 发布GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control。 Anthony Chen,Wenzhao Zheng, Yida Wang为同等贡献,Shanghang Zhang为通讯作者。 Anthony Chen同时是北大和理想的,Wenzhao Zheng是伯克利的,Yida Wang 是理想的。Shanghang Zh ...