Epona

Search documents
分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型(ICCV'25)
自动驾驶之心· 2025-07-07 12:17
写在前面 & 笔者的个人理解 扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而,现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面 仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模,而非逐步构建每个时间下的局部化分布。本研究提出 Epona ,一种自回 归扩散世界模型,通过两项关键创新实现局部时空分布建模:1) 解耦的时空分解 ,将时间动态建模与细粒度未来世界生成分离;2) 模块化的轨迹与视频预测 ,通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的"链式前向训练策略"(chain-of-forward training strategy),在实现高分辨率、长持 续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明,与现有方法相比,Epona在FVD指标上提升7.4%,预测时长可达数分钟。该世界模型进一 步可作为实时端到端规划器,在NAVSIM基准测试中优于现有端到端规划器。 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 今天自动驾驶之心为大家分享 地平线联合 ...
自动驾驶论文速递 | 世界模型、VLA综述、端到端等
自动驾驶之心· 2025-07-02 07:34
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 世界模型Epona 地平线、清华、北大等团队ICCV'25中稿的自回归扩散世界模型工作,同时可以不依赖视频预测独立输出轨 迹规划。 主要贡献: 论文标题:Epona: Autoregressive Diffusion World Model for Autonomous Driving 论文链接:https://arxiv.org/abs/2506.24113 项目主页:https://kevin-thu.github.io/Epona/ 长时序生成。Epona可以实现长达2分钟的长时间生成,显著优于现有的世界模型; 实时轨迹规划。独立的多模态生成架构能够在视频预测不可用的情况下独立输出轨迹规划,从而显著降 低了推理FLOPS。这实现了高质量甚至实时的轨迹规划,高达20Hz的帧率; 视觉细节的保存。Epona的自回归公式采用连续视觉标记器而不是离散标记器,从而保留了丰富的场景 细节; 可视化: 算法框架: 实验结果: | Metric | | | | DriveGAN [30] DriveDreamer [5 ...