分钟级长视频生成！地平线Epona：自回归扩散式的端到端自动驾驶世界模型（ICCV'25）

写在前面 & 笔者的个人理解扩散模型在自动驾驶场景视频生成中已经展现出比较有前景的视觉生成质量。然而，现有的基于视频扩散的世界模型在灵活长度、长时序预测以及轨迹规划方面仍存在不足。这是因为传统视频扩散模型依赖于对固定长度帧序列的全局联合分布建模，而非逐步构建每个时间下的局部化分布。本研究提出 Epona ，一种自回归扩散世界模型，通过两项关键创新实现局部时空分布建模：1）解耦的时空分解，将时间动态建模与细粒度未来世界生成分离；2）模块化的轨迹与视频预测，通过端到端框架无缝整合运动规划与视觉建模。本文的架构通过引入一种新的"链式前向训练策略"（chain-of-forward training strategy），在实现高分辨率、长持续时间生成的同时解决了自回归循环中的误差累积问题。实验结果表明，与现有方法相比，Epona在FVD指标上提升7.4%，预测时长可达数分钟。该世界模型进一步可作为实时端到端规划器，在NAVSIM基准测试中优于现有端到端规划器。点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近15个方向学习路线今天自动驾驶之心为大家分享地平线联合 ...