双SOTA!GenieDrive:物理一致的自动驾驶世界模型(港大&华为诺亚)
自动驾驶之心·2025-12-24 00:58

点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Zhenya Yang等 编辑 | 自动驾驶之心 来自香港大学、华为以及华中科技大学的最新工作 GenieDrive,提出了一种以 4D Occupancy 作为中间表示的自动驾驶世界模型框架,在 4D 占据预测、轨迹可控性 以及长时序视频生成能力等方面均显著优于现有自动驾驶世界模型,为该领域提供了一条"先生成 4D 占据、再生成视频"的全新研究路径。 项目简介 GenieDrive 是一种新型的以 4D Occupancy 作为中间表示的自动驾驶世界模型框架,能够实现高度可控、多视角一致且符合物理规律的自动驾驶视频生成。得益于上述 设计,GenieDrive 在仅使用 3.47M 参数的情况下实现了 41 FPS 的推理速度,并在 4D 占据预测任务上取得了 7.2% 的 mIoU 提升;同时,通过在视频生成阶段引入归 一化多视角注意力机制,在 4D Occupancy 的引导下显著提升了多视角视频生成质量,将 FVD 指标降低了 20.7% ...