LaGen：面向超长时域4D LiDAR场景的可交互生成式世界模型

点击下方卡片，关注" 自动驾驶之心 "公众号 >>直播和内容获取转到 → 自动驾驶之心知识星球点击按钮预约直播生成式世界模型已成为自动驾驶（AD）领域的研究热点。与研究广泛的图像模态不同，本研究聚焦于激光雷达（LiDAR）数据的生成式世界模型探索。现有 LiDAR 数据生成方法仅支持单帧生成，而现有预测方法需依赖多帧历史输入，且只能一次性确定性预测多帧结果，缺乏交互性 —— 这两种范式均无法满足长时程交互生成的需求。为此，中国科学技术大学联合上海创智研究院等研究团队提出 LaGen 框架：据我们所知，这是首个能够逐帧自回归生成长时程 LiDAR 场景的技术方案。该框架仅需单帧 LiDAR 输入作为起点，便能有效利用边界框信息作为约束条件，生成高保真的 4D 场景点云。此外，本文设计了场景解耦估计（SDE）模块，以增强模型对目标级内容的交互生成能力；同时引入噪声调制（NM）模块，用于缓解长时程生成过程中的误差累积问题。本文基于 nuScenes 数据集构建了长时程 LiDAR 场景生成的专项评估协议，实验结果充分表明， LaGen 在性能上优于当前最先进的 LiDAR 生成与预测 ...