Workflow
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心·2025-09-24 23:33

一、引言 世界建模已成为人工智能(AI)与机器人领域的一项基础性任务,其核心目标是使智能体具备理解、表示并预测其所处动态环境的能力。近年来,生成 式建模技术(包括变分自编码器(VAEs)、生成对抗网络(GANs)、扩散模型(diffusion models)和自回归模型(autoregressive models))取得了显 著进展,通过实现复杂的生成与预测能力,极大地丰富了该领域的研究内容。 然而,这些进展在很大程度上集中于2D数据,主要是图像或视频。与之形成对比的是,现实世界场景本质上处于3D空间中且具有动态特性,通常需要 利用原生3D与4D表示的模型。这类表示包括RGB-D图像、占用网格、激光雷达点云,以及能够捕捉时间动态的时序形式。这些模态可提供明确的几何 信息和物理基础,对于自主驾驶、机器人等嵌入式系统(embodied systems)和安全关键系统(safety-critical systems)而言至关重要。 除上述原生格式外,世界建模的研究也已拓展至相邻领域。部分研究关注视频、全景或基于网格(mesh)的数据,此类系统具备大规模、通用的视频- 网格生成能力;与此同时,另一类研究聚焦于3D物体 ...