华为坚定要走的世界模型路线，到底是什么？

一、引言世界建模已成为人工智能（AI）与机器人领域的一项基础性任务，其核心目标是使智能体具备理解、表示并预测其所处动态环境的能力。近年来，生成式建模技术（包括变分自编码器（VAEs）、生成对抗网络（GANs）、扩散模型（diffusion models）和自回归模型（autoregressive models））取得了显著进展，通过实现复杂的生成与预测能力，极大地丰富了该领域的研究内容。然而，这些进展在很大程度上集中于2D数据，主要是图像或视频。与之形成对比的是，现实世界场景本质上处于3D空间中且具有动态特性，通常需要利用原生3D与4D表示的模型。这类表示包括RGB-D图像、占用网格、激光雷达点云，以及能够捕捉时间动态的时序形式。这些模态可提供明确的几何信息和物理基础，对于自主驾驶、机器人等嵌入式系统（embodied systems）和安全关键系统（safety-critical systems）而言至关重要。除上述原生格式外，世界建模的研究也已拓展至相邻领域。部分研究关注视频、全景或基于网格（mesh）的数据，此类系统具备大规模、通用的视频- 网格生成能力；与此同时，另一类研究聚焦于3D物体 ...