当世界模型不止「视频」该如何评估?WorldLens提出实用化评估新框架
机器之心·2025-12-23 09:36
但问题也随之变得尖锐: 当一个模型被称为「世界模型」时,我们究竟在期待它具备什么能力? 仅用 LPIPS、FVD 这类视频指标,或「清晰 / 流畅 / 像真视频」的主观印象,很容易把讨论停留在「像不像视频」。而真正决定它是否能服务 仿真、规划、数据合 成和闭环决策 的,往往是那些视频指标难以触及的属性:几何是否自洽、多视角是否一致、时序是否稳定、行为是否可执行、下游是否可用、人类是否认可其物 理与安全合理性。 近期, WorldBench 团队构建了全新、体系化的世界模型评测框架 WorldLens。 据悉,这是领域内首个 从生成 (Generation)、重建 (Reconstruction)、指令跟随 (Action-Following)、下游任务 (Downstream)和人类偏好 (Human Preference) 等五 个维度同时出发,评测现有开源世界模型的框架。评测 EvalKit 现已公开。 论文链接:https://arxiv.org/abs/2512.10958 生成式世界模型在 机器人、自动驾驶、AIGC等领域 的进展肉眼可见:从单视角、行车记录仪式的视频合成,到 可控、多视角、长时序 ...