Workflow
WorldLens
icon
Search documents
当世界模型不止「视频」该如何评估?WorldLens提出实用化评估新框架
机器之心· 2025-12-23 09:36
但问题也随之变得尖锐: 当一个模型被称为「世界模型」时,我们究竟在期待它具备什么能力? 仅用 LPIPS、FVD 这类视频指标,或「清晰 / 流畅 / 像真视频」的主观印象,很容易把讨论停留在「像不像视频」。而真正决定它是否能服务 仿真、规划、数据合 成和闭环决策 的,往往是那些视频指标难以触及的属性:几何是否自洽、多视角是否一致、时序是否稳定、行为是否可执行、下游是否可用、人类是否认可其物 理与安全合理性。 近期, WorldBench 团队构建了全新、体系化的世界模型评测框架 WorldLens。 据悉,这是领域内首个 从生成 (Generation)、重建 (Reconstruction)、指令跟随 (Action-Following)、下游任务 (Downstream)和人类偏好 (Human Preference) 等五 个维度同时出发,评测现有开源世界模型的框架。评测 EvalKit 现已公开。 论文链接:https://arxiv.org/abs/2512.10958 生成式世界模型在 机器人、自动驾驶、AIGC等领域 的进展肉眼可见:从单视角、行车记录仪式的视频合成,到 可控、多视角、长时序 ...
十余所机构联合提出WorldLens:评测了所有开源自驾世界模型(中科院&新国立等)
自动驾驶之心· 2025-12-16 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | WorldBench 编辑 | 自动驾驶之心 现有世界模型在视觉生成上已经相当逼真,但在几何一致性、时序稳定性和行为合理性上仍存在明显缺陷,而这些问题往往难以通过传统的视频质量指标被发现。针 对这个问题 WorldBech团队提出了WorldLens。 这一全方位基准用于评估模型构建、理解其生成世界并在其中行为的能力。它涵盖五个核心维度: 生成质量、重建性能、指令跟随、下游任务适配性和人类偏好 ,全 面覆盖视觉真实性、几何一致性、物理合理性和功能可靠性。评估结果显示,现有世界模型均无法实现全维度最优:部分模型纹理表现出色但违背物理规律,而几何 稳定的模型则缺乏行为可信度。为使客观指标与人类对齐,WorldLens进一步构建了WorldLens-26K数据集——包含大规模人类标注视频,附带量化评分和文本说明, 并开发了WorldLens-Agent评估模型,通过蒸馏这些标注数据实现可扩展、可解释的评分。基准、数据集与智能评估代理共同构成统一生态系 ...