全新视角看世界模型:从视频生成迈向通用世界模拟器
机器之心·2026-02-07 04:09
近年来, 视频生成(Video Generation)与世界模型(World Models)已跃升为人工智能领域最炙手可热的焦点 。从 Sora 到可灵(Kling),视频生成模型在运动 连续性、物体交互与部分物理先验上逐渐表现出更强的「 世界一致性」,让人们开始认真讨论:能否把视频生成从「 逼真短片」推进到可用于推理、规划与控制 的 「 通用世界模拟器 」 。 与此同时,这一研究方向正快速与具身智能(Embodied AI)、自动驾驶(Autonomous Driving)等前沿场景深度交织,被视为通往通用人工智能(AGI)的重要路 径。 然而,在研究热潮之下,「 何为真正的世界模型 」以及「 如何评判视频模型的世界模拟能力 」等核心议题却陷入了多维争论。当前,世界模型的定义与分类层 出不穷,理论维度的交叉重叠往往令研究者感到困惑,也限制了技术的标准化发展。 为建立更系统、清晰的审视视角, 快手可灵团队 与 香港科技大学(广州)陈颖聪教授团队(共同一作:博士生王罗州、博士生陈知非) 联合发表了从全新视角 深度剖析视频世界模型的系统综述。 本文旨在弥合当代「 无状态」视频架构与经典「 以状态为中心」的世界模型 ...