VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物
机器之心·2026-01-18 04:05

视频世界模型领域又迎来了新的突破! 复旦大学与腾讯 PCG ARC Lab 等机构的研究者们提出了 VerseCrafter, 这是一个通过显式 4D 几何控制(4D Geometric Control)实现的动态逼真视频世界模型。 它不仅能像「导演」一样精准控制运镜,还能同时指挥场景中多个物体的 3D 运动轨迹,为视频生成引入了物理世界维度。 自 Sora 问世以来,视频世界模型(Video World Models)成为了 AI 领域最热门的研究方向之一。我们希望 AI 不仅能生成视频,更能理解和模拟真实的物理世界。 然而,现有的视频模型往往面临一个核心困境: 视频是在 2D 平面上播放的,但真实世界是 4D(3D 空间 + 时间)的。 VerseCrafter 的核心理念在于: 用一个统一的 4D 几何世界状态(4D Geometric World State)以此驱动视频生成。 它利用静态背景点云和每个物体的 3D 高斯轨 迹,实现了对相机和物体运动的解耦与协同控制。 论文地址: https://arxiv.org/pdf/2601.05138 项目主页: https://sixiaozheng.gi ...

VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物 - Reportify