VerseCrafter
Search documents
VerseCrafter:给视频世界模型装上4D方向盘,精准运镜控物
机器之心· 2026-01-18 04:05
视频世界模型领域又迎来了新的突破! 复旦大学与腾讯 PCG ARC Lab 等机构的研究者们提出了 VerseCrafter, 这是一个通过显式 4D 几何控制(4D Geometric Control)实现的动态逼真视频世界模型。 它不仅能像「导演」一样精准控制运镜,还能同时指挥场景中多个物体的 3D 运动轨迹,为视频生成引入了物理世界维度。 自 Sora 问世以来,视频世界模型(Video World Models)成为了 AI 领域最热门的研究方向之一。我们希望 AI 不仅能生成视频,更能理解和模拟真实的物理世界。 然而,现有的视频模型往往面临一个核心困境: 视频是在 2D 平面上播放的,但真实世界是 4D(3D 空间 + 时间)的。 VerseCrafter 的核心理念在于: 用一个统一的 4D 几何世界状态(4D Geometric World State)以此驱动视频生成。 它利用静态背景点云和每个物体的 3D 高斯轨 迹,实现了对相机和物体运动的解耦与协同控制。 论文地址: https://arxiv.org/pdf/2601.05138 项目主页: https://sixiaozheng.gi ...
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网· 2025-12-13 09:13
" 具身智能爆发第三年,世界模型凝聚了哪些共识? " 作者丨 张进 吴彤 梁丙鉴 刘欣 齐铖湧 编辑丨 林觉民 马晓宁 13 日,第八届 GAIR 全球人工智能与机器人大会世界模型分论坛圆满成功。 这场的演讲嘉宾是在世界模型领域,研究不同方向的五位青年学者,他们带来了五场围绕世界模型的精彩 演讲,话题聚焦通用感知、三维技术、物理模型、世界模型、数字人重建。通过他们的演讲、我们得以窥 见当下围绕着世界模型的研究是多么广泛与丰富。 目前,世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,而这股潮流 中,今天到场的几位嘉宾,用他们的智慧和力量给世界模型领域研究带来了不同的启发。 浙江大学研究员彭思达:面向具身智能的通用空间感知技术 在"世界模型"分论坛上,首位演讲者是浙江大学研究员彭思达。他是浙江大学软件学院"百人计划"研究 员、博士生导师,研究方向为三维计算机视觉和计算机图形学。此次他带来的主题演讲是《面向具身智能 的通用空间感知技术》,介绍了其团队近期在赋予机器人通用感知能力方面的多项工作。 团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimatio ...