3D感知可控视频生成

Search documents
SIGGRAPH 2025 | 快手可灵团队提出3D感知的可控电影级视频生成工作CineMaster!
机器之心· 2025-05-11 03:20
Sora、可灵等视频生成模型令人惊艳的性能表现使得创作者仅依靠文本输入就能够创作出高质量的视频内容。然而,我们常见的电影片段通常是由导演在一 个场景中精心布置多个目标的运动、摄像机拍摄角度后再剪辑而成的。例如,在拍摄赛车追逐的场景时,镜头通常跟随赛车运动,并通过扣人心弦的超车时 刻来展示赛事的白热化。而如今的视频生成模型无法实现 3D 场景中目标、相机联合控制的文本到视频创作,限制了 AI 影视制作的能力。 近期,可灵研究团队在「3D 感知可控视频生成」领域做出了首次尝试,推出了 电影级文本到视频生成框架 CineMaster ,允许用户在提供全局文本描述的 基础上,通过提出的交互式工作流辅助用户像专业导演一样布置场景,设定目标与相机的运动,指导模型生成用户想要的视频内容。 目前该论文已录用于 SIGGRAPH 2025。 论文地址:https://arxiv.org/abs/2502.08639 项目主页:https://cinemaster-dev.github.io/ CineMaster 支持 3D 感知的目标、相机运动控制 a) 目标相机联合控制 论文标题:CineMaster: A 3D-Awar ...