CineTrans
Search documents
ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型,打破闭源技术壁垒
机器之心· 2026-02-15 03:44
随着视频生成模型的快速发展,其在画面质量、条件控制、美学表现上都已表现出影视级效果。然而,影视级长视频往往并非为单个镜头的无限延续,而是 具有转场的多镜头序列(Multi-shot Sequence)。闭源模型 Sora2、Veo3 中多镜头视频已经能够表现出惊艳的效果。 如何使生成的视频带有自然的转场,如何指定转场的位置,如何令多个镜头形成丰富的语义流信号,是视频生成模型在未来所面临的新挑战。 本文一作吴晓雪目前是复旦-上海人工智能实验室的联培博士生,目前的研究方向是可控多镜头生成、长视频生成。 针对这些问题,来自上海人工智能实验室的研究团队提出了一种基于掩码机制的全新方法 CineTrans。 基于对注意力特性的观察,CineTrans 提出 块对角掩码的通用机制 ,使视频生成模型能高效地自动化转场。为了进一步提升转场模型的效果和准确性,作 者设计了详细的多镜头视频生产管线,并收集了 一个高质量、多镜头数据集 Cine250K ,大幅提升多镜头转场视频生成的效果。 作为首个时间级可控的自 动化转场模型,CineTrans 为这一领域的众多后续方法提供了关键技术。 本文将深入介绍这篇被 ICLR 2026 ...