Workflow
画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源!
机器之心·2025-07-02 10:40

为了解决这一问题,字节跳动提出了 ATI ——一种全新的、以「轨迹为指令」的可控视频生成框架。 ATI 的核心理念是: 将用户在输入图像上手绘的任意轨迹,转化为驱动物体与摄像机运动的显式控制 信号,并以统一的潜在空间建模方式注入视频生成过程。 这使得视频创作从「参数调控」转变为「可 视化创意」,让用户「画到哪,动到哪」,以直观方式实现帧级精准控制。 Angtian Wang 是字节跳动的研究员,研究方向包括视频生成、3D 视觉、differentiable rendering。 博士毕业于约翰霍普金斯(Johns Hopkins University)大学。师从 Dr. Alan Yuille。 近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发 展 , 视 频 生 成 任 务 取 得 了 令 人 瞩 目 的 进 展 。 从 静 态 图 像 生 成 视 频 的 任 务 ( Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间 一致性的动态内容。 然而,尽管生成质量不断提 ...