ControlNet作者张吕敏最新论文:长视频也能实现超短上下文
机器之心·2026-01-03 07:00

编辑|冷猫 大部分的高质量视频生成模型,都只能生成上限约15秒的视频。清晰度提高之后,生成的视频时长还会再一次缩短。 这就让尝试AI视频创意的创作者们非常苦恼了。要想实现创意,必须使用分段生成,结合首尾帧,不仅操作起来很麻烦,而且需要来回抽卡来保证画面的一致 性。 那么,限制视频生成时长的瓶颈在哪里? 大家可能不知道的是,一段 60 秒、480p、24 帧/秒的视频,在模型内部会被拆解成 超过 50 万 个「潜在 token」 。 这些 token 就像一条极长的记忆胶带,模型想要保持剧情连贯、画面一致,就必须从头到尾保存上下文记忆。但代价是:算力直接爆炸,普通显卡根本扛不住。 这正是当前自回归视频生成模型的核心矛盾。一边是越长的上下文,画面越连贯;另一边是越长的上下文,计算成本越高。 于是,研究者们不得不做出妥协:要么用滑动窗口切掉大部分历史,换取可运行的算力;要么对视频进行激进压缩,牺牲清晰度和细节。 问题在于,这些压缩方法往往最先丢掉的,正是决定画面真实感与一致性的高频细节。 也正是在这一困境下, 苏州大学校友,斯坦福大学博士,ControlNet 创作者张吕敏团队 为此投入了研究 , 提出了一种新的解 ...