首帧作为概念记忆体
Search documents
首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
机器之心· 2025-12-05 04:08
在 Text-to-Video / Image-to-Video 技术突飞猛进的今天,我们已经习惯了这样一个常识: 视频生成的第一帧(First Frame)只是时间轴的起点,是后续动画的起始画面 。 但你能想象吗? 最新研究发现: 第一帧的真正角色完全不是「 起点」。它其实是视频模型的「 概念记忆体 」(conceptual memory buffer), 所有后续画面引用的视觉实体,都被 它默默储存在这一帧里 。 今天就带大家快速了解这一突破意味着什么。 本研究的出发点,源于该团队对视频生成模型中一个广泛存在但尚未被系统研究的现象的深入思考。 第一帧≠起点, 第一帧 = 大型内容缓存区(Memory Buffer) 论文的核心洞察非常大胆: 视频生成模型会自动把首帧中的角色、物体、纹理、布局等视觉实体,全部「 记住」,并在后续帧中不断复用 。 换句话说,不论你给多少参考物体,模型都会在第一帧悄悄把它们打包成一个「 概念蓝图(blueprint) 」。 这项工作来自 UMD、USC、MIT 的研究团队。 在论文的 Figure 2 中,研究团队用 Veo3、Sora2、Wan2.2 等视频模型测试发现: 这 ...