时间退化过程
Search documents
图像编辑缺训练数据?直接从视频中取材,仅用1%训练数据实现近SOTA效果
量子位· 2025-12-06 03:21
Video4Edit团队 投稿 量子位 | 公众号 QbitAI 图像编辑缺训练数据怎么办?百度的研究人员决定直接从视频中取材。 传统的AI图像编辑方法依赖大量监督数据训练,数据成本高昂且难以覆盖多样化的编辑意图。百度的研究团队提出了一种全新的理论视角: 将图像编辑视为退化的时间过程 (Degenerate Temporal Process) 。 Video4Edit 通过利用视频预训练模型中的单帧演化先验 (Single-Frame Evolution Prior) ,实现了从视频生成到图像编辑的知识迁 移。实验结果表明, 仅需主流编辑模型约1%的监督数据 ,即可达到与当前第一梯队模型相当的性能。 当前的「数据稀缺」与「权衡困境」 现有的基于扩散模型的图像编辑方法通常需要大规模的高质量三元组数据 (指令-源图像-编辑后图像) 进行训练。这种数据依赖不仅成本 高昂,且难以覆盖多样化的用户编辑意图。 现有方法在 结构保持 (Structure Preservation) 与 纹理修改 (Texture Modification) 之间也存在根本性的权衡难题:过度强调结 构保持会限制编辑的灵活性,而追求大幅度的语 ...