PanoWan

Search documents
众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基
机器之心· 2025-06-24 09:31
机器之心发布 机器之心编辑部 视频是信息密度最高、情感表达最丰富的媒介之一,高度还原现实的复杂性与细节。正因如此,视频也是编辑难度最高的一类数字内容。在传统的视频编辑流程 中,若要调整或替换主体、场景、色彩或是移除一个物体,往往意味着无数帧的手动标注、遮罩绘制和精细调色。即使是经验丰富的后期团队,也很难在复杂场 景中保持编辑内容的时间一致性。 近年来,生成式 AI 尤其是扩散模型与多模态大模型的快速迭代,为视频编辑带来了全新的解题思路。从早期基于规则的特效工具,到目标识别与自动分割,再到 基于文本指令的视频生成与重绘,尽管 AI 已经为视频编辑带来了效率与可控性的双重提升,但在精度要求较高的场景中仍存在一系列挑战,例如当前很多零样本 方法在处理连续视频帧时容易造成画面闪烁;对于背景复杂或多目标场景,可能会出现错位、模糊或语义偏差。 针对于此,北京大学相机智能实验室(施柏鑫团队)联合 OpenBayes贝式计算,以及北京邮电大学人工智能学院模式识别实验室李思副教授团队,共同提出了一种 结合草图与文本引导的视频实例重绘方法 VIRES,支持对视频主体的重绘、替换、生成与移除等多种编辑操作。该方法利用文本生成视频模 ...