Chain of Frames (CoF)机制
Search documents
VideoCoF:将「时序推理」引入视频编辑,无Mask实现高精度编辑与长视频外推!
机器之心· 2025-12-23 04:15
目前, 模型、代码均已开源,4 步编辑一条视频,训练数据 VideoCoF-50k 预计本周内开源! 本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频 生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。 现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。 来自悉尼科技大学和浙江大学的研 究团队提出了一种全新的视频编辑框架 VideoCoF, 受 LLM「思维链」启发,通过「看 - 推理 - 编辑」的流程,仅需 50k 训练数据,就在多项任务上取得了 SOTA 效果,并完美支持长视频外推! 痛点:精度与通用的「两难困境」 在 AIGC 时代,视频编辑已经有了长足进步,但仍存在一个明显的痛点: 论文链接: https://arxiv.org/abs/2512.07469 项目主页: https://videocof.github.io/ 代码 / 模型: https://github.com/knightyxp/VideoCoF De ...