指令跟随视频编辑
Search documents
浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M
机器之心· 2025-12-17 00:00
本文的作者分别来自浙江大学和字节跳动。第一作者何昊阳是来自浙江大学的博士生,研究方向聚焦于视频生成与编辑。通讯作者为浙江大学谢磊教授。 亮点总结 论文标题: OpenVE-3M: A Large-Scale High-Quality Dataset for Instruction-Guided Video Editing 1. 作者提出了一个大规模、高质量、多类别的指令跟随的视频编辑数据集 OpenVE-3M,共包含 3M 样本对,分为空间对齐和非空间对齐 2 大类别共 8 小类 别。 2. 作者提出了稳定的高质量、多类别的指令跟随视频编辑数据构造管线,确保编辑质量的同时具有多样性,促进社区研究。 3. 作者提出了一个高效且有效的指令跟随视频编辑模型 OpenVE-Edit,仅 5B 的参数量实现了 SoTA 并超过了现有开源 14B 模型效果。 4. 作者提出了一个通用的、多类别且充满挑战的指令跟随视频编辑评测集,它从 3 个关键维度评估模型在各个类别上的性能并与人类评价高度对齐。 1. 研究动机 现有指令遵循的视频编辑数据集如 InsViE-1M、Senorita-2M、Ditto-1M 主要存在数据集规 ...