ICLR 2026|滑铁卢大学联合可灵提出UniVideo:统一视频理解、生成、编辑多模态
机器之心·2026-03-05 07:43

统一多模态模型在多模态内容理解与生成方面已展现出良好效果,但目前仍主要局限于图像领域。 滑铁卢大学与快手可灵团队提出 UniVideo, 一个在统一框架下同时支持视频理解、生成与编辑的多模态生成模型。 UniVideo 采用双流架构,将多模态大语言模型(MLLM)的指令理解与推理能力,与多模态扩散 Transformer(MM-DiT)的高质量视觉生成能力相结合。不同于 以往依赖任务特定设计或受限于单一模态的方法,UniVideo 能够理解多模态指令、区分不同任务类型,并在多项基准上取得接近或超过现有最优方法(SoTA)的 性能。 更重要的是,UniVideo 无需额外的任务特定设计,即可泛化到未见过的任务及新的任务组合。这意味着, 视频生成与编辑不必再被拆分为多个孤立模型,统一建 模本身就带来了更强的扩展性。 目前,该工作已被 ICLR 2026 接收,代码已开源。 项目主页:https://congwei1230.github.io/UniVideo/ 论文地址:https://arxiv.org/abs/2510.08377 效果展示 开源代码:https://github.com/KlingTeam/ ...