Workflow
视频理解与生成一体化
icon
Search documents
告别「偏科」,UniVid实现视频理解与生成一体化
机器之心· 2025-10-21 00:15
在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。而最近, 一个开源项目 UniVid,提出了一个「融合」方向:把理解 + 生成融为一体 —— 他们希望用一个统一的模型,兼顾「看懂视频」+「生成视频」的能力。 这就像把「看图识物」和「画图创作」两件事,交给同一个大脑去做:理解一段文字 + 理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战 极大。 UniVid 想解决什么问题? UniVid 尝试把视频「理解」与「生成」融合为一体,构建出一个 真正通用的统一视频模型(Unified Video Model), 一个既能「理解」又能「生成」的视频多模 态模型。 论文标题:UniVid: The Open-Source Unified Video Model 论文地址:https://arxiv.org/abs/2509.24200 核心创新 1.统一结构:Adapter-based Unified Architecture 在传统方案中,理解模型和生成模型是完全分开的系统,训练开销大、互通困难。要把它们融合,需要重新训练一个庞大 ...