Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
机器之心·2025-08-20 09:47
从 Sora 的惊艳亮相到多款高性能开源模型的诞生,视频生成在过去两年迎来爆发式进步,已能生成几十秒的高质量短片。然而,要想生成时长超过 1 分钟、内容 与运动可控、风格统一的超长视频,仍面临巨大挑战。 为此,上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架,系统性解决可控长视频生成中的核心难题。 难点剖析 直接利用当前的可控视频生成模型生成分钟级长视频时,通常会出现以下问题: 项目主页:https://vchitect.github.io/LongVie-project/ 视频:https://www.youtube.com/watch?v=SOiTfdGmGEY&t=1s 论文:https://arxiv.org/abs/2508.03694 Github:https://github.com/Vchitect/LongVie 时序不一致:前后画面细节与内容不连贯,出现闪烁等现象。 视觉退化:随时长增长,出现颜色漂移、清晰度下降等问题。 解决时序不一致:两项关键策略 LongVie 从「控制信号」与「初始噪声」两条路径入手: 1. 控制信号全局归一 ...