音视频生成
Search documents
刚刚,创智+模思发布开源版Sora2,电影级音视频同步生成,打破闭源技术垄断
机器之心· 2026-01-29 10:26
编辑|泽南、Panda 今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 —— MOVA(MOSS-Video-and-Audio) 。 作为 中国首个高性能开源音视频模型 ,MOVA 实现了真正意义上的「音画同出」。它不仅能生成长达 8 秒、最高 720p 分辨率的视听片段,更在多语言口型同 步、环境音效契合度上展现了极高的工业水准。 更具行业意义的是,在 Sora 2 和 Veo 3 等顶尖技术普遍走向闭源的当下,MOVA 选择将模型权重、训练代码、推理代码以及微调方案进行全栈开源。 它生成视频的效果,给人一种身临其境的真实感: 效果亮眼 可称开源最强 过去一年,视频生成模型(Video Generation)经历了爆发式增长。从 Sora 到 Wan,再到 LTX Video,AI 输出的画面越来越逼真,能生成的时间越来越长。但仔细 观察 AI 生成的视频你就会发现,这些视频有的是「哑巴」,有的配音出戏。音视频生成(Video-Audio Generation)模型正是通过端到端的模态融合弥补了传统视 频模型的音频维度缺陷。 虽然以 Veo3 ...