Workflow
夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频
机器之心·2025-07-25 04:29

近期,夸克技术团队和浙江大学联合开源了 OmniAvatar,这是一个创新的音频驱动全身视频生成模 型, 只需要输入 一张图片 和 一段音频 ,OmniAvatar即可生成相应视频 , 且显著提升了画面中人物 的唇形同步细节和全身动作的流畅性。此外,还可通过 提示词 进一步精准控制人物姿势、情绪、场景 等要素。 OmniAvatar已开源: 以下,是OmniAvatar在播客、唱歌、交互、动态背景等场景下的部分案例。 实验表明,OmniAvatar在唇形同步、面部及半身视频生成、文本控制等多个维度上,均取得领先表 现,并更好地平衡了视频质量、准确度、审美三要素。 Model:https://huggingface.co/OmniAvatar/OmniAvatar-14B Code:https://github.com/Omni-Avatar/OmniAvatar Arxiv:https://arxiv.org/abs/2506.18866 Project Page:https://omni-avatar.github.io/ | Methods | FID t | FVDt | | Sync-Ct Sync- ...