音频驱动全身视频生成 - filings, earnings calls, financial reports, news

音频驱动全身视频生成

Search documents

机器之心· 2025-07-25 04:29

近期，夸克技术团队和浙江大学联合开源了 OmniAvatar，这是一个创新的音频驱动全身视频生成模型，只需要输入一张图片和一段音频，OmniAvatar即可生成相应视频，且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外，还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。 OmniAvatar已开源：以下，是OmniAvatar在播客、唱歌、交互、动态背景等场景下的部分案例。实验表明，OmniAvatar在唇形同步、面部及半身视频生成、文本控制等多个维度上，均取得领先表现，并更好地平衡了视频质量、准确度、审美三要素。 Model：https://huggingface.co/OmniAvatar/OmniAvatar-14B Code：https://github.com/Omni-Avatar/OmniAvatar Arxiv：https://arxiv.org/abs/2506.18866 Project Page：https://omni-avatar.github.io/ | Methods | FID t | FVDt | | Sync-Ct Sync- ...

音频驱动全身视频生成

Artificial Intelligence

OmniAvatar

音频驱动全身视频生成

Artificial Intelligence

OmniAvatar

夸克AI实验室与浙大联合开源OmniAvatar：音频驱动全身视频生成新突破

Guan Cha Zhe Wang· 2025-07-25 04:16

为了解决完整训练和仅微调特定层所带来的问题，团队还提出了一种基于LoRA的平衡微调策略。该策略使用LoRA策略高效地适应模型，使模型能够在不改变底层模型容量的情况下学习音频特征，从而兼顾了视频质量与细节。 OmniAvatar是团队在多模态视频生成上的初步尝试，并在实验数据集上得到了初步验证，但尚未达到产品级应用水平。未来，团队还将在复杂指令处理能力、多角色交互等方面进一步探索，扩大模型在更多场景中的应用。本文系观察者网独家稿件，未经授权，不得转载。此外，长视频连续生成是音频驱动视频生成的难点，也是一项关键挑战。为此，OmniAvatar通过参考图像嵌入策略和帧重叠技术，确保了视频的连贯性和人物身份的一致性。本次突破不仅体现在产品层面，OmniAvatar的技术革新同样值得关注。团队提出了一种基于像素的音频嵌入策略，使音频特征可以直接在模型的潜在空间中以像素级的方式融入，从而生成更协调、更自然的身体动作来匹配音频。同时，采用多层级音频嵌入策略，将音频信息嵌入到DiT模块的不同阶段中，确保模型在不同层次上保持独立的学习路径。近日，夸克AI技术团队与浙江大学强强联手，共同开源了一项创新成果 ...

音频驱动全身视频生成

Artificial Intelligence

OmniAvatar

音频驱动全身视频生成

Artificial Intelligence

OmniAvatar

音频驱动全身视频生成模型夸克与浙江大学联合开源OmniAvatar

news flash· 2025-07-25 01:27

记者25日从阿里旗下夸克获悉，夸克技术团队和浙江大学最新联合开源了OmniAvatar，这是一个创新的音频驱动全身视频生成模型，只需要输入一张图片和一段音频，即可生成相应视频，且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外，还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。 ...