Workflow
夸克AI实验室与浙大联合开源OmniAvatar:音频驱动全身视频生成新突破
Guan Cha Zhe Wang·2025-07-25 04:16

为了解决完整训练和仅微调特定层所带来的问题,团队还提出了一种基于LoRA的平衡微调策略。该策 略使用LoRA策略高效地适应模型,使模型能够在不改变底层模型容量的情况下学习音频特征,从而兼 顾了视频质量与细节。 OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产 品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多 场景中的应用。 本文系观察者网独家稿件,未经授权,不得转载。 此外,长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,OmniAvatar通过参考图 像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性。 本次突破不仅体现在产品层面,OmniAvatar的技术革新同样值得关注。团队提出了一种基于像素的音频 嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入,从而生成更协调、更自然的 身体动作来匹配音频。同时,采用多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中,确 保模型在不同层次上保持独立的学习路径。 近日,夸克AI技术团队与浙江大学强强联手,共同开源了一项创新成果 ...