图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营·2025-05-09 09:35
整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 在多模态视频生成技术逐渐成熟的今天,定制化能力成为衡量系统实用性的重要标准。 5 月 8 日,腾讯混元团队正式推出并开源全新的多模态定制化视频生成框架 HunyuanCustom。该工具基于混元视频生成大模型(HunyuanVideo) 打造,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力。 此外,为实现可控与一致性的统一,HunyuanCustom 在系统架构上设计了多个关键模块: 上述模块使 HunyuanCustom 可在训练与推理阶段均实现图像、语音、视频等模态的解耦控制,为多模态生成提供了灵活接口。 多模态输入 + 主体一致性 解决定制视频「变脸难题」 传统图生视频或文生视频模型虽可合成视觉内容,但通常难以在更换动作、背景、服饰等条件下,保持人物身份不变——比如人物"变脸"、物体"漂 移"等问题较为常见。HunyuanCustom 的核心目标正是解决这一挑战。 HunyuanCustom 引入了基于 LLaVA 的图文融合模块,结合时间级联的图像 ID 增强机制,使视频在全程保持"主体一致"。在此基础 ...