Workflow
多模态视频生成
icon
Search documents
腾讯混元推出全新多模态视频生成工具 现已开源并上线官网
Sou Hu Cai Jing· 2025-05-10 14:48
【太平洋科技快讯】5月9日,腾讯混元正式推出并开源一款全新的多模态定制化视频生成工具—— Hunyuan Custom,该工具基于混元视频生成大模型(Hunyuan Video)打造。 Hunyuan Custom 的核心优势在于其强大的多模态融合能力。它能够同时处理文本、图像、音频、视频 等多种输入形式,并将其转化为连贯、自然的视频内容。相比传统视频生成模型,Hunyuan Custom 在 生成质量和控制力方面都有着显著提升。 Hunyuan Custom 具备强大的扩展能力。在音频驱动模式下,用户可以上传人物图像并配上音频语音, 模型便可生成人物在任意场景中说话、唱歌或进行其他音视频同步表演的效果,广泛适用于数字人直 播、虚拟客服、教育演示等场景。在视频驱动模式下,Hunyuan Custom 支持将图片中的人物或物体自 然地替换或插入到任意视频片段中,进行创意植入或场景扩展,轻松实现视频重构与内容增强。 此外,Hunyuan Custom 提供了多种视频生成模式,包括单主体视频生成、多主体视频生成、单主体视 频配音以及视频局部编辑等。其中,单主体生成能力已经开源并在混元官网上线,用户可以在"模型广 场 ...
图像提供身份,文本定义一切!腾讯开源多模态视频定制工具HunyuanCustom
AI科技大本营· 2025-05-09 09:35
整理 | 梦依丹 出品丨AI 科技大本营(ID:rgznai100) 在多模态视频生成技术逐渐成熟的今天,定制化能力成为衡量系统实用性的重要标准。 5 月 8 日,腾讯混元团队正式推出并开源全新的多模态定制化视频生成框架 HunyuanCustom。该工具基于混元视频生成大模型(HunyuanVideo) 打造,支持图像、文本、音频和视频等多种输入模态,提供高度可控且高质量的视频生成能力。 此外,为实现可控与一致性的统一,HunyuanCustom 在系统架构上设计了多个关键模块: 上述模块使 HunyuanCustom 可在训练与推理阶段均实现图像、语音、视频等模态的解耦控制,为多模态生成提供了灵活接口。 多模态输入 + 主体一致性 解决定制视频「变脸难题」 传统图生视频或文生视频模型虽可合成视觉内容,但通常难以在更换动作、背景、服饰等条件下,保持人物身份不变——比如人物"变脸"、物体"漂 移"等问题较为常见。HunyuanCustom 的核心目标正是解决这一挑战。 HunyuanCustom 引入了基于 LLaVA 的图文融合模块,结合时间级联的图像 ID 增强机制,使视频在全程保持"主体一致"。在此基础 ...
腾讯混元发布并开源视频生成工具HunyuanCustom,支持主体一致性生成
news flash· 2025-05-09 04:22
5月9日,腾讯混元团队发布并开源全新的多模态定制化视频生成工具HunyuanCustom。该模型基于混元 视频生成大模型(HunyuanVideo)打造,在主体一致性效果超过现有的开源方案,并可媲美顶尖闭源模 型。HunyuanCustom融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制 力和生成质量的智能视频创作工具。(36氪) ...