计算机行业点评:腾讯混元开源原生多模态生图模型,3D生成亦再突破
核心结论 腾讯混元开源首个工业级原生多模态生图模型,具备强语义理解与知识推理 能力。9 月 28 日,腾讯混元正式发布并开源了原生多模态生图模型,即混元 图像 3.0(HunyuanImage 3.0),参数规模 80B。这是首个开源的工业级原生 多模态生图模型。在技术架构上,它通过一个模型完成文字、图片、视频与 音频等多个模态的输入与输出,而非通过多个模型的组合实现图文理解、图 片生成等任务。混元图像 3.0 以 Hunyuan-A13B 为基础,基于 50 亿量级的图 文对,视频帧,图文交织数据和 6T 的语料数据进行了多模态生成、理解和 LLM 的混合训练,使得模型能够充分融合多任务效果,实现超强的语义理解 能力,能够响应复杂的长文本,生成长文本文字,同时具有 LLM 的世界知 识,能够利用世界知识进行推理。这意味着,混元图像 3.0 不仅拥有生图模 型的画画能力,还具备语言模型的思考能力和常识。它就像一个自带"大脑" 的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推 理常识性的画面。 腾讯混元 3D 再升级。9 月 26 日,腾讯宣布混元 3D 生成模型家族添加新成 员——混元 3D ...