让AI当「动作导演」:腾讯混元动作大模型开源,听懂模糊指令,生成高质量3D角色动画
在这个背景下,腾讯混元团队借鉴其在视频生成大模型上的成功经验,提出了一套全新的、旨在突破当前瓶颈的文生动作解决方案,通过构建 一套严格的数据处理与标注管线,覆盖大规模预训练、高质量精调、强化学习对齐的全阶段训练流程,并将Diffusion Transformer (DiT) 模型扩展至10亿级别参数量,成功研发了 混元Motion 1.0 (HY-Motion 1.0) 这一业界领先的动作生成基础模型,并将该模型于2025年12 月30日对外开源 (见文末链接) 。 腾讯混元团队 投稿 量子位 | 公众号 QbitAI 在3D角色动画创作领域,高质量动作资产的匮乏长期制约着产出的上限。 游戏、动漫、影视与数字人等产业始终面临一个成本困局:从数万元起步的专业动捕采集,到动画师以"天"为单位的手工精修骨骼动画,每一 秒丝滑动作的背后,都是高昂的资源堆砌。 而在生成式AI领域,文生动作 (Text-to-Motion) 也因高质量数据的稀缺与计算范式的局限,长期处于"小模型"阶段,这类模型在面对复杂 的自然语言指令输入时,很难做出创作者希望得到的正确动作。 近年来,也有不少研究开始尝试通过大语言模型扩展词表的方式来 ...