不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
机器之心·2025-09-05 07:12
想象一个虚拟人,他不仅能精准地对上你的口型,还能在你讲到关键点时做出恍然大悟的表情,在你讲述 悲伤故事时流露出同情的神态,甚至能根据你的话语逻辑做出有意义的手势。 这不再是科幻电影的场景。8 月底,字节跳动数字人团队推出了 OmniHuman-1.5,提出了一种全新的虚拟人 生成框架,让虚拟人真正拥有了「思考」和 「表达」的能力。 数月前 OmniHuman-1 上线时,曾引发国内外热潮。相比前作,1.5 版本有了更多突破,不仅可以根据文字 指令让虚拟人在对口型之余做出指定动作、表情,还支持在多人场景中控制发言者以外的角色做出具体动 作。据悉,新版本很快也将上线即梦 AI。 一个「会思考」的虚拟人是什么样? 传统虚拟人总感觉差了点「灵魂」,动作机械、重复,而 OmniHuman-1.5 首次将诺贝尔奖得主丹尼尔・卡 尼曼的「双系统理论」引入 AI,通过一个由多模态大语言模型(MLLM)驱动的「思考大脑」,让虚拟人 学会了深思熟虑。 在深入技术细节之前,先用最直观的方式,感受一下这个框架创造出的虚拟人,究竟有何不同: 论文链接: https://arxiv.org/abs/2508.19209 项目主页: ht ...