AI大家说 | 从“形似”到“神似”,我们离完美数字人越来越近了
红杉汇·2025-05-06 10:12
这是内容产业的一次重要转变。接下来,让我们更深入地走入数字人行业,了解它的核心技术与未来发展趋 势。 从静态形象到智能交互的技术演进 想要制作一个会说话的面孔,模型需要学习逼真的"音素到视素" (phoneme-to-viseme) 映射关系:也就是语 音 (音素) 与其对应的嘴部动作 (视素) 之间的关联。如果这个映射"跑偏"了,嘴型和声音就会看起来不 同步,甚至完全脱节。 想象一下你说话的样子:说话时动的不仅仅是嘴,你的整个面部、甚至上半身和手,都会随之而动;而 且,每个人说话都有自己独特的风格,即使说的是同一句话,不同的人的嘴部动作也会不同。如果你试图 把你的口型同步数据套用到其他人脸上,效果会很怪异。 还记得《西部世界》里栩栩如生的仿生人吗?如今,这场赛博朋克的幻想正在照进现实。数字人正在为AI的下 一个重大飞跃提供可能——将面孔与声音结合,创造出会说话的角色——并不是简单地让图片上的人物动起来 再配音,而是能真正像人类一样进行创作与互动。 而这个领域研究已经在过去几年里发生了翻天覆地的变化: 早期技术(2017-2020): 依赖CNN (卷积神经网络) 和GAN (生成对抗网络) ,通过单张图片生 ...