AI大家说 | 从“形似”到“神似”，我们离完美数字人越来越近了

这是内容产业的一次重要转变。接下来，让我们更深入地走入数字人行业，了解它的核心技术与未来发展趋势。从静态形象到智能交互的技术演进想要制作一个会说话的面孔，模型需要学习逼真的"音素到视素" （phoneme-to-viseme）映射关系：也就是语音（音素）与其对应的嘴部动作（视素）之间的关联。如果这个映射"跑偏"了，嘴型和声音就会看起来不同步，甚至完全脱节。想象一下你说话的样子：说话时动的不仅仅是嘴，你的整个面部、甚至上半身和手，都会随之而动；而且，每个人说话都有自己独特的风格，即使说的是同一句话，不同的人的嘴部动作也会不同。如果你试图把你的口型同步数据套用到其他人脸上，效果会很怪异。还记得《西部世界》里栩栩如生的仿生人吗？如今，这场赛博朋克的幻想正在照进现实。数字人正在为AI的下一个重大飞跃提供可能——将面孔与声音结合，创造出会说话的角色——并不是简单地让图片上的人物动起来再配音，而是能真正像人类一样进行创作与互动。而这个领域研究已经在过去几年里发生了翻天覆地的变化：早期技术（2017-2020）：依赖CNN （卷积神经网络）和GAN （生成对抗网络），通过单张图片生 ...