Workflow
InfiniteTalk
icon
Search documents
告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式
机器之心· 2025-08-28 00:55
传统 video dubbing 技术长期受限于其固有的 "口型僵局",即仅能编辑嘴部区域,导致配音所传递的情感与人物的面部、肢体表达严重脱节,削弱了观众的沉浸 感。现有新兴的音频驱动视频生成模型,在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。为解决这些痛点,Infinitetalk 引入 "稀疏帧 video dubbing"。 这一新范式从根本上重新定义了 video dubbing,将其从简单的 "嘴部区域修复" 转变为 "以稀疏关键帧为引导的全身视频生成"。该模型不仅能够实现口型与配音的 精准同步,更实现了面部表情、头部转动和肢体语言与音频所表达情感的自然对齐,消除长视频生成中的累积误差和突兀过渡。 InfiniteTalk 是由美团视觉智能部主导研发的新型虚拟人驱动技术,技术论文、代码、权重已开源。 美团视觉智能部能围绕丰富的本地生活电商场景,建设从基础 通用到细分领域的视觉技术能力,包括视觉生成大模型、多模交互虚拟人,助力营销创意生产和商家低成本直播;文档、商品、安全多模态大模型,助力商家开 店经营、平台商品治理和违规账号治理;人脸识别、文字识别、细粒度图像分析、高性能检测分割、街景理解 ...