长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
机器之心·2025-09-04 04:11
机器之心发布 机器之心编辑部 随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动 人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程。 从静态图像到动态视频: 音频驱动的 "数字复活术" 只需提供一张人物图像与对应音频素材,InfinityHuman 就能自动生成连贯自然的高分辨率长视频:无论是 30 秒的产品快推、还是 3 分钟的演讲致辞,均能实现专 业级呈现。技术团队演示中,仅凭一段音频即可让电影中的人物复活 " 为动态数字人,视频效果生动自然,肢体动作与语音节奏高度同步。 该图由 AI 生成 核心突破:攻克长视频两大技术难关 InfinityHuman 的关键优势在于创造性解决了长期动画中的两大核心难题: 商用场景全面落地,推动数字人技术实用化 从项目主页展示的案例来看,InfinityHuman 已实现多场景商用级应用: 尤其值得关注的是,该模型对中文语音的支持效果尤为出色,在分钟级长视频中仍能保持身份稳定与手部动作自然,充分满足中 ...