Workflow
字节、讯飞、MiniMax,为什么都在上新“声音复刻”?
AI研究所·2025-07-04 09:28

前不久,字节跳动旗下豆包 AI 播客功能全量上线的消息引发行业震动。 有用户上传 8 万字的英文 PDF 文档,系统能在数秒内生成男女对谈的播客节目,语气词、停顿节 奏与真人对话无异。 几乎同一时间, 早在 2 0 2 4 年 4 月 就推出声音复刻功能的 科大讯飞 ,则 宣布声音复刻技 术升 级,仅需不到 10 秒的音频素材,就能让《长安的荔枝》中"李善德"的声音复刻品在情绪表达上与 原角色难分伯仲。 而在稍早的 2024 年底, MiniMax 的海螺 AI 也 已凭借 30 秒语音素材克隆出唐国强、林黛玉 等 人物的声音,情感还原度让中文语音克隆实现从"能用"到"好用"的跨越。 这些技术突破背后,是科技巨头对音频内容赛道的战略押注。其核心逻辑在于:通过声音复刻、智能 生成等技术,重构音频内容的生产、分发与消费链条,试图在这片被称为"耳朵经济"的蓝海中开辟 新航道。 当 AI 不仅能复刻声音,更能模拟对话逻辑、生成结构化内容时,这场声音革命又将如何重塑内容产 业与商业版图? 01 声音复刻 +播客 的技术竞速 从豆包到讯飞,再到海螺 AI 这是一场从文档到对话的工业化生产转变。 图/豆包网页版"AI播客" ...