小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!
机器之心·2025-09-14 03:07
效果 Demo 小红书智创音频技术团队 近日发布新一代对话合成模型 FireRedTTS-2。该模型聚焦现有方案的痛点:灵活性差、发音错误多、说话人切换不稳、韵律不自然等问 题,通过升级离散语音编码器与文本语音合成模型全面优化合成效果。在多项主客观测评中,FireRedTTS-2 均达到行业领先水平,为多说话人对话合成提供了更 优解决方案。 一开口就像真人,播客生成不在话下。先来听一段 "Taylor Swift 恋爱消息" 的播报,你能分出这是真实录音还是 AI 合成吗? 尽管目前出现了一些方法可以建模整段对话,但它们往往要求输入完整对话文本,并一次性输出包含所有说话人的整段语音,难以支持逐句生成。这不仅增加了 后续编辑与处理的难度,也因其不够灵活而不利于在交互式对话场景中应用。此外,这类方法的合成质量仍不稳定,常见问题包括 发音错误、句子间说话人身份 混淆以及合成的语音韵律不够自然 。 FireRedTTS-2 系统简介 为解决当前对话合成系统存在的灵活性不足、合成质量欠佳等问题,FireRedTTS-2 升级了 TTS 系统的两大核心模块: 答案揭晓!上方视频的声音并非真人,而是由基于数百万小时语音数据 ...