邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
机器之心·2025-07-05 05:53
不想看内容,试试听推送吧!(该博客基于 MOSS-TTSD 合成) 播客、访谈、体育解说、新闻报道和电商直播中,语音对话已经无处不在。 当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水 平。不过,由于缺乏整体的对话情境,这些 TTS 模型仍然无法合成高质量的对话语音。 现在,历史时刻来到!上海创智学院、复旦大学和模思智能的 OpenMOSS 团队携手推出了革命性成果 —— MOSS-TTSD !首次基于百万小时音频训练,成功破除 AI 播客的「恐怖谷」魔咒。 MOSS-TTSD-V0 全新释出,模型权重及推理代码全面开源,商业应用无障碍! 与传统 TTS 模型只能生成单句语音不同,MOSS-TTSD 能够根据完整的多人对话文本,直接生成高质量对话语音,并准确捕捉对话中的韵律变化和语调特性,实 现超高拟人度的逼真对话语音合成。 接下来听听实测效果,并比较一下与其他 TTS 模型的听感差异。 中文播客示例 团队以奇绩「前沿信号研究体系」的每日推文作为内容,对比了豆包(商业产品)的播客生成与 MOSS-TTSD 的开源 ...