Workflow
语音合成(TTS)技术
icon
Search documents
ACL 2025 高分接收 | 高感情语音技术:逻辑智能小语种TTS破局之道
机器之心· 2025-05-26 01:28
该工作由北京深度逻辑智能科技有限公司×宁波东方理工EIT-NLP实验室联合完成。 语音合成(TTS)技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进架构,实现了接近真人 的自然度与情感表达,广泛赋能智能助手、无障碍阅读、沉浸式娱乐等场景。 然而,这一繁荣几乎局限于英语、普通话等资源充沛的大语种;全球一千多种小语种由于语料稀缺、文字无空格或多音调等复杂语言学特性,在数据收集、 文本前端处理和声学建模上都面临巨大挑战,导致高质量 TTS 迟迟无法落地。破解「小语种困境」既是学术前沿课题,也是实现数字包容与多语文化传播 的关键。 面对这一挑战,逻辑智能团队提出了一种针对低资源语言 TTS 的解决方案并应用于泰语 TTS 合成,该工作已经被 ACL 2025 Industry track 正式接收! 这项工作提出了一种数据优化驱动的声学建模框架的创新方案,通过从语音、文本、音素、语法等多个维度构建系统化的泰语数据集,并结合先进的声学建 模技术,成功实现了在有限资源下的高质量 TTS 合成效果。 此外,该框架还具备 zero-shot 声音克隆的能力,展示了优异的跨 ...