通义百聆迎来重磅升级 Fun-CosyVoice3正式开源 可实现极速克隆音色
Zhi Tong Cai Jing·2025-12-15 08:45
12月15日,"通义大模型"微信公众号发文表示,通义百聆语音模型再升级,本次发布包括:Fun- CosyVoice3模型升级,首包延迟降低50%,中英混字准确率翻倍,支持9语种 18方言口音、跨语种克隆 与情感控制;Fun-CosyVoice3(0.5B)正式开源,该版本提供了zero-shot音色克隆能力,只需要提供一段3 秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。此外,通义推出轻 量化版本Fun-ASR-Nano模型,总参数量压缩到0.8B,推理成本更低,现已开源,支持本地部署与定制 化微调。 通义团队称,本次Fun-CosyVoice3大模型完成多项关键升级: 首包延迟降低50%,支持双向流式合成,真正实现"输入即发声",适用于语音助手、直播配音、无障碍 阅读等实时场景; 中英混说词错误率(WER)相比之前降低 56.4%,不论是含专业术语、大小写混排,还是语码转换的句 子,都能精准、自然地发音; 在 zero-shot TTS评测中,内容一致性与音色相似度全面提升,复杂场景(test-hard)字符错误率(CER)相对 降低 26%,接近人类录音水平; 9种通用语言、1 ...