Soul App开源播客语音合成模型SoulX-Podcast 支持流畅自然多轮语音对话
Zheng Quan Ri Bao Wang·2025-10-29 13:43

本报讯 (记者袁传玺)近日,SoulAppAI团队(SoulAILab)正式开源播客语音合成模型SoulX- Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型,支持中、英、川、粤等多语种/ 方言与副语言风格,能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。 在推进AI+社交的过程中,智能对话、语音生成、情感化表达等语音能力是Soul重点布局的方向。此 前,平台端到端全双工语音通话大模型全面升级,并在站内开启内测。新模型赋予AI自主决策对话节 奏的能力,AI可主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等,实现更 接近生活日常的交互对话和"类真人"的情感陪伴体验。 同时,团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型等语音大模型能力,快速 应用于"虚拟伴侣"、群聊派对(多人语音互动场景)等多元场景中。 除了播客场景以外,SoulX-Podcast在通用语音合成或克隆场景下也表现出色,带来更真实、更生动的语 音体验。 流畅自然多轮对话 多方言、超长播客生成 在零样本克隆播客生成场景中,SoulX-Podcast展现出卓越的语音生成能 ...