Soul App开源播客语音合成模型SoulX-Podcast 支持流畅自然多轮语音对话

本报讯（记者袁传玺）近日，SoulAppAI团队（SoulAILab）正式开源播客语音合成模型SoulX- Podcast。该模型是一款专为多人、多轮对话场景打造的语音生成模型，支持中、英、川、粤等多语种/ 方言与副语言风格，能稳定输出超60分钟、自然流畅、角色切换准确、韵律起伏丰富的多轮语音对话。在推进AI+社交的过程中，智能对话、语音生成、情感化表达等语音能力是Soul重点布局的方向。此前，平台端到端全双工语音通话大模型全面升级，并在站内开启内测。新模型赋予AI自主决策对话节奏的能力，AI可主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等，实现更接近生活日常的交互对话和"类真人"的情感陪伴体验。同时，团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型等语音大模型能力，快速应用于"虚拟伴侣"、群聊派对（多人语音互动场景）等多元场景中。除了播客场景以外，SoulX-Podcast在通用语音合成或克隆场景下也表现出色，带来更真实、更生动的语音体验。流畅自然多轮对话多方言、超长播客生成在零样本克隆播客生成场景中，SoulX-Podcast展现出卓越的语音生成能 ...