Workflow
共情语音技术
icon
Search documents
完全透明开源的共情语音大模型,三阶段训练,四大模块实现端到端对话 | 紫东太初联合长城汽车开源OpenS2S
量子位· 2025-07-16 01:49
紫东太初团队 投稿 量子位 | 公众号 QbitAI GPT-4o、Gemini这些顶级语音模型虽然展现了惊人的共情对话能力,但它们的技术体系完全闭源。 现在, 紫东太初团队联合长城汽车AI Lab 直接把整个技术栈都开源了,推出完全透明开源的端到端共情语音语言大模型OpenS2S。 OpenS2S的核心在于提供一个高效、低成本构建共情语音系统的新范式。 它不仅继承了团队在语音到文本共情模型BLSP-Emo上的技术积累,更引入了流式交错解码架构,实现了低延迟的实时语音生成。OpenS2S 提出自动化数据生成方法,结合大语言模型与可控文本到语音生成技术,构建多说话者、多情感的高质量共情语音训练语料。 | Name | | | LLaMA-Omni2 Qwen2-Audio GLM-4-Voice Kimi-Audio OpenS2S | | | | --- | --- | --- | --- | --- | --- | | Training Data | × | × | × | × | S | | Pretraining Code | × | × | × | × | V | | Fine-tuning Code ...