Chroma 1.0
Search documents
百万围观、HuggingFace多模态登顶,华人团队开源语音版「DeepSeek」海外爆火
机器之心· 2026-01-23 03:43
机器之心发布 在大模型快速迭代的背景下,语音交互正从「语音转文本(ASR)— 文本理解 — 文本转语音(TTS」的串联式架构,逐步走向端到端的实时语音生成。这一转变 不仅关系到延迟和自然度,也直接影响语音系统在真实生产环境中的可用性。 在级联式语音交互架构下,每个模块分别负责语音识别、文本理解和语音合成等任务,这种架构在早期的应用中取得了成功。但随着对实时性和低延迟要求的提 高,端到端语音交互系统逐渐成为主流,通过深度集成各个任务,减少中间转换步骤,显著提高响应速度,使交互变得更加即时和自然。 近期,FlashLabs 发布并开源了其实时语音模型 Chroma 1.0,其定位为全球首个开源的端到端语音到语音模型 。 Chroma 1.0 发布之后,便在社媒爆火,吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。 多位知名的 X 博主对 Chroma 1.0 给予了很高的评价。 一、从级联到端到端:Chroma 的系统定位 传统语音系统通常采用多阶段流水线: ASR → LLM → TTS 这一方案在准确率上已相对成熟,但在延迟、上下文连续性以及情绪一致性方面存在天然瓶颈。尤其在实时对话场景中,多模块串联 ...