Chroma 1.0 - filings, earnings calls, financial reports, news - Reportify

Chroma 1.0

Search documents

百万围观、HuggingFace多模态登顶，华人团队开源语音版「DeepSeek」海外爆火

机器之心· 2026-01-23 03:43

机器之心发布在大模型快速迭代的背景下，语音交互正从「语音转文本（ASR）— 文本理解 — 文本转语音（TTS」的串联式架构，逐步走向端到端的实时语音生成。这一转变不仅关系到延迟和自然度，也直接影响语音系统在真实生产环境中的可用性。在级联式语音交互架构下，每个模块分别负责语音识别、文本理解和语音合成等任务，这种架构在早期的应用中取得了成功。但随着对实时性和低延迟要求的提高，端到端语音交互系统逐渐成为主流，通过深度集成各个任务，减少中间转换步骤，显著提高响应速度，使交互变得更加即时和自然。近期，FlashLabs 发布并开源了其实时语音模型 Chroma 1.0，其定位为全球首个开源的端到端语音到语音模型。 Chroma 1.0 发布之后，便在社媒爆火，吸引了大量的关注。X 上的官推帖子已经突破了百万浏览量。多位知名的 X 博主对 Chroma 1.0 给予了很高的评价。一、从级联到端到端：Chroma 的系统定位传统语音系统通常采用多阶段流水线： ASR → LLM → TTS 这一方案在准确率上已相对成熟，但在延迟、上下文连续性以及情绪一致性方面存在天然瓶颈。尤其在实时对话场景中，多模块串联 ...

端到端语音交互系统

Artificial Intelligence

端到端语音交互系统

Artificial Intelligence