Text-To-Speech

Search documents
登顶 Arena!MiniMax 最新 Speech-02 模型屠榜:超越OpenAI、ElevenLabs,人声相似度99%
AI前线· 2025-05-15 06:45
作者 | 凌敏 没有什么比"群星闪耀"更适合形容近期的 TTS(Text-To-Speech,文本转语音)模型领域了。 开年以来,从科技巨头到创业公司再到研究机构,都在发力 TTS 模型。2 月,字节跳动海外实验 室推出一款轻量级 TTS 模型 MegaTTS3-Global;3 月,出门问问联合香港科技大学、上海交通 大学、南洋理工大学、西北工业大学等顶尖学术机构,共同开源新一代语音生成模型 Spark- TTS;同月,OpenAI 推出基于 GPT-4o-mini 架构的 TTS 模型。 与 AI 领域其他热门技术相比,TTS 似乎格外低调,但它却是智能硬件、数字人等场景的"隐形基 石"。凭借广泛的应用领域和开阔的商业前景,TTS 在最近一年取得了长足的进步,并悄然改变 着行业规则。 最近,TTS 模型又有重磅"上新",Speech-02语音模型一出手,就将 OpenAI、ElevenLabs 甩在 了后面,登顶 Arena 榜单,成为全球第一。 | Creator | | Model | Arena ELO | 95% CI | # Appearances | | --- | --- | --- | - ...
Cartesia: 3 个月融资 9100 万美元,从 Transformer 到 Mamba 重塑语音 AI
海外独角兽· 2025-04-03 12:04
作者:linlin 编辑:haina 2025 年 3 月 11 日,语音生成初创公司 Cartesia 宣布完成 6400 万美元 A 轮融资,距其 2700 万美元种 子轮融资仅过去不到 3 个月。本轮融资由 Kleiner Perkins 领投,Lightspeed、Index、A*、Greycroft、 Dell Technologies Capital 和 Samsung Ventures 等跟投。Cartesia 还同时推出了其旗舰产品 Sonic 2.0, 系统延迟从 90 毫秒缩短至 45 毫秒,为语音 AI 领域高效、实时且低成本的多模态交互提供了新动 力。 Cartesia 的核心团队均来自 Stanford AI labs,包括 Karan Goel、Albert Gu、Arjun Desai、Brandon Yang 四位校友及其共同导师 Chris Ré。团队共同的研究方向在于 SSM(状态空间模型)。从 S4 到 Mamba 的 SSM 系列研究,以线性时间复杂度,为解决 LLMs 主流架构 Transformer 在上下文长度的 固有局限提供了潜在解决方案,意味着更快的生成速度、 ...