Workflow
语音AI
icon
Search documents
美股异动 SoundHound AI(SOUN.US)大涨超16% 与Acrelec达成语音AI平台合作
Jin Rong Jie· 2025-08-11 15:59
Core Viewpoint - SoundHound AI (SOUN.US) experienced a significant stock increase of over 16%, reaching a six-month high of $15.79, following the announcement of a partnership with Acrelec to integrate their Dynamic Drive-Thru voice AI platform with Acrelec's digital systems [1] Company Performance - SoundHound AI reported a Q2 revenue growth of 217% year-over-year, amounting to $42.68 million [1] - The company raised its full-year revenue outlook to between $160 million and $178 million [1] Partnership Details - The collaboration with Acrelec aims to deploy the integrated system across more than 25,000 drive-thru service points globally by August 11, 2025 [1]
SoundHound AI(SOUN.US)大涨超16% 与Acrelec达成语音AI平台合作
Zhi Tong Cai Jing· 2025-08-11 15:16
Core Viewpoint - SoundHound AI (SOUN.US) experienced a significant stock increase of over 16%, reaching a six-month high of $15.79, following the announcement of a partnership with Acrelec to integrate their Dynamic Drive-Thru voice AI platform with Acrelec's digital systems [1] Financial Performance - In Q2, SoundHound AI reported a revenue increase of 217% year-over-year, totaling $42.68 million [1] - The company raised its full-year revenue outlook to between $160 million and $178 million [1] Strategic Partnership - The collaboration with Acrelec aims to deploy the integrated system to over 25,000 drive-thru service points globally by August 11, 2025 [1]
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心· 2025-06-17 04:50
想象一下,如果 AI 能够像人类一样自然地进行语音对话,不再需要传统的 「 语音转文字(ASR)- 文本大模型处理(LLM)- 文字转语音(TTS) 」 的 繁琐流程,而是直接理解和生成语音,那将是怎样的体验?这就是 语音大模型 (语音语言模型,SpeechLM)要解决的核心问题。 传统的语音交互系统存在三大痛点:信息丢失、延迟严重、错误累积。当语音转换为文字时,音调、语气、情感等副语言信息完全丢失;多个模块串联导致 响应延迟明显;每个环节的错误会层层累积,最终影响整体效果。 SpeechLM 的出现彻底改变了这一局面。它能够端到端地处理语音,既保留了语音中的丰富信息,又大幅降低了延迟,为真正自然的人机语音交互铺平了 道路。 本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收!这 是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。 ArXiv链接:https: ...
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
机器之心· 2025-05-15 06:04
| 机器之心报道 | | --- | | 编辑:杜伟、陈陈 | | 国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷 | | 信」国外大模型。 | | 如今,在语音 AI 领域,国产大模型第一梯队的重量级选手 MiniMax 又抛下了一颗「重磅炸弹」。 | | 我们看到,其 全新一代 TTS 语音大模型「Speech-02」在国际权威语音评测榜单 Artificial Analysis 上强势登顶,一举击败了 OpenAI、ElevenLabs 两大行业巨头 | | ! | | 其中,在字错率(WER,越低越好)和说话人相似度(SIM,越高越好)等关键语音克隆指标上均取得 SOTA 结果。 | | 图源: Artificial Analysis Speech Arena Leaderboard | | 这项成绩直接震惊国外网友,他们纷纷表示:「MiniMax 将成为音频领域的破局者。」 | | 7:40 PM · May 3, 2025 · 406 Views | | | | --- | --- ...
速递|两名本科生3个月打造的AI语音模型,挑战谷歌NotebookLM,16亿参数实现自然对话生成
Z Potentials· 2025-04-23 03:49
图片来源: Nari 两名没有高度专业 AI 知识的本科生表示,他们已经创建了一个公开可用的 AI 模型,可以生成类似 于 Google 的 NotebookLM 的播客风格的剪辑。 合成语音工具的市场巨大,并且还在不断增长。 ElevenLabs 是最大的参与者之一,但不乏挑战者 (参见 PlayAI 、 Sesame 等)。投资者认为这些工具具有巨大的潜力。 根据 PitchBook 的数据 ,开发语音 AI 技术的初创公司去年筹集了超过 3.98 亿美元的风险投资。 Nari Labs 是新发布模型背后的团队,总部位于韩国的联合创始人之一 Toby Kim 表示,他和他的同事 在三个月前开始学习语音 AI 。受 NotebookLM 的启发,他们希望创建一个模型,该模型可以更好地 控制生成的声音和 " 脚本中的自由度 " 。 Kim 说,他们使用了 Google 的 TPU Research Cloud 计划来训练 Nari 的模型 Dia ,该计划为研究人 员提供了对该公司 TPU AI 芯片的免费访问。 Dia 有 16 亿个参数,可以从脚本中生成对话,让用户 自定义说话者的语气并插入不流畅、咳嗽、 ...