Workflow
语音交互
icon
Search documents
汉桑科技(301491.SZ):语音交互模组已用于为海外客户提供的具备语音交互功能的智能硬件产品中
Ge Long Hui· 2026-02-26 08:29
格隆汇2月26日丨汉桑科技(301491.SZ)在投资者互动平台表示,公司的语音交互模组已用于为海外客户 提供的具备语音交互功能的智能硬件产品中,产品暂不涉及IEEE P3746 技术标准。 ...
ElevenLabs CEO:语音将成为AI的下一个交互界面
Sou Hu Cai Jing· 2026-02-06 15:18
Core Insights - Voice is emerging as the next major interface for AI, moving beyond text and screens to become the primary way people interact with machines [2] - ElevenLabs has recently completed a $500 million funding round, achieving a valuation of $11 billion, reflecting growing recognition of voice technology in the AI industry [2] - Major companies like OpenAI and Google are focusing on voice as a core element of next-generation models, while Apple is quietly building voice-related always-on technology through acquisitions [2] Group 1 - ElevenLabs' voice models have advanced beyond simple human voice simulation to incorporate emotional tone and reasoning capabilities, enhancing human-machine interaction [2] - The shift towards intelligent voice systems will reduce the need for explicit user commands, relying instead on continuous memory and context to create a more natural interaction experience [3] - The deployment of voice models is evolving towards a hybrid approach of cloud and device processing, supporting new hardware like headphones and wearables, making voice a continuous companion [3] Group 2 - ElevenLabs is collaborating with Meta to integrate its voice technology into products like Instagram and Horizon Worlds, and is open to working on Meta's Ray-Ban smart glasses [4] - The increasing integration of voice technology into everyday hardware raises significant concerns regarding privacy, surveillance, and the potential misuse of personal data [5]
飞书史上第一次硬件合作,和安克创新做了一款「AI录音豆」
3 6 Ke· 2026-01-19 00:21
《智能涌现》获悉,飞书将与安克创新联合发布一款名为"AI录音豆"的智能录音硬件。 从我们获得的资料来看,这是一款重量仅10克的圆形设备,外观呈豆状,机身搭载双MEMS麦克风阵列,整机配合充电舱重量约48克。产品支持蓝牙与 Wi-Fi两种传输模式,主打无感佩戴和随时录音。 自2025年海外创业公司Plaud凭借AI录音卡片产品打开市场后,国内已有多家厂商跟进推出类似产品,但大厂亲自下场做AI录音硬件的案例并不多见。 从2017年成立以来,飞书从未推出过硬件产品。多位接近飞书的人士向36氪表示,这款AI录音豆在飞书内部属于探索性项目,飞书产品团队负责软件部 分研发工作。 从2024年开始,市面上也出现不少AI硬件的创新形态——录音卡片、录音豆、AI便携相机、AI眼镜等产品相继涌现。这些产品都试图在手机之外,找到 一个更贴近用户日常场景的AI交互入口。 飞书和安克创新并没有跟随市场主流的卡片形态,而是选择了更小巧的"豆"状设计,这是一个有意的差异化选择。 卡片形态的优势在于,可以贴合手机背面、利用磁吸,但代价是体积更大、佩戴场景比较受限;豆状设计更像近年流行的AI陪伴硬件,强调无感佩戴和 全天候随身。 比如,用户可 ...
设计师朱梦也以“以人为本”的AI交互设计获多项国际奖项
Nan Fang Du Shi Bao· 2026-01-07 05:35
2025年被誉为设计创新与人本科技深度融合的一年。在这一年里,交互设计师朱梦也(Mengye Zhu) 凭借"以人为本"的人工智能交互设计理念脱颖而出,斩获德国 iF 设计奖、欧洲产品设计奖等多项国际 大奖。她的代表作"Quackiverse"将生成式AI与语音交互应用于儿童语言学习,打造个性化且富有情感温 度的学习体验,同时在健康科技与创意教育等领域探索AI交互的新可能。 朱梦也硕士毕业于康奈尔大学设计专业,立志通过设计提升社会的包容性与公平性。她的设计实践跨越 UI/UX、交互艺术和产品创新多个领域,但始终围绕一个核心——让尖端技术服务于人的真实需求。正 如她所强调的,优秀设计需要将创造力、技术与共情心融合在一起。 在她主导设计的代表作"Quackiverse"中,这一理念被完整地呈现。该平台以生成式AI与语音识别技术为 核心,为6至15岁儿童打造了一个沉浸式语言学习世界,让学习不再枯燥,而是一场充满探索与互动的 旅程。"Quackiverse"针对传统语言教育中"缺乏趣味性""难以坚持""家长陪伴不足"等痛点,构建了一个 AI驱动的动态学习系统。通过智能语音反馈、故事式任务与游戏化闯关机制,孩子可以在互 ...
豆神教育:公司的学伴机器人深度融合了火山引擎RTC技术与豆包大模型,但对公司经营基本面无重大影响
Mei Ri Jing Ji Xin Wen· 2026-01-05 08:14
豆神教育(300010.SZ)1月5日在投资者互动平台表示,您好,公司的学伴机器人深度融合了火山引擎 RTC技术与豆包大模型,旨在实现实时对话与精准引导,搭建自然、流畅、富有智慧的语音交互场景。 以上技术模型的接入可以帮助提升学伴机器人的语音交互效果、提升用户体验,但对公司经营基本面无 重大影响。感谢您的关注。 (文章来源:每日经济新闻) 每经AI快讯,有投资者在投资者互动平台提问:请问贵司的产品使用火山引擎技术主要包含哪些方 面? ...
报道:OpenAI整合团队拟一季度发布新语音模型,为发布AI个人无屏设备铺路
Hua Er Jie Jian Wen· 2026-01-01 22:27
OpenAI正优化其音频人工智能模型,为计划中的语音驱动型个人设备做准备。 据报道,新语音模型将具备更自然的情感表达能力和实时对话功能,包括处理对话打断的能力,这是现 有模型无法实现的关键特性,计划2026年第一季度发布。 报道援引知情人士称,OpenAI还计划推出一系列无屏设备,包括智能眼镜和智能音箱,将设备定位为 用户的"协作伴侣"而非单纯的应用入口。 不过在推出支持语音指令的消费级AI硬件产品前,OpenAI需要先改变用户的使用习惯。 1月1日,据The Information报道,OpenAI过去两个月内整合工程、产品和研究力量,集中攻克音频交 互的技术瓶颈,目标打造一款可通过自然语音指令操作的消费级设备。 团队整合聚焦无屏交互方式 公司内部研究人员认为,当前ChatGPT的语音模型在准确性和响应速度上均落后于文本模型,且两者使 用的底层架构并不相同。 据报道,OpenAI当前的语音模型与文本模型分属不同架构,导致用户通过语音与ChatGPT对话时,获得 的回答质量和速度均逊于文本模型。 为解决这一问题,OpenAI在过去两个月内完成了关键团队整合。 在组织层面,今夏从Character.AI加入的语 ...
OpenAI整合团队开发音频AI模型 为发布AI个人设备铺路
Xin Lang Cai Jing· 2026-01-01 15:32
目前,当用户与ChatGPT对话时,虽然聊天机器人能进行语音回复,但其语音版本与文本版本使用的底 层模型并不相同。一位前员工和一位现职员工透露,OpenAI内部研究人员认为,当前语音模型在回答 准确性和响应速度上均落后于文本模型。 为应对这一挑战,过去两个月内,OpenAI已整合了工程、产品和研究团队,共同推进音频模型的优 化。提升语音模型准确性对OpenAI至关重要,因其计划推出一款支持语音指令的消费级设备。据此前 报道,首款设备预计至少一年后面世。 知情人士称,新音频模型架构能生成更自然、更具情感且更精准深入的回应,同时支持与用户实时对话 (现有模型无法实现)并更好地处理对话打断。该模型目标发布时间为2026年第一季度,OpenAI发言 人对此不予置评。 据知情人士透露,OpenAI正采取措施优化其音频AI模型,为未来发布由AI驱动的个人设备做准备。三 名知情人士表示,该设备预计将主要依赖音频交互。 责任编辑:王许宁 据知情人士透露,OpenAI正采取措施优化其音频AI模型,为未来发布由AI驱动的个人设备做准备。三 名知情人士表示,该设备预计将主要依赖音频交互。 与谷歌、亚马逊、Meta和苹果类似,Ope ...
通义端到端语音交互模型Fun-Audio-Chat发布
Feng Huang Wang· 2025-12-23 11:50
Core Insights - Tongyi released a new end-to-end voice interaction model called Fun-Audio-Chat, which emphasizes "voice-to-voice" interaction capabilities, allowing users to engage in multi-turn conversations directly through voice [1] - The model achieved leading performance in various speech and multimodal evaluations, surpassing several other models of similar parameter scale, indicating its strong capabilities in speech understanding, generation, and dialogue collaboration [1][2] Model Features - Fun-Audio-Chat-8B is part of the Tongyi Bailing voice model family, which previously included speech-to-text and text-to-speech models. Unlike its predecessors, this model focuses on end-to-end voice interaction for applications such as voice chatting, emotional companionship, smart terminal interaction, and voice customer service [1] - The model employs a two-stage training strategy called Core-Cocktail, which integrates speech and multimodal capabilities while fine-tuning existing language model parameters to mitigate the "catastrophic forgetting" issue [2] - It also incorporates multi-stage, multi-task preference alignment training to enhance the model's ability to accurately capture semantic and emotional cues in real voice conversations, improving the naturalness of dialogue [2] Efficiency and Practicality - Fun-Audio-Chat-8B features a dual-resolution end-to-end architecture that compresses, autoregresses, and decompresses audio, reducing the audio frame rate to approximately 5Hz. This design saves nearly 50% of GPU computing costs while maintaining speech quality, which is significant given the high computational costs associated with current speech models [2] - The open-sourcing of Fun-Audio-Chat-8B signifies a move towards practical applications of large speech models in real-world scenarios, emphasizing low computational power and strong dialogue capabilities [2]
完爆ChatGPT,谷歌这招太狠:连你的「阴阳怪气」都能神还原
3 6 Ke· 2025-12-15 02:04
Core Insights - Google has launched the Gemini 2.5 Flash Native Audio model, which enables real-time voice translation while preserving tone and delivering a more natural conversational experience, marking a significant advancement in AI interaction [1][3][10]. Group 1: Technological Advancements - The new model allows for direct audio processing without converting speech to text, enhancing the speed and emotional nuance of interactions [6][8]. - Gemini 2.5 Flash supports real-time speech translation, allowing for continuous listening and automatic language switching during conversations, effectively acting as an invisible translator [11][19]. - The model captures emotional nuances in speech, translating not just words but also the speaker's tone and attitude, which is crucial in contexts like business negotiations [12][14][15]. Group 2: Developer and Business Implications - The update improves the accuracy of function calls and command adherence, increasing the compliance rate from 84% to 90%, which is vital for enterprise-level applications [18][23]. - Gemini 2.5 enhances multi-turn dialogue capabilities, allowing for more coherent and logical conversations, making AI interactions feel more human-like [24]. - The introduction of Gemini API in 2026 will expand these capabilities to more products, lowering the barrier for businesses to create advanced AI customer service solutions [28][29]. Group 3: Future Outlook - The advancements signal a shift towards voice interaction as a primary interface for technology, moving AI beyond screens and into everyday life [25][27]. - The potential for users to communicate across language barriers with ease suggests a transformative impact on global communication [28].
喝点VC|a16z专访百亿美金AI语音独角兽11Labs CEO :首要之务是深入行业内部,花时间理解他们的核心诉求与激励机制
Z Potentials· 2025-12-13 11:09
Z Highlights Mati Stanizewski , ElevenLabs 首席执行官兼联合创始人。本次方案为 a16z 合伙人 Jennifer Li 与 Mati 在 2025 年 11 月 4 日进行的讨论,深入探讨了该团 队如何以闪电般的速度运送研究级人工智能 —— 从文本到语音和完全授权的人工智能音乐到实时语音代理,以及为什么语音是下一个人机交互界面。 速度与深度的博弈:我们如何用 " 小团队 " 撬动 " 大研究 " Jennifer Li : 我很荣幸欢迎我们的首位演讲者 ——ElevenLabs 联合创始人兼首席执行官 Mati 。 Mati ,很高兴你能来到这里。 Mati Staniszewski : 非常感谢邀请我来这里。很高兴见到大家,早上好。 图片来源: Youtube Jennifer Li : 刚才的欢迎音 乐是 ElevenLabs 生成的吧? Mati Staniszewski : 确实如此。我们在音频领域持续拓展。最初从语音技术起步,随后构建了语音助手的编排体系,如今更开发出完全持牌的音乐模型, 能够创作精彩绝伦的音乐作品与之相辅相成。 Jennifer Li : ...