跨模态语音语言大模型

Search documents
语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%
量子位· 2025-04-02 07:40
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 没想到,文小言接入推理模型的大更新背后 ,百度还藏了一手"质变"级技术大招??? Talk is cheap,直接来看Demo: 士别三日,文小言不仅能讲重庆话了,还是成了哄娃的一把好手,被花式打断照样应对如流: 实测下来,Demo不虚。这个全新语音对话功能,确实更有人味儿了,还是能紧贴当下实事的那种—— 只是让Ta推荐周末放松去处,Ta自己就能主动结合当前4、5月份的现实时间,给出更加合理的建议。 划重点,这是 免费 的。现在你也一样可以打开手机里的文小言,直接体验这一全新升级的实时语音对话功能。 但!是! 百度端到端语音语言大模型是有质变的,不是单纯把文本大模型用到语音领域。 语音场景有其独特之处。此前,大家没有充分挖掘这个应用场景的不同,还是按照把文本大模型用到语音场景的路线,把速度加快 一下,工程优化一下。 我们的创新架构,让大模型在语音场景中的应用实现了极低成本,更有利于大模型普及。 如果单说语音体验,那还真不是这个"大招"的重点。关键是,这回百度还透露了更多技术细节。 我们仔细一看,还真是有意思了。 首先,上来就是一个行业首创:以上实时语音对话 ...