语音大模型

Search documents
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
量子位· 2025-07-23 06:36
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 这一天,辣个男人终于回想起……他的小破站账号! (活久见) 李沐 老师终于带着他的手搓语音大模型教程回归了…. 本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的 Higgs Audio V2模型 ,不仅能处理文本,还能同时理解并生成 语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用 克隆声音进行旋律哼唱以及同时生成语音和背景音乐。 沐导今日组会内容速记 传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。 那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为 系统指令 (system) 、 用户输入 (user) 、 模型回复 (assistant) 三个部分。 整个过程堪称 "大力出奇迹" ,直接将 1000万小时 的语音数据整合到LLM的文本训练,让它能听也能说。 (当然还有亿点点细节) 粗暴,但有效! 鬼畜视频?人力手搓已经OUT了,李沐老师直接用算力帮大伙搞定,效果 ...
小米汽车登记Vision GT概念车著作权;上汽荣威M7 DMH内饰首发亮相:定位中大型轿车丨汽车交通日报
创业邦· 2025-07-21 10:26
1.【小米汽车登记Vision GT概念车著作权】天眼查财产线索信息显示,小米汽车科技有限公司近日 登记"Xiaomi Vision GT Concept"、"Vision GT"作品著作权,作品类别均为美术。此前,小米汽 车宣布,小米SU7 Ultra车型即将收录到PlayStation平台赛车游戏《GT赛车7》。同时,Xiaomi VISION GRAN TURISMO概念车也将出炉。VISION GRAN TURISMO是各汽车制造商为《Gran Turismo》系列开发的虚拟概念车项目,旨在通过无限制设计展现未来汽车愿景。(新浪财经) 更多汽车出行资讯 …… 扫码订阅汽车交通产业日报, 精选行业新闻,帮你省时间! 此外,如果您还想 查公司、找项目、看行业,深入了解人形机器人、商业航天、AGI等热门赛道 ,欢迎加入睿兽分析会员,解锁相关行业图谱和报告等。 2.【比亚迪确认仰望将进军欧洲市场,挑战宾利等豪华品牌】 比亚迪正式确认,其高端品牌仰望 (Yangwang)将登陆欧洲市场,这距离该品牌在中国推出已过去两年多时间。 仰望品牌定位高于比 亚迪核心产品线以及高端品牌腾势(Denza),其产品系列以高科技 ...
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心· 2025-06-17 04:50
想象一下,如果 AI 能够像人类一样自然地进行语音对话,不再需要传统的 「 语音转文字(ASR)- 文本大模型处理(LLM)- 文字转语音(TTS) 」 的 繁琐流程,而是直接理解和生成语音,那将是怎样的体验?这就是 语音大模型 (语音语言模型,SpeechLM)要解决的核心问题。 传统的语音交互系统存在三大痛点:信息丢失、延迟严重、错误累积。当语音转换为文字时,音调、语气、情感等副语言信息完全丢失;多个模块串联导致 响应延迟明显;每个环节的错误会层层累积,最终影响整体效果。 SpeechLM 的出现彻底改变了这一局面。它能够端到端地处理语音,既保留了语音中的丰富信息,又大幅降低了延迟,为真正自然的人机语音交互铺平了 道路。 本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收!这 是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。 ArXiv链接:https: ...