文本与语音结合模型

Search documents
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
量子位· 2025-07-23 06:36
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 这一天,辣个男人终于回想起……他的小破站账号! (活久见) 李沐 老师终于带着他的手搓语音大模型教程回归了…. 本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的 Higgs Audio V2模型 ,不仅能处理文本,还能同时理解并生成 语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用 克隆声音进行旋律哼唱以及同时生成语音和背景音乐。 沐导今日组会内容速记 传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。 那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为 系统指令 (system) 、 用户输入 (user) 、 模型回复 (assistant) 三个部分。 整个过程堪称 "大力出奇迹" ,直接将 1000万小时 的语音数据整合到LLM的文本训练,让它能听也能说。 (当然还有亿点点细节) 粗暴,但有效! 鬼畜视频?人力手搓已经OUT了,李沐老师直接用算力帮大伙搞定,效果 ...