Workflow
Higgs Audio v2
icon
Search documents
“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!
AI前线· 2025-07-25 05:36
整理 | 褚杏娟 7 月 23 日,"AI 大神"李沐宣布开源了 Higgs Audio v2,这是一个音频基础模型,构建在 Llama-3.2- 3B 基础之上,预训练数据包括超过 1000 万小时的音频以及丰富的文本数据。该模型目前在 Github 上已获得 3.6k stars。 "去年我们一直关注的是文本语言模型,让它智商足够高、能听从人的指示,一方面可以陪人玩游 戏,另一方面也能帮忙处理一些文案工作,简单来说就是能读能写。今年我们在想,能不能让模型能 听也能说。"李沐在 B 站发布的视频中说道。 随后,他表示,"语音是 AI 中一个相对比较悠久的领域,我其实并不是语音方面的专家。作为一个新 手,我的想法很简单,就是我不要去训练单独的语音模型,而是在文本大语言模型训练时加入大量的 语音数据,大力出奇迹,就想让文本语言模型智商不要下降,但同时掌握了用语音沟通的能力。" 李沐是全球知名 AI 深度学习科学家、深度学习框架 MXNet 作者之一,2008 年毕业于上海交通大学 计算机系,曾于微软亚洲研究院实习。毕业后任香港科技大学研究助理,2011 年加入百度任高级研 发;2012 年赴卡耐基梅隆大学攻读博 ...
腾讯研究院AI速递 20250725
腾讯研究院· 2025-07-24 10:24
生成式AI 一、 特朗普签署「AI行动计划」,万亿美金押注全球AI霸权 1. 特朗普签署《AI行动计划》,以三大支柱(AI创新、基础设施、国际外交)为框架,推出 90多项行政令; 2. 政府 计划 放松AI监管,大力推广开源模型,加速数据中心建设,重振美国半导体制造业; 3. 美国将输出全栈AI技术给盟友,同时加强对算力出口的管控,旨在确立全球AI霸主地位。 https://mp.weixin.qq.com/s/KSdk2hb0QslGMbszJJRWrA 二、 Lovable 正式推出下一代AI编程产品「Lovable Agent」 1. Lovable仅用35人团队8个月实现1亿美元年收入,增长速度超越OpenAI等软件公司; 2. 新发布的"Lovable Agent"将错误率降低91%,能像真实开发者一样分解问题、迭代修 复; 3. Lovable定位不是面向程序员,而是帮助"不会写代码的人"通过自然语言描述构建完整应用 程序。 https://mp.weixin.qq.com/s/5PwX5Tc2VmwLzToE3tsKnw 三、 字节发布端到端同声传译模型 Seed LiveInterpret 2 ...
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
量子位· 2025-07-23 06:36
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 这一天,辣个男人终于回想起……他的小破站账号! (活久见) 李沐 老师终于带着他的手搓语音大模型教程回归了…. 本期视频不讲论文,李沐老师来手把手教大家怎样玩转他们团队最新研发的 Higgs Audio V2模型 ,不仅能处理文本,还能同时理解并生成 语音。 除了一些常规语音任务外,这个模型还具备一些较为罕见的能力,比如生成多种语言的自然多说话人对话、旁白过程中的自动韵律调整、使用 克隆声音进行旋律哼唱以及同时生成语音和背景音乐。 沐导今日组会内容速记 传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。 那么首先就要知道文本语言模型的本质是用给定的一段指令去生成预测结果,就是将任务先拆解为 系统指令 (system) 、 用户输入 (user) 、 模型回复 (assistant) 三个部分。 整个过程堪称 "大力出奇迹" ,直接将 1000万小时 的语音数据整合到LLM的文本训练,让它能听也能说。 (当然还有亿点点细节) 粗暴,但有效! 鬼畜视频?人力手搓已经OUT了,李沐老师直接用算力帮大伙搞定,效果 ...