“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!
AI前线·2025-07-25 05:36
整理 | 褚杏娟 7 月 23 日,"AI 大神"李沐宣布开源了 Higgs Audio v2,这是一个音频基础模型,构建在 Llama-3.2- 3B 基础之上,预训练数据包括超过 1000 万小时的音频以及丰富的文本数据。该模型目前在 Github 上已获得 3.6k stars。 "去年我们一直关注的是文本语言模型,让它智商足够高、能听从人的指示,一方面可以陪人玩游 戏,另一方面也能帮忙处理一些文案工作,简单来说就是能读能写。今年我们在想,能不能让模型能 听也能说。"李沐在 B 站发布的视频中说道。 随后,他表示,"语音是 AI 中一个相对比较悠久的领域,我其实并不是语音方面的专家。作为一个新 手,我的想法很简单,就是我不要去训练单独的语音模型,而是在文本大语言模型训练时加入大量的 语音数据,大力出奇迹,就想让文本语言模型智商不要下降,但同时掌握了用语音沟通的能力。" 李沐是全球知名 AI 深度学习科学家、深度学习框架 MXNet 作者之一,2008 年毕业于上海交通大学 计算机系,曾于微软亚洲研究院实习。毕业后任香港科技大学研究助理,2011 年加入百度任高级研 发;2012 年赴卡耐基梅隆大学攻读博 ...