大型语音语言模型(LSLM)

Search documents
LLaSO 横空出世:逻辑智能推出全球首个完全开源语音大模型框架,定义 LSLM 研究新基准
机器之心· 2025-09-14 05:16
论文标题:L LaSO: A Foundational Framework for Reproducible Research in Large Language and Speech Model 在大型语言模型(LLM)的浪潮下,多模态 AI 取得了飞速发展,尤其是在视觉语言(LVLM)领域,已经形成了成熟的研究范式。然而,与之形成鲜明对比的 是,大型语音语言模型(LSLM)的发展却显得零散且步调缓慢。 该领域长期被碎片化的架构、不透明的训练数据和缺失的评估标准所困扰,导致研究之间难以进行公平比较,严重阻碍了技术的可复现性和社区的系统性进步。 许多研究虽然发布了模型权重,但其赖以成功的关键 —— 训练数据和配置细节 —— 却常常被 "雪藏" 起来。 为了打破这一僵局, 北京深度逻辑智能科技有限公司推出了 LLaSO —— 首个完全开放、端到端的语音语言模型研究框架。 LLaSO 旨在为整个社区提供一个统一、透明且可复现的基础设施,其贡献是 "全家桶" 式的,包含了一整套开源的数据、基准和模型,希望以此加速 LSLM 领域的 社区驱动式创新。 论文地址:https://arxiv.org/abs/2508.1 ...