AudioLBM
Search documents
清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式
量子位· 2025-10-12 04:07
2025年发表于ICASSP的 Bridge-SR 工作首次将薛定谔桥 (Schrödinger Bridge) 模型引入语音超分任务,在"数据到数据"的生成范式下 建立了低分辨率波形与高分辨率波形之间的可解桥接过程。 不同于扩散模型从随机噪声逐步生成信号的"噪声到数据"方式,Bridge-SR直接利用低分辨率波形作为生成先验,使模型在轻量化网络 (仅 1.7M参数) 下就能以"数据到数据"范式实现高效、高保真的语音超分,并在VCTK语音测试集上优于多项主流方法。 在这一背景下,清华大学与生数科技(Shengshu AI)团队围绕桥类生成模型与音频超分任务展开系统研究,先后在语音领域顶级会议 ICASSP 2025 和机器学习顶级会议 NeurIPS 2025 发表了两项连续成果: 轻量化语音波形超分模型Bridge-SR,以及面向高达192 kHz母带级音频的多功能超分框架AudioLBM。 其中,AudioLBM覆盖语音、音效与音乐等多类内容,在通用高分辨率音频生成方面展现出重要的扩展潜力。 从数据到数据:Bridge-SR的探索 清华大学&生数科技团队 投稿 量子位 | 公众号 QbitAI 音频超分辨 ...