视听分离SOTA提速6倍,清华发布首个6M高性能模型
3 6 Ke·2026-02-13 07:58
【导读】清华大学团队推出的Dolphin模型突破了「高性能必高能耗」的瓶颈:仅用6M参数(较主流模型减半),通过离散化视觉编码和物理启发的热扩 散注意力机制,实现单次推理即可精准分离语音,速度提升6倍以上,在多项基准测试中刷新纪录,为智能助听器、手机等端侧设备部署高清语音分离开 辟新路。 视听语音分离(Audio-Visual Speech Separation, AVSS)技术旨在模拟人类的「鸡尾酒会效应」,即利用说话人的面部视觉线索(如口型变化),从背景噪 声或多人混合语音中精准提取出目标说话人的声音。这项技术在智能助听器、移动通信、增强现实及人机交互等领域具有极其重要的应用价值。 然而,长期以来,该领域面临着「性能与效率难以兼得」的困境:高性能模型往往依赖庞大的预训练参数和高昂的计算开销,难以在资源受限的边缘设备 上部署;而轻量化模型则通常以牺牲分离精度为代价,且常依赖高延迟的迭代计算。 针对这一痛点,清华大学计算机系胡晓林副教授团队提出了一种全新的高效视听语音分离模型Dolphin。 该模型通过引入离散化视觉语义表征和基于物理先验的全局-局部注意力机制,在大幅降低计算复杂度的同时,刷新了多项基准数据集 ...