分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音

编辑|陈萍、Panda 继 SAM(Segment Anything Model)、 SAM 3D 后,Meta 又有了新动作。 深夜,Meta 放出音频分割模型 SAM Audio ,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声 音,从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV) ,这是推动其实现业界领先性能的技术引擎。 PE-AV 基于 Meta 今年早些时候开源发布的 Perception Encoder 模型,能够支持更先进的计算机视觉系统,帮助人们完成日常任务,其中就包括声音检测。 你可以把 PE-AV 想象成帮助 SAM Audio 运作的耳朵,而 SAM Audio 则是完成音频分割任务的大脑。这两者的结合带来了许多令人兴奋的应用场景。 设想一下:一段乐队演出的录像,只需在画面中点击一下吉他,就能单独分离出吉他的声音。SAM Audio 还可以通过文本提示进行音频分离,比如从户外拍摄的 视频中滤除嘈杂的交通噪声。此外,Meta 业内首创的时间跨度提示(s ...