Workflow
SAM Audio
icon
Search documents
腾讯研究院AI速递 20251218
腾讯研究院· 2025-12-17 16:01
生成式AI 一、OpenAI推出全新ChatGPT Images,sam露腹肌搞宣传 1. OpenAI发布全新图像生成模型驱动的ChatGPT Images,图像生成速度提升4倍,实现精准编辑并保持细节完好, Sam Altman亲自下场"辣眼睛"宣传; 2. 该模型支持添加、删减、组合、融合等多种编辑类型,文本渲染能力增强可处理更密集更小的文字,并可将日常照 片转换成电影海报等创意风格; 3. 新版Images功能向所有ChatGPT用户推出,API以GPT Image 1.5形式提供,价格比GPT Image 1降低20%,内 置数十种预设滤镜和提示词。 https://mp.weixin.qq.com/s/ORFy20qnLXeIu4FKHlHf0g 二、3D分割还不够,Meta开源SAM Audio分割一切声音 1. Meta开源音频分割模型SAM Audio,支持文本、视觉和业内首创的时间跨度提示三种方式,可从复杂音频混合中 分离任意声音; 四、腾讯混元世界模型1.5发布,国内首个开放实时体验 1. 腾讯混元世界模型1.5(HY WorldPlay)正式发布并开源,支持文本或图片输入创建实时交互的 ...
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音
机器之心· 2025-12-17 09:42
编辑|陈萍、Panda 继 SAM(Segment Anything Model)、 SAM 3D 后,Meta 又有了新动作。 深夜,Meta 放出音频分割模型 SAM Audio ,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声 音,从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV) ,这是推动其实现业界领先性能的技术引擎。 PE-AV 基于 Meta 今年早些时候开源发布的 Perception Encoder 模型,能够支持更先进的计算机视觉系统,帮助人们完成日常任务,其中就包括声音检测。 你可以把 PE-AV 想象成帮助 SAM Audio 运作的耳朵,而 SAM Audio 则是完成音频分割任务的大脑。这两者的结合带来了许多令人兴奋的应用场景。 设想一下:一段乐队演出的录像,只需在画面中点击一下吉他,就能单独分离出吉他的声音。SAM Audio 还可以通过文本提示进行音频分离,比如从户外拍摄的 视频中滤除嘈杂的交通噪声。此外,Meta 业内首创的时间跨度提示(s ...