Workflow
机器之心
icon
Search documents
分割一切、3D重建一切还不够,Meta开源SAM Audio分割一切声音
机器之心· 2025-12-17 09:42
编辑|陈萍、Panda 继 SAM(Segment Anything Model)、 SAM 3D 后,Meta 又有了新动作。 深夜,Meta 放出音频分割模型 SAM Audio ,其通过多模态提示(无论是文本、视觉,还是标注时间片段),让人们能够轻松地从复杂的音频混合中分离出任意声 音,从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual(PE-AV) ,这是推动其实现业界领先性能的技术引擎。 PE-AV 基于 Meta 今年早些时候开源发布的 Perception Encoder 模型,能够支持更先进的计算机视觉系统,帮助人们完成日常任务,其中就包括声音检测。 你可以把 PE-AV 想象成帮助 SAM Audio 运作的耳朵,而 SAM Audio 则是完成音频分割任务的大脑。这两者的结合带来了许多令人兴奋的应用场景。 设想一下:一段乐队演出的录像,只需在画面中点击一下吉他,就能单独分离出吉他的声音。SAM Audio 还可以通过文本提示进行音频分离,比如从户外拍摄的 视频中滤除嘈杂的交通噪声。此外,Meta 业内首创的时间跨度提示(s ...
官宣!姚顺雨出任腾讯首席AI科学家,带队大语言模型、AI Infra
机器之心· 2025-12-17 09:42
机器之心编辑部 不久之前,OpenAI 著名研究者、清华校友、著名博客《AI 下半场》的作者姚顺雨加入腾讯的消息传得沸沸扬扬,点燃了 AI 社区。(参见: 姚顺雨离职 OpenAI,「亿元入职腾讯」传闻引爆 AI 圈,鹅厂辟谣了 ) 今日,靴子落地。 刚刚,机器之心获悉,腾讯升级大模型研发架构,新成立 AI Infra 部、AI Data 部、数据计算平台部,全面强化其大模型的研发体系与核心能力。 一直未正式露面的姚顺雨(Vinces Yao)出任 「CEO / 总裁办公室」首席 AI 科学家 ,向腾讯总裁刘炽平汇报;同时兼任 AI Infra 部、大语言模型部负责人,向技 术工程事业群总裁卢山汇报。 王迪继续担任大语言模型部副总经理,向姚顺雨汇报。刘煜宏担任 AI Data 部负责人、陈鹏担任数据计算平台部负责人,均向公司副总裁蒋杰汇报。 姚顺雨是人工智能领域,特别是「智能体(Agent)」方向备受瞩目的青年研究者。 在加入 OpenAI 之前,他就已经在语言智能体领域做出了一系列开创性的工作: 此外,他还参与构建了著名软件工程基准 SWE-Bench 和模拟电子商务网站环境 WebShop,推动了 AI ...
WAIC Future Tech 2026:全球科技曝光+合作,资本的下一个掘金点
机器之心· 2025-12-17 05:28
' . WNIC | 13:30-13:45 创投生态共建计划发布暨启动仪式 > | | --- | | 13:45-14:15 神秘嘉宾園桌 | | 14:15-17:20 Future Tech × 光源产业创新孵化器 | Demo Dav(14个项目) 在半天时间里,你可以集中遇见一批经过初步筛选的 团队(主要集中于AI应用、基础设施、硬件及前沿科 技领域,多为种子轮到A轮),感知最一线的创新温 度。我们始终相信. 在那些真诚的交谈中,最可能遇 见那个"对的人"。 世界人工智能大学 CALL THE FUTURE 创新启航 活动议程 FUTURE TECH Demo Dav 时间: 2025年12月20日 (周六) 13: 00 地点: 北京 ·清华科技园 · 阳光厅 即刻报名,锁定名额 NIA 1 2 - 十日 日日 | 十七日十十八十 NU.LL NO.13 万物皆可 CP 的 AI 小剧场@酷奇奇 KYMS AI,从人找人到智能体交付招聘结 N0.14 果@快约面试 ( )))))>>> E N D <<<<<<< > AI助力全球优质矿产资源加速发现 NO.1 a 及云智句 | NO.Z | A ...
硬刚Sora2,万相2.6轻松定制角色、控制分镜,普通人也能当导演
机器之心· 2025-12-17 05:28
与此同时,商业落地的速度快得惊人:在 B 端,大量 AI 短剧、漫剧上线,制作成本大幅降低;在 C 端,社交平台上不仅有「粘土滤镜」这样的爆款特 效,更有大量博主开始常态化使用 AI 制作剧情短片。 然而,面对这些顶尖技术,普通用户的心情往往是「又爱又恨」。爱的是,各家 SOTA 模型生成的画面在光影质感与物理规律上已臻化境,甚至让人恍惚 感叹「现实与虚拟的界限已然消失」;恨的是,体验的门槛依旧存在,要么是高不可攀的内测资格,要么是每月不菲的订阅账单。 前段时间,惊喜降临。阿里千问 APP 接入了 Wan 2.5(万相 2.5),让我们感受到了移动端创作的自由与畅快,这种在手机上免费生成「有声视频」的体 验,确实很香。在权威大模型评测集 LMArena 上,万相 2.5 的图生视频能力曾位居国内第一。 编辑|+0 2025 年即将画上句号,回望这一年的视频生成领域,用「突飞猛进」来形容毫不为过,甚至可以说,视频内容创作的范式正在悄然发生改变。 9 月,OpenAI 发布的 Sora 2 凭借「客串(Cameo)」功能,打破了困扰行业已久的「角色一致性」瓶颈,首创的「角色扮演功能」玩法让 AI 视频从充 满不确 ...
经验记忆黑科技:LightSearcher让AI工具调用减39.6%、推理快48.6%
机器之心· 2025-12-17 05:28
这些问题导致现有模型要么答案不准、可靠性差,要么工具调用过多、效率低下,难以同时满足推理准确和高效执行的核心需求。 如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜 索工具,访问参数边界之外的最新、领域特定知识,从而提升推理的深度和事实可靠性。 然而, 现有的 RL 驱动的深度思考大模型系统常常面临准确率与效率的「 跷跷板」困境:频繁调用搜索工具提升准确性,却带来计算开销和效率低下 。具体而 言,高频调用外部搜索工具虽能补充实时信息、提升推理准确率,但使得推理延迟大幅升高,等待时间可达几十秒至几分钟。从 用户体验角度来看,若信息加载 时间超过 10 秒,50% 的移动用户会放弃访问 。 北邮百家 AI 团队提出 LightSearcher 框架 ,首创基于经验记忆的高效 RL 优化技术,通过引入文本化经验记忆和自适应奖励塑造机制,巧妙解决了这一痛点。 在保持与 SOTA 基线 ReSearch 相当准确率的同时,搜索工具调用和模型回复时间显著缩短, 搜索工具调用次数减少 39.6%,推理时间缩 ...
SIGGRAPH Asia 2025:摩尔线程赢图形顶会3DGS挑战赛大奖,自研LiteGS全面开源
机器之心· 2025-12-17 05:28
机器之心发布 12 月 17 日,在香港举办的全球图形学领域备受瞩目的顶级学术盛会 SIGGRAPH Asia 2025 上,摩尔线程在 3D Gaussian Splatting Reconstruction Challenge(3DGS 重建挑战赛)中凭借自研技术 LiteGS 出色的算法实力和软硬件协同优化能力,斩获大赛银奖,再次证明摩尔线程在新一代图形渲染技术上的深度积累与学术界的 高度认可。 ( * 上图仅作示意) 作为近年来快速发展的神经渲染技术,3DGS 不仅在三维重建与实时渲染等方向展现出卓越优势,也在更广泛的 AI 场景中具备潜在的基础价值。尤其是在具身智 能(Embodied AI)等需要智能体理解并与真实环境交互的前沿领域,高质量、低延迟的三维环境建模至关重要。3DGS 以其高保真场景显示、快速优化能力和轻 量级结构,为构建准确的世界模型提供了可靠支撑,有助于提升路径规划、环境感知和复杂操作任务的能力。随着 AI 技术向 "理解并操作真实世界" 方向不断延 展,3DGS 正逐渐成为具身智能训练场景中的关键基础技术之一。 正因其对未来图形学技术路线的关键意义,3DGS 已成为全球学术界与产 ...
VGGT4D:无需训练,挖掘3D基础模型潜力,实现4D动态场景重建
机器之心· 2025-12-17 02:05
如何让针对静态场景训练的 3D 基础模型(3D Foundation Models)在不增加训练成本的前提下,具备处理动态 4D 场景的能力? 来自香港科技大学(广州)与地平线 (Horizon Robotics) 的研究团队提出了 VGGT4D。该工作通过深入分析 Visual Geometry Transformer (VGGT) 的 内部机制,发现并利用了隐藏在注意力层中的运动线索。 作为一种无需训练 (Training-free) 的框架,VGGT4D 在动态物体分割、相机位姿估计及长序列 4D 重建等任务上均取得了优异性能。 论文标题: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction 研究背景 近年来,以 VGGT、DUSt3R 为代表的 3D 基础模型在静态场景重建中表现出色。然而,面对包含移动物体(如行人、车辆)的 动态 4D 场景 时,这些模 型的性能往往显著下降。动态物体的运动不仅干扰背景几何建模,还会导致严重的相机位姿漂移。 现有的解决方案通常面临两类挑战: VGG ...
上海创智学院菁智人才论坛 | 海内外顶尖青年人才召集令暨海优政策宣讲会
机器之心· 2025-12-17 02:05
上 海 创 智 学 院 菁智人才论坛 | 超凡资源开放生态 .5K75 暨海优政策宣讲会 理常规定动员 那的人才的表 身处人工智能领域前沿飞速迭代 您是否渴望有一个创新生态更开放 鼓励价值创造、计算、数据资源更充 足的平台? 上海创智学院渴望遇见不一样的您 给予您超凡资源和量身打造别样政策! 顶尖聪明,具备高速认知迭代能力、批判性思 维,与众不同的认知视角 高抱负、胆子大、敢于挑战,立志做改变世界的 工作 追求工作的实际影响,价值导向,超强动手能力 和执行力 敢于与学生共探前沿,寻找新"山头" 插新旗帜 上海创智学院菁智人才论坛诚邀全球顶尖青年人才 -- Super MVP, 共探创新启创之路。菁智人才论坛面向未来的创新力场,是跨越学科界 限的思想交锋平台。我们旨在通过高维度的学术研讨和深度人才洽谈, 联合破译人工智能的主知前边 智场已备,高地待发! 菁智所向,未来已来, 我们热忱期待您的加入,共创奇迹! Agenda 点相交路 剧科 举办时间: 预计于2025年12月26-27及2026年1月下旬 举办地点:上海创智学院 举办形式:线上线下相结合 What we need! >>>>>>>> 相请各件 海内 ...
浙大联手字节:开源大规模指令跟随视频编辑数据集OpenVE-3M
机器之心· 2025-12-17 00:00
本文的作者分别来自浙江大学和字节跳动。第一作者何昊阳是来自浙江大学的博士生,研究方向聚焦于视频生成与编辑。通讯作者为浙江大学谢磊教授。 亮点总结 论文标题: OpenVE-3M: A Large-Scale High-Quality Dataset for Instruction-Guided Video Editing 1. 作者提出了一个大规模、高质量、多类别的指令跟随的视频编辑数据集 OpenVE-3M,共包含 3M 样本对,分为空间对齐和非空间对齐 2 大类别共 8 小类 别。 2. 作者提出了稳定的高质量、多类别的指令跟随视频编辑数据构造管线,确保编辑质量的同时具有多样性,促进社区研究。 3. 作者提出了一个高效且有效的指令跟随视频编辑模型 OpenVE-Edit,仅 5B 的参数量实现了 SoTA 并超过了现有开源 14B 模型效果。 4. 作者提出了一个通用的、多类别且充满挑战的指令跟随视频编辑评测集,它从 3 个关键维度评估模型在各个类别上的性能并与人类评价高度对齐。 1. 研究动机 现有指令遵循的视频编辑数据集如 InsViE-1M、Senorita-2M、Ditto-1M 主要存在数据集规 ...
刚刚,OpenAI推出全新ChatGPT Images,奥特曼亮出腹肌搞宣传
机器之心· 2025-12-17 00:00
编辑|Panda 如果你刚刚打开 X 并且正好关注了 OpenAI 和山姆・奥特曼,那么你可能会看到这样的照片: 是的,确实有点辣眼睛。就连 OpenAI 官方号也忍不住吐槽 (其实是刷热度) :sam. 而在评论区,更是一片吐槽和调侃: 但不管怎么说,热度是有了。 实际上,山姆・奥特曼之所以发这样一张辣眼睛的图片,正是为 OpenAI 刚刚推出的全新 ChatGPT Images 造势。而且这也不是唯一一张基于奥特曼照片改的图。 OpenAI 官方号还专门单独特地发了一张这样的: 而且以身入局的 OpenAI 大佬还不止他一个。OpenAI 首席研究官 Mark Chen 和 OpenAI 总裁 Greg Brockman 都贡献了自己的照片。比如下面即是其官方博客分享的 修图对话记录: 新版 ChatGPT Images ChatGPT Images 的新版本由 OpenAI 全新的旗舰图像生成模型驱动。该公司表示:「现在,无论你是从零开始创作还是编辑照片,都能得到你脑海中构想的画面。 它能在进行精准编辑的同时保持细节完好,图像生成速度更是提升了 4 倍。」 其核心特性是: 精准编辑,保留关键细节 。 现 ...