机器之心 - filings, earnings calls, financial reports, news

机器之心

Search documents

机器之心· 2025-12-17 09:42

编辑｜陈萍、Panda 继 SAM（Segment Anything Model）、 SAM 3D 后，Meta 又有了新动作。深夜，Meta 放出音频分割模型 SAM Audio ，其通过多模态提示（无论是文本、视觉，还是标注时间片段），让人们能够轻松地从复杂的音频混合中分离出任意声音，从而彻底改变音频处理方式。 SAM Audio 的核心是 Perception Encoder Audiovisual（PE-AV），这是推动其实现业界领先性能的技术引擎。 PE-AV 基于 Meta 今年早些时候开源发布的 Perception Encoder 模型，能够支持更先进的计算机视觉系统，帮助人们完成日常任务，其中就包括声音检测。你可以把 PE-AV 想象成帮助 SAM Audio 运作的耳朵，而 SAM Audio 则是完成音频分割任务的大脑。这两者的结合带来了许多令人兴奋的应用场景。设想一下：一段乐队演出的录像，只需在画面中点击一下吉他，就能单独分离出吉他的声音。SAM Audio 还可以通过文本提示进行音频分离，比如从户外拍摄的视频中滤除嘈杂的交通噪声。此外，Meta 业内首创的时间跨度提示（s ...

Meta Platforms(US:META)

音频分割

多模态提示

Artificial Intelligence

Artificial Intelligence

SAM Audio

PE - AV

SAM Audio Judge

官宣！姚顺雨出任腾讯首席AI科学家，带队大语言模型、AI Infra

机器之心· 2025-12-17 09:42

机器之心编辑部不久之前，OpenAI 著名研究者、清华校友、著名博客《AI 下半场》的作者姚顺雨加入腾讯的消息传得沸沸扬扬，点燃了 AI 社区。（参见：姚顺雨离职 OpenAI，「亿元入职腾讯」传闻引爆 AI 圈，鹅厂辟谣了）今日，靴子落地。刚刚，机器之心获悉，腾讯升级大模型研发架构，新成立 AI Infra 部、AI Data 部、数据计算平台部，全面强化其大模型的研发体系与核心能力。一直未正式露面的姚顺雨（Vinces Yao）出任「CEO / 总裁办公室」首席 AI 科学家，向腾讯总裁刘炽平汇报；同时兼任 AI Infra 部、大语言模型部负责人，向技术工程事业群总裁卢山汇报。王迪继续担任大语言模型部副总经理，向姚顺雨汇报。刘煜宏担任 AI Data 部负责人、陈鹏担任数据计算平台部负责人，均向公司副总裁蒋杰汇报。姚顺雨是人工智能领域，特别是「智能体（Agent）」方向备受瞩目的青年研究者。在加入 OpenAI 之前，他就已经在语言智能体领域做出了一系列开创性的工作：此外，他还参与构建了著名软件工程基准 SWE-Bench 和模拟电子商务网站环境 WebShop，推动了 AI ...

TENCENT(HK:00700)

人工智能

智能体（Agent）

Artificial Intelligence

Artificial Intelligence

大语言模型

AI Infra

WAIC Future Tech 2026：全球科技曝光+合作，资本的下一个掘金点

机器之心· 2025-12-17 05:28

' . WNIC | 13:30-13:45 创投生态共建计划发布暨启动仪式 > | | --- | | 13:45-14:15 神秘嘉宾園桌 | | 14:15-17:20 Future Tech × 光源产业创新孵化器 | Demo Dav(14个项目) 在半天时间里,你可以集中遇见一批经过初步筛选的团队(主要集中于AI应用、基础设施、硬件及前沿科技领域,多为种子轮到A轮),感知最一线的创新温度。我们始终相信. 在那些真诚的交谈中,最可能遇见那个"对的人"。世界人工智能大学 CALL THE FUTURE 创新启航活动议程 FUTURE TECH Demo Dav 时间: 2025年12月20日 (周六) 13: 00 地点: 北京 ·清华科技园 · 阳光厅即刻报名,锁定名额 NIA 1 2 - 十日日日 | 十七日十十八十 NU.LL NO.13 万物皆可 CP 的 AI 小剧场@酷奇奇 KYMS AI，从人找人到智能体交付招聘结 N0.14 果＠快约面试 ( )))))>>> E N D <<<<<<< > AI助力全球优质矿产资源加速发现 NO.1 a 及云智句 | NO.Z | A ...

Artificial Intelligence

AI智能管家

悟灵影像

Artificial Intelligence

AI智能管家

悟灵影像

硬刚Sora2，万相2.6轻松定制角色、控制分镜，普通人也能当导演

机器之心· 2025-12-17 05:28

与此同时，商业落地的速度快得惊人：在 B 端，大量 AI 短剧、漫剧上线，制作成本大幅降低；在 C 端，社交平台上不仅有「粘土滤镜」这样的爆款特效，更有大量博主开始常态化使用 AI 制作剧情短片。然而，面对这些顶尖技术，普通用户的心情往往是「又爱又恨」。爱的是，各家 SOTA 模型生成的画面在光影质感与物理规律上已臻化境，甚至让人恍惚感叹「现实与虚拟的界限已然消失」；恨的是，体验的门槛依旧存在，要么是高不可攀的内测资格，要么是每月不菲的订阅账单。前段时间，惊喜降临。阿里千问 APP 接入了 Wan 2.5（万相 2.5），让我们感受到了移动端创作的自由与畅快，这种在手机上免费生成「有声视频」的体验，确实很香。在权威大模型评测集 LMArena 上，万相 2.5 的图生视频能力曾位居国内第一。编辑｜+0 2025 年即将画上句号，回望这一年的视频生成领域，用「突飞猛进」来形容毫不为过，甚至可以说，视频内容创作的范式正在悄然发生改变。 9 月，OpenAI 发布的 Sora 2 凭借「客串（Cameo）」功能，打破了困扰行业已久的「角色一致性」瓶颈，首创的「角色扮演功能」玩法让 AI 视频从充满不确 ...

经验记忆黑科技：LightSearcher让AI工具调用减39.6%、推理快48.6%

机器之心· 2025-12-17 05:28

这些问题导致现有模型要么答案不准、可靠性差，要么工具调用过多、效率低下，难以同时满足推理准确和高效执行的核心需求。如今，以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务，而DeepSearch 作为深度思考大模型的核心搜索器，在推理过程中通过迭代调用外部搜索工具，访问参数边界之外的最新、领域特定知识，从而提升推理的深度和事实可靠性。然而，现有的 RL 驱动的深度思考大模型系统常常面临准确率与效率的「跷跷板」困境：频繁调用搜索工具提升准确性，却带来计算开销和效率低下。具体而言，高频调用外部搜索工具虽能补充实时信息、提升推理准确率，但使得推理延迟大幅升高，等待时间可达几十秒至几分钟。从用户体验角度来看，若信息加载时间超过 10 秒，50% 的移动用户会放弃访问。北邮百家 AI 团队提出 LightSearcher 框架，首创基于经验记忆的高效 RL 优化技术，通过引入文本化经验记忆和自适应奖励塑造机制，巧妙解决了这一痛点。在保持与 SOTA 基线 ReSearch 相当准确率的同时，搜索工具调用和模型回复时间显著缩短，搜索工具调用次数减少 39.6%，推理时间缩 ...

经验记忆

深度思考大模型

Artificial Intelligence

Artificial Intelligence

LightSearcher

DeepSeek - R1

DeepSearch

SIGGRAPH Asia 2025：摩尔线程赢图形顶会3DGS挑战赛大奖，自研LiteGS全面开源

机器之心· 2025-12-17 05:28

机器之心发布 12 月 17 日，在香港举办的全球图形学领域备受瞩目的顶级学术盛会 SIGGRAPH Asia 2025 上，摩尔线程在 3D Gaussian Splatting Reconstruction Challenge（3DGS 重建挑战赛）中凭借自研技术 LiteGS 出色的算法实力和软硬件协同优化能力，斩获大赛银奖，再次证明摩尔线程在新一代图形渲染技术上的深度积累与学术界的高度认可。（ * 上图仅作示意）作为近年来快速发展的神经渲染技术，3DGS 不仅在三维重建与实时渲染等方向展现出卓越优势，也在更广泛的 AI 场景中具备潜在的基础价值。尤其是在具身智能（Embodied AI）等需要智能体理解并与真实环境交互的前沿领域，高质量、低延迟的三维环境建模至关重要。3DGS 以其高保真场景显示、快速优化能力和轻量级结构，为构建准确的世界模型提供了可靠支撑，有助于提升路径规划、环境感知和复杂操作任务的能力。随着 AI 技术向 "理解并操作真实世界" 方向不断延展，3DGS 正逐渐成为具身智能训练场景中的关键基础技术之一。正因其对未来图形学技术路线的关键意义，3DGS 已成为全球学术界与产 ...

VGGT4D：无需训练，挖掘3D基础模型潜力，实现4D动态场景重建

机器之心· 2025-12-17 02:05

如何让针对静态场景训练的 3D 基础模型（3D Foundation Models）在不增加训练成本的前提下，具备处理动态 4D 场景的能力？来自香港科技大学（广州）与地平线 (Horizon Robotics) 的研究团队提出了 VGGT4D。该工作通过深入分析 Visual Geometry Transformer (VGGT) 的内部机制，发现并利用了隐藏在注意力层中的运动线索。作为一种无需训练 (Training-free) 的框架，VGGT4D 在动态物体分割、相机位姿估计及长序列 4D 重建等任务上均取得了优异性能。论文标题: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction 研究背景近年来，以 VGGT、DUSt3R 为代表的 3D 基础模型在静态场景重建中表现出色。然而，面对包含移动物体（如行人、车辆）的动态 4D 场景时，这些模型的性能往往显著下降。动态物体的运动不仅干扰背景几何建模，还会导致严重的相机位姿漂移。现有的解决方案通常面临两类挑战： VGG ...

3D基础模型

4D动态场景重建

Artificial Intelligence

Artificial Intelligence

VGGT4D

VGGT

DUSt3R

上海创智学院菁智人才论坛 | 海内外顶尖青年人才召集令暨海优政策宣讲会

机器之心· 2025-12-17 02:05

上海创智学院菁智人才论坛 | 超凡资源开放生态 .5K75 暨海优政策宣讲会理常规定动员那的人才的表身处人工智能领域前沿飞速迭代您是否渴望有一个创新生态更开放鼓励价值创造、计算、数据资源更充足的平台? 上海创智学院渴望遇见不一样的您给予您超凡资源和量身打造别样政策! 顶尖聪明，具备高速认知迭代能力、批判性思维,与众不同的认知视角高抱负、胆子大、敢于挑战，立志做改变世界的工作追求工作的实际影响，价值导向，超强动手能力和执行力敢于与学生共探前沿,寻找新"山头" 插新旗帜上海创智学院菁智人才论坛诚邀全球顶尖青年人才 -- Super MVP, 共探创新启创之路。菁智人才论坛面向未来的创新力场，是跨越学科界限的思想交锋平台。我们旨在通过高维度的学术研讨和深度人才洽谈, 联合破译人工智能的主知前边智场已备,高地待发! 菁智所向，未来已来，我们热忱期待您的加入,共创奇迹! Agenda 点相交路剧科举办时间: 预计于2025年12月26-27及2026年1月下旬举办地点:上海创智学院举办形式:线上线下相结合 What we need! >>>>>>>> 相请各件海内 ...

浙大联手字节：开源大规模指令跟随视频编辑数据集OpenVE-3M

机器之心· 2025-12-17 00:00

本文的作者分别来自浙江大学和字节跳动。第一作者何昊阳是来自浙江大学的博士生，研究方向聚焦于视频生成与编辑。通讯作者为浙江大学谢磊教授。亮点总结论文标题： OpenVE-3M: A Large-Scale High-Quality Dataset for Instruction-Guided Video Editing 1. 作者提出了一个大规模、高质量、多类别的指令跟随的视频编辑数据集 OpenVE-3M，共包含 3M 样本对，分为空间对齐和非空间对齐 2 大类别共 8 小类别。 2. 作者提出了稳定的高质量、多类别的指令跟随视频编辑数据构造管线，确保编辑质量的同时具有多样性，促进社区研究。 3. 作者提出了一个高效且有效的指令跟随视频编辑模型 OpenVE-Edit，仅 5B 的参数量实现了 SoTA 并超过了现有开源 14B 模型效果。 4. 作者提出了一个通用的、多类别且充满挑战的指令跟随视频编辑评测集，它从 3 个关键维度评估模型在各个类别上的性能并与人类评价高度对齐。 1. 研究动机现有指令遵循的视频编辑数据集如 InsViE-1M、Senorita-2M、Ditto-1M 主要存在数据集规 ...

刚刚，OpenAI推出全新ChatGPT Images，奥特曼亮出腹肌搞宣传

机器之心· 2025-12-17 00:00

编辑｜Panda 如果你刚刚打开 X 并且正好关注了 OpenAI 和山姆・奥特曼，那么你可能会看到这样的照片：是的，确实有点辣眼睛。就连 OpenAI 官方号也忍不住吐槽（其实是刷热度）：sam. 而在评论区，更是一片吐槽和调侃：但不管怎么说，热度是有了。实际上，山姆・奥特曼之所以发这样一张辣眼睛的图片，正是为 OpenAI 刚刚推出的全新 ChatGPT Images 造势。而且这也不是唯一一张基于奥特曼照片改的图。 OpenAI 官方号还专门单独特地发了一张这样的：而且以身入局的 OpenAI 大佬还不止他一个。OpenAI 首席研究官 Mark Chen 和 OpenAI 总裁 Greg Brockman 都贡献了自己的照片。比如下面即是其官方博客分享的修图对话记录：新版 ChatGPT Images ChatGPT Images 的新版本由 OpenAI 全新的旗舰图像生成模型驱动。该公司表示：「现在，无论你是从零开始创作还是编辑照片，都能得到你脑海中构想的画面。它能在进行精准编辑的同时保持细节完好，图像生成速度更是提升了 4 倍。」其核心特性是：精准编辑，保留关键细节。现 ...

图像生成

Artificial Intelligence

ChatGPT Images

GPT Image 1.5

图像生成

Artificial Intelligence

ChatGPT Images

GPT Image 1.5

Previous Next