机器之心 - filings, earnings calls, financial reports, news

机器之心

Search documents

2025诺贝尔物理学奖花落宏观量子隧穿：他们在实验中「造出」了薛定谔的猫

机器之心· 2025-10-07 10:53

机器之心报道机器之心编辑部刚刚，本年度的诺贝尔物理学奖得主正式揭晓：美国加州大学 John Clarke 、美国耶鲁大学 Michel H. Devoret 、美国加州大学 John M. Martinis 。获奖理由是「发现电路中的宏观量子力学隧穿和能量量子化」。具体来说，这三位诺贝尔奖得主通过一系列实验证明，量子世界的奇异特性可以在一个大到可以握在手中的系统中具体化。他们的超导电子系统可以从一种状态隧穿到另一种状态，就像直接穿过一堵墙一样。他们还证明，该系统能够吸收和释放特定大小的能量，正如量子力学所预测的那样。诺贝尔奖颁奖机构在一份声明中表示：「今年的诺贝尔物理学奖为开发下一代量子技术提供了机会，包括量子密码学、量子计算机和量子传感器。」而 John Clarke 在发布会上回答记者问时表示，得知自己获得该奖项时「完全震惊了。」「我们根本没有意识到这可能成为诺贝尔奖的基础」，John Clarke 在谈到他们 20 世纪 80 年代在加州大学伯克利分校进行的研究时说道。一系列开创性的实验量子力学描述的是单个粒子尺度上的重要特性。在量子物理学中，这些现象被称为微观现象，它们甚至比光学 ...

DeepMind发布代码修复AI智能体CodeMender，实现「被动响应」与「主动防御」一体化

机器之心· 2025-10-07 07:00

近日， DeepMind 最新推出了一种全新的用于代码安全的 AI Agent—CodeMender ，它使用 Gemini Deep Think 自动修补关键软件漏洞。它会检查补丁是否正确、是否能够修复根本原因，并且不会引起其他任何破坏。这确保只有高质量的解决方案才会被发送给人工审核。具体来看，CodeMender 通过一种全面的代码安全方法来帮助解决软件漏洞问题，实现「被动响应」与「主动防御」并重：既能立即修补新的漏洞，也能重写和保护现有代码，并在此过程中消除所有类型的系统性漏洞。机器之心报道机器之心编辑部众所周知，开发者「苦软件漏洞久已」，即使使用模糊测试等传统的自动化方法，也难以发现和将其修复，且耗时耗力。而在 AI 大行其道的当下，用 AI 来修复关键软件漏洞技术与产品也开始涌现，那么，如何才能使得 AI 修复安全代码是值得信任的，答案在于「通过严格的验证」。另一位网友则认为，CodeMender 的出现将把 QA、安全审计、漏洞赏金的收入都「吃光」。而据媒体报道，谷歌最近刚刚正式启动了一项专门针对 AI 产品漏洞的奖励计划。而自从谷歌两年前正式邀请 AI 研究人员排查产品 A ...

AI修复软件漏洞

Artificial Intelligence

CodeMender

Gemini Deep Think

AI修复软件漏洞

Artificial Intelligence

CodeMender

Gemini Deep Think

田渊栋与Russell团队联手，证明Transformer能在训练中自然学会叠加推理

机器之心· 2025-10-07 03:57

机器之心报道编辑：Panda 对于大型语言模型而言，生成更长、更复杂的推理链，往往意味着巨大的计算成本。为了解决这一难题，田渊栋团队在 2024 年提出的「连续思维链」 (Coconut) 提供了一种全新的范式，它将推理轨迹保留在连续的隐空间中，而非离散的文字符号。现在，他们与 Stuart Russell 团队的最新合作研究则从理论上回答了一个核心问题：这种高效的推理范式是如何在训练中自发产生的？答案指向了一种关键机制——叠加的涌现大型语言模型（LLM）在许多复杂任务上展现出了强大的推理能力，尤其是在引入思维链（CoT）之后。然而，长思维链在复杂任务中的推理成本极高，因此，近期有不少研究在尝试寻找更高效的测试时扩展方法，以期望更高效地提升模型的推理能力。一种前景较为可观的方法是田渊栋团队在 2024 年提出的「连续思维链」（Chain-of-Continuous-Thought，简称 Coconut）。与传统的 CoT 不同，连续思维链是将模型的推理轨迹保存在连续隐空间中，而非回投到离散的 token 空间。这种做法不仅在理论上具有多项优势，在实验中也带来了显著性能提升。参阅我们之前的报道 ...

清华、NVIDIA、斯坦福提出DiffusionNFT：基于前向过程的扩散强化学习新范式，训练效率提升25倍

机器之心· 2025-10-07 00:14

清华大学朱军教授团队， NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习（RL）范式 —— Diffusion Negative-aware FineTuning (DiffusionNFT) 。该方法首次突破现有 RL 对扩散模型的基本假设，直接在前向加噪过程（forward process）上进行优化，在彻底摆脱似然估计与特定采样器依赖的同时，显著提升了训练效率与生成质量。文章共同一作郑凯文和陈华玉为清华大学计算机系博士生。近年来，强化学习在大语言模型（LLMs）后训练中的巨大成功，催生了人们将类似方法迁移到扩散模型的探索。例如，FlowGRPO 等方法通过将扩散采样过程离散化为多步决策问题，从而在反向过程上应用策略梯度优化。然而，这一思路存在多重根本性局限：论文标题：DiffusionNFT: Online Diffusion Reinforcement with Forward Process 论文链接：https://arxiv.org/abs/2509.16117 代码仓库：https://github ...

扩散模型强化学习

负例感知 + 前向一致性

Artificial Intelligence

DiffusionNFT

扩散模型强化学习

负例感知 + 前向一致性

Artificial Intelligence

DiffusionNFT

刚刚，OpenAI开发者大会重磅发布：AgentKit、Codex正式版、Apps SDK与Sora 2 API

机器之心· 2025-10-07 00:14

机器之心报道编辑：Panda OpenAI 今年的开发者大会（OpenAI DevDay 2025）正在进行中。 Keynote 一开场，山姆・奥特曼便分享了 OpenAI 这两年取得的成绩： 4 0 0 万开发者、 8 亿周活 ChatGPT 用户、API 每分钟 60 亿 token 消耗量。更重要的是，OpenAI 在今年的开发者大会上可真是发布了不少东西，简单总结起来包括：AgentKit、Codex 正式版、ChatGPT 内置应用与 Apps SDK、gpt-realtime- mini、gpt-image-1-mini、Sora 2 API、GPT-5 pro API。下面具体来看看这些新模型和新工具。 OpenAI 为 AgentKit 设计了一些全新的模块化组件，可助力用户更快地开发智能体，包括 Agent Builder、Connector Registry 和 ChatKit。 Agent Builder AgentKit 首先，最引人瞩目的便是： AgentKit 。 AgentKit 是一套面向开发者和企业的完整工具集，可用于构建、部署和优化智能体（agent）。这让 ...

智能体

多模态语言模型

Artificial Intelligence

Artificial Intelligence

AgentKit

Codex

ChatGPT

EMNLP 2025 | CARE：无需外部工具，让大模型原生检索增强推理实现上下文高保真

机器之心· 2025-10-06 04:00

近日，来自 MetaGPT、蒙特利尔大学和 Mila 研究所、麦吉尔大学、耶鲁大学等机构的研究团队发布 CARE 框架，一个新颖的原生检索增强推理框架，教会 LLM 将推理过程中的上下文事实与模型自身的检索能力有机结合起来。该框架现已全面开源，包括训练数据集、训练代码、模型 checkpoints 和评估代码，为社区提供一套完整的、可复现工作。项目主页：https://foundationagents.github.io/CARE 论文地址：https://arxiv.org/abs/2509.13683 https://huggingface.co/collections/sheryc/care-datasets-emnlp-2025-68be35242afab58f4bed7d97 https://huggingface.co/collections/sheryc/care-checkpoints-emnlp-2025-68be35dbd732816c9d98f258 研究背景从"外部搜索"到"原生检索"的转变 1、现有方法的困境开源代码：https://github.com/Founda ...

原生检索增强推理

Artificial Intelligence

CARE框架

原生检索增强推理

Artificial Intelligence

CARE框架

多个编码智能体同时使用会不会混乱？海外开发者热议

机器之心· 2025-10-06 04:00

Core Insights - The rapid advancement of AI programming tools is transforming the coding landscape, with models like GPT-5 and Gemini 2.5 enabling a degree of automation in development tasks [1][2] - The adoption of AI coding agents has become a norm not only for programmers but also for professionals in product and design roles, leading to an increasing proportion of AI-generated code [3] - Despite the benefits, challenges remain regarding code quality and analysis efficiency, prompting developers to explore the use of multiple AI agents in parallel [3][5] Summary by Sections - **Parallel Coding Agent Lifestyle**: Simon Willison initially had reservations about using multiple AI agents due to concerns over code review bottlenecks. However, he has since embraced this approach, finding it manageable to run multiple small tasks without overwhelming cognitive load [5][6] - **Task Categories for Parallel Agents**: - **Research Tasks**: AI agents can assist in answering questions or providing suggestions without modifying core project code, facilitating rapid prototyping and validation of concepts [7][9] - **System Mechanism Recall**: Modern AI models can quickly provide detailed, actionable answers about system functionalities, aiding in understanding complex codebases [10][11] - **Small Maintenance Tasks**: Low-risk code modifications, such as addressing deprecation warnings, can be delegated to AI agents, allowing developers to focus on primary tasks [13][14] - **Precisely Specified Work**: Reviewing code generated from detailed specifications is less burdensome, as the focus shifts to verifying compliance with established requirements [15] - **Current Usage Patterns**: Willison's primary tools include Claude Code, Codex CLI, and Codex Cloud, among others. He often runs multiple instances in different terminal windows, executing tasks in a YOLO (You Only Live Once) manner for manageable risks [16][19] - **Developer Community Response**: The blog post has garnered significant attention, resonating with current pain points in coding workflows. Many developers are experimenting with parallel AI agents, with some reporting that a substantial portion of their coding work is AI-assisted [21][22] - **Concerns and Discussions**: While some developers express apprehension about the unpredictability of AI-generated code, others, including Willison, advocate for the benefits of parallel agent usage, particularly for non-code-committing research tasks [26][29]

苹果再发论文：精准定位LLM幻觉，GPT-5、o3都办不到

机器之心· 2025-10-06 04:00

机器之心报道机器之心编辑部苹果这几天真是进入了论文高产期，时不时就有新的研究发布出来。就在近日，苹果又发布了一篇引发学界与业界关注的重磅论文。这篇论文非常有意思，它用强化学习训练模型，让模型能够准确标出答案中哪些部分是幻觉（hallucinated）。其核心突破在于：模型不再只是笼统地提示有错误，而是能直接指出具体哪一段文字是错误的。这对于需要修改输出或进行事实审查的用户来说，大大节省了时间。论文提出的方法名为 RL4HS，它使用了片段级奖励（span-level rewards）和类别感知的 GRPO（Class-Aware Group Relative Policy Optimization），从而避免模型偷懒、只输出无错误预测。该方法在片段级幻觉检测任务上，甚至超过了 GPT-5 和 o3。总体而言，片段级奖励 + 类别平衡机制让模型真正学会了核查依据并精确指出错误内容，这是让大语言模型更可靠、更可审计的重要一步。来源： https://x.com/rohanpaul_ai/status/1974652007068967315 接下来我们看看论文内容。论文摘要部分，作者表示大语言 ...

开源仅一周，鹅厂文生图大模型强势登顶，击败谷歌Nano-Banana

机器之心· 2025-10-05 06:42

机器之心报道编辑：杜伟、陈陈一夜之间，文生图领域的「王座」被国产大模型拿下！主角是腾讯混元团队发布并开源仅一周的原生多模态生图模型 —— 混元图像 3.0（HunyuanImage 3.0）。在国际权威 AI 模型评测榜单 LMArena 上，HunyuanImage 3.0 一举超越了谷歌风头无两的 Nano-Banana 以及字节的 Seedream 4.0，位列文生图（Text-to-Image）综下图为 LMArena 文生图完整（Overall）榜单：合榜单和开源榜单第一。 | Overview | Text Text-to-Image Image Edit Search Text-to-Video | WebDev Vision | | | | Image-to-Video | Copilot | Start Voting | | --- | --- | --- | --- | --- | --- | --- | --- | --- | | Text-to-Image Arena | Last Updated | | | | | Total Votes | | Total Model ...

从「知题」到「知人」：UserRL让智能体学会「以人为本」

机器之心· 2025-10-05 06:42

"知人者智，自知者明。"——《道德经》古人早已洞见：真正的人类智慧，不仅仅在于公式推演、掌握技艺，更是能理解他人、洞察人心。今天的大语言模型已能在代码、数学与工具使用上出色地完成任务，然而距离成为真正的用户伙伴，它们依旧缺少那份 "知人" 的能力。这主要源于现实交互远比解题更加复杂：这正是智能体面临的下一个时代课题：从 "会解题" 迈向 "懂用户" 。而要真正回答这一课题，我们需要全新的动态评测框架与训练机制：不仅能测量模型在交互中的表现，还能驱动其学会在用户不确定与多目标的世界里，问之有道，断之有衡，答之有据。为此，来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方案：二者相辅相成，把 "以用户为中心" 从理念落地为可复现的流程、接口与评测指标。 UserBench 论文链接：https://arxiv.org/pdf/2507.22034 UserBench 代码仓库：https://github.com/SalesforceAIResearch/UserBench 现实交互中，用户目标常常未在最初完全成形（underspecification）、而是 ...