机器之心

Search documents
CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
机器之心· 2025-06-15 04:40
本文第一作者为中国科学院大学的博士生陈若愚,主要研究可解释 AI 以及在训练推理中的落地应用。第二作者为新加坡国立大学的梁思源,主要研究可信 AI。 主要合作者来自华为技术有限公司的刘势明和李茂森。通讯作者为中山大学的操晓春教授和中科院的张华研究员。 AI 决策的 可靠性与安全性 是其实际部署的核心挑战。当前智能体广泛依赖复杂的机器学习模型进行决策,但由于模型缺乏透明性,其决策过程往往难以被理解与 验证,尤其在关键场景中,错误决策可能带来严重后果。因此,提升模型的可解释性成为迫切需求。 目前已有的解释方法,如 Shapley Value、Integrated Gradients、Attention、Gradient(如 Grad-CAM)以及 Perturbation 等,虽然在小规模模型中取得了较好的解释效 果,但在面对多模态任务或大规模模型时,均存在不同程度的局限性,难以直接扩展或适用。因此, 发展一种在大模型与小模型中均具有良好适应性的高效可解 释归因方法具有重要意义 。 近期,中国科学院、新加坡国立大学、华为技术有限公司与中山大学的联合研究在多模态物体级基础模型的可解释归因技术方面取得了重要突破, 不 ...
AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
机器之心· 2025-06-15 04:40
在进入本文之前,我们先来玩个 10 秒小游戏: 1. 在心里选一个 「 1-10 」 的整数。 2. 现在设想我问:「你想的是 5 吗?」 3. 如果听到是自己的数字,你会本能地答 Yes ,其余统统 No 。 这件小事背后其实考验的是你大脑的 工作记忆 —— 保持一个念头、随时对比外部问题并作出一致回应。 图 1: 当 ChatGPT 告诉我们他心中已经想好一个数字,并回答该数字不是 4 。我们要如何判断 ChatGPT 是否在说谎? 同样的小游戏,大模型会如何反应呢?它们是否真的能做到像人类一样,不输出但在心中想好一个数字?我们又如何检验? 最近,来自约翰・霍普金斯大学与中国人民大学的团队设计了三套实验,专门把关键线索藏在上下文之外,逼模型 「 凭记忆 」 作答,从而检验它们是否真的在 脑海里保留了信息。 论文标题:LLMs Do Not Have Human-Like Working Memory 论文链接:https://arxiv.org/abs/2505.10571 作者:Jen-Tse Huang(黃任澤)、 Kaiser Sun、 Wenxuan Wang、 Mark Dredze 什么是工作 ...
首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能
机器之心· 2025-06-14 12:45
想象一下:你正在浏览社交媒体,看到一张震撼的图片或一段令人震撼的视频。它栩栩如生,细节丰富,让你不禁信以为真。但它究竟是真实记录,还是由顶尖 AI 精心炮制的「杰作」?如果一个 AI 工具告诉你这是「假的」,它能进一步解释理由吗?它能清晰指出图像中不合常理的光影,或是视频里一闪而过的时序破 绽吗? 这种「真假难辨」且「知其然不知其所以然」的困境,正是当前 AIGC 时代我们面临的严峻挑战。随着 AI 生成的内容越来越逼真 ,传统的「黑箱式」检测工具 已难以满足我们对透明度和可信度的需求 。我们迫切需要能够同时处理图像和视频、并且能给出「诊断报告」的智能检测系统。正因如此,这篇论文提出了 「IVY-FAKE:一个统一的可解释性图像与视频 AIGC 检测框架与基准」 ,目标是让 AI 不仅能识别「李逵」与「李鬼」,更能清楚解释:是哪些具体的视觉伪影 (空间或时间上的),暴露了内容的「AI 基因」。 该工作由 π 3 AI Lab, 武汉大学,南京大学,斯坦福大学机构的多位研究人员合作完成。 论文标题:IVY-FAKE: A Unified Explainable Framework and Benchmark f ...
通用 Agent 之外,Agentic Age 流量赛还有哪些「隐藏副本」?
机器之心· 2025-06-14 12:45
1. 通用 Agent 之外,Agentic Age 流量赛还有哪些「隐藏副本」? Agentic AI 的「流量入口」逻辑,与传统互联网时代有何根本不同?有哪些产品被视为当前最值得争夺的战略高地,而又是谁 在主导这些战略入口?在「流量入口即生态」的新范式下,各主力玩家如何划定阵地?有哪些路线分歧? 2. 烧钱一年,李飞飞的「空间智能」愿景有变化吗? 机器之心PRO · 会员通讯 Week 24 --- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- ① AI 助手可以跨平台自主执行任务,绕过传统平台的注意力分发模式。过去的互联网时代,用户获取信息和服务 的入口主要集中在搜索引擎、社交平台、门户网站等传统节点。用户主动搜索或点击链接,即可获得所需内容。 World Labs 的愿景有变化吗?AI 技术如何「反直觉」发展?为什么没有空间智能的 AI 是不完整的?空间智能如何解锁从「单 一现实」到「多元宇宙」的未来?为什么李飞飞没有更早重视 3D 表征? ... 本期完整版通讯含 2 项专题解读 + 31 项 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 ...
多智能体在「燃烧」Token!Anthropic公开发现的一切
机器之心· 2025-06-14 04:12
机器之心报道 机器之心编辑部 研究多智能体必读指南。 「Anthropic 发布了他们如何使用多个 Claude AI 智能体构建多智能体研究系统的精彩解释。对于任何构建多智能体系统的人来说,这是一本必读的指南。」刚 刚,X 知名博主 Rohan Paul 强力推荐了 Anthropic 一项新研究。 最近一段时间,关于智能体的研究层出不穷。但这也为广大研究者带来一些困惑,比如什么任务需要多智能体?多个 AI 智能体如何协作?怎么解决上下文和记忆 问题…… 面对这些问题,你不妨读读 Anthropic 的这篇文章,或许能找到答案。 文章地址:https://www.anthropic.com/engineering/built-multi-agent-research-system 多智能体系统的优势 有些研究涉及开放式问题,这类问题往往难以预先确定所需的步骤。对于复杂问题的探索,人类无法硬性规定固定路径,因为这一过程本质上是动态且具有路径 依赖性的。当人们开展研究时,通常会根据发现持续调整方法,沿着调查过程中浮现的线索不断推进。 这种不可预测性使得 AI 智能体特别适合执行研究类任务。研究工作要求具备灵活性 ...
单卡4090也能高质量视频编辑!西湖AGI Lab无训练框架FlowDirector来了
机器之心· 2025-06-14 04:12
第一作者是来自中南大学软件工程的本科生李光照,通讯作者为来自西湖大学 AGI 实验室的助理教授张驰。本文工作是李光照在西湖大学 AGI 实验室访问时完 成。 视频的生成与编辑往往有着较高的门槛,新手往往会被视频工作中各种复杂的工作流劝退。随着人工智能技术的发展,AIGC 视频编辑简化了这种复杂的工作流 程,只需在输入框里敲下一句自然语言,就能让原视频在几分钟内蜕变成全新画面。然而,当前的视频编辑方法通常采用非常复杂的策略来维持编辑前后无关的 事物保持一致,这带来了很多不必要的开销,尤其是计算资源的消耗,且仍会对无关区域造成严重的干扰,同时也会抑制主体对象的编辑效果,使得产生用户难 以接受的效果。 为解决上述困境,西湖大学 AGI Lab 团队提出了 FlowDirector:一种全新的无需训练的视频编辑框架 。FlowDirector 在视频 "流匹配"(Flow Matching)范式下进 行,可以将任意基于流的视频生成模型改造成有效的视频编辑工具,而无需任何的重新训练。相较于其他视频编辑方法,FlowDirector: 1. 质量更高:FlowDirector 可以进行更加彻底的对象编辑,允许产生大幅度形 ...
LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
机器之心· 2025-06-14 04:12
机器之心报道 编辑:Panda 近段时间,关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。 本月初我们就曾梳理报道了一些,包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机(DGM)」、CMU 的「自我奖励训练(SRT)」、上海 交通大学等机构提出的多模态大模型的持续自我改进框架「MM-UPT」、香港中文大学联合 vivo 等机构的自改进框架「UI-Genie」,参阅文章《 LSTM 之父 22 年 前构想将成真?一周内 AI「自我进化」论文集中发布,新趋势涌现? 》 那之后,相关研究依然还在不断涌现,以下拼图展示了一些例子: 而前些天,OpenAI CEO、著名 大 v 山姆・奥特曼在其博客《 温和的奇点(The Gentle Singularity) 》中更是畅想了一个 AI/智能机器人实现自我改进后的未 来。他写道:「我们必须以传统的方式制造出第一批百万数量级的人形机器人,但之后它们能够操作整个供应链来制造更多机器人,而这些机器人又可以建造更 多的芯片制造设施、数据中心等等。」 不久之后,就有 用户 @VraserX 爆料称有 OpenAI 内部人士表示,该公司 ...
刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
机器之心· 2025-06-13 15:45
机器之心报道 机器之心编辑部 刚刚,在美国田纳西州纳什维尔举办的 CVPR 2025 公布了最佳论文等奖项。 今年共有 14 篇论文入围最佳论文评选,最终 5 篇论文摘得奖项 ,包括 1 篇最佳论文 、 4 篇最佳论文荣誉提名 。此外,大会还颁发了 1 篇最佳学生论文 、 1 篇最 佳学生论文荣誉提名 。 根据会方统计,今年大会共收到 4 万多名作者提交的 13008 份论文。相比去年(11532),今年的投稿数量增长了 13%,最终有 2872 篇论文被接收,整体接收率 约为 22.1%。在接收论文中,Oral 的数量是 96(3.3%),Highlights 的数量是 387(13.7%)。 计算机视觉技术的火热给大会审稿带来了空前的压力。本届投稿作者数量、论文评审者和领域主席(AC)数量均创下新高。 今年前来现场参会的学者也超过 9000 人,他们来自 70 余个国家和地区。 CVPR 官方公布了各个细分领域的论文接收情况,如下图所示。可以看到,图像与视频生成领域今年度的论文接收数量最多,而接收率最高的领域则是基于多视角 和传感器的 3D 以及基于单图像的 3D。 此次,最佳论文奖委员会成员中有 AI ...
ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
机器之心· 2025-06-13 15:45
该工作第一作者为蚂蚁技术研究院副研究员胡翔,蚂蚁技术研究院高级研究员武威为通讯作者。 在大语言模型如火如荼的当下,长文本建模仍然是一个极具挑战的问题。纠其根源,一方面在于主流 LLMs 的架构 Transformers 中平方复杂度及随序列长度线性增 长的推理阶段显存开销;另一方面在于 full-attention 有限的外推能力,难以泛化到远超预训练阶段长度的输入。 而高效处理长上下文能力,除了简单的工业界降本增效的需求外,还涉及通用人工智能 (AGI) 的核心问题:具有永久记忆的智能体。如果将人类从出生开始接收 到的信息视作长上下文,人类拥有记忆无非是访问这些上下文。因此记忆可以看作是超长上下文访问能力,而拥有与用户所有对话记忆的智能体,很可能为大语 言模型公司构建数据护城河 (事实上,OpenAI 已经开放了类似能力)。 近日,蚂蚁的研究团队为这个问题带来了一个新思路。就像人类开卷考试只会挑和当前问题相关的关键页作为参考,语言模型也可以只关注与当前上下文相关的 过去片段。以此为出发点,他们提出一种 基于因果检索的注意力机制 GCA (Grouped Cross Attention),完全端到端地学习如何 ...
烧钱一年,李飞飞的「空间智能」愿景有变化吗?
机器之心· 2025-06-13 12:02
01. 创业一年后,李飞飞如何阐述 World Labs 的愿景? 成立一年的World Labs 发布过什么进展?World Labs 的愿景有变化吗?空间智能终于有望解锁了?... 02 . 为什么没有空间智能的 AI 是不完整的? 本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 在近期由 a16z 普通合伙人 Erik Torenberg 主持的一场访谈中,李飞飞和 World Labs 早期投资者 Martin Casado 围绕「世界模型」和「空间智能」的话题探讨了她对 AI 技术的理解,并在创业 项目 启动一年后重新 介绍了 World Labs 的任务和愿景。 目录 2、李飞飞指出当前语言模型在描述和理解三维物理世界方面存在明显的局限性,空间智能则超越语言模型成 为智能的关键组件,是世界模型理解、重建和生成物理世界的核心能力。 ① 语言虽然是思想和信息的强大编码,但对 3D 物理世界而言是「有损的编码方式」,无法有效描述和操作三 维空间。而空间智能代表着更为古老和根本的智能形式,是 AI 的关键组成部分。 3、在这一认知框架下,World Labs 试图构建能理解 ...