Workflow
机器之心
icon
Search documents
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
机器之心· 2025-06-04 09:22
智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。 近期,普林斯顿大学 AI Lab 推出了 Alita ——一个秉持「 极简即是极致复杂 」哲学的通用智能体,通过「 最小化预定义 」与「 最大化自我进化 」的设 计范式,让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。 Alita 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩,一举超越 OpenAI Deep Research 和 Manus 等知名智 能体,成为通用智能体新标杆。Alita 在 GAIA test 上也达到了 72.43% pass@1 的成绩。 极简架构设计,最大自我进化 「让智能体自主创造 MCP 工具而不靠人工预设」,是 Alita 的核心设计理念。 现有的主流智能体系统通常依赖大量人工预定义的工具和复杂的工作流,这种方法有三个关键缺陷: 覆盖范围有限 : 通用智能体面临的现实任务种类繁多,预先定义好所有可能需要的工具既不可行亦不现实。而且预定义工具很容易过拟合 GAI ...
看似无害的提问,也能偷走RAG系统的记忆——IKEA:隐蔽高效的数据提取攻击新范式
机器之心· 2025-06-04 09:22
本文作者分别来自新加坡国立大学、北京大学与清华大学。第一作者王宇豪与共同第一作者屈文杰来自新加坡国立大学,研究方向聚焦于大语言模型中的安 全与隐私风险。共同通讯作者为北京大学翟胜方博士,指导教师为新加坡国立大学张嘉恒助理教授。 本研究聚焦于当前广泛应用的 RAG (Retrieval-Augmented Generation) 系统,提出了一种全新的黑盒攻击方法: 隐式知识提取攻击 (IKEA) 。不同于以 往依赖提示注入 (Prompt Injection) 或越狱操作 (Jailbreak) 的 RAG 提取攻击手段, IKEA 不依赖任何异常指令,完全通过自然、常规的查询,即可高效 引导系统暴露其知识库中的私有信息。 在基于多个真实数据集与真实防御场景下的评估中,IKEA 展现出超过 91% 的提取效率与 96% 的攻击成功率,远超现有攻击基线;此外,本文通过多项 实验证实了隐式提取的 RAG 数据的有效性。本研究揭示了 RAG 系统在表面「无异常」交互下潜在的严重隐私风险。 论文题目:Silent Leaks: Implicit Knowledge Extraction Attack on RAG S ...
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
机器之心· 2025-06-04 04:41
机器之心发布 机器之心编辑部 想训练属于自己的高性能推理模型,却被同步强化学习(RL)框架的低效率和高门槛劝退?AReaL 全面升级,更快,更强,更好用! 来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— AReaL- boba² (AR eaL v0.3) 。 作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 " 全面开源、极速训练、深度可定制 " 的开发理 念,再次加量:除了更全的功能和更详细的文档说明,更以全异步 RL 为核心,发布 SOTA 代码模型,全面奔向 Agentic RL: 异步强化学习(Asynchronous RL)是一种重要的 RL 范式,它将数据生成与模型训练完全解耦,以不间断的流式生成和并行训练,极大提高了资源使用率,天然 适用于多轮次交互的 Agent 场景。 AReaL-boba² 通过 强化学习算法和训练系统的共同设计(co-design) ,在完全不影响模型效果的同时,实现了稳定高效的异步 RL 训练,不断朝全面支持 Agen ...
最新发现!每参数3.6比特,语言模型最多能记住这么多
机器之心· 2025-06-04 04:41
GPT 系列模型的记忆容量约为每个参数 3.6 比特。 语言模型到底能记住多少信息?Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示: 每个 参数大 约 3.6 比特 。一旦达到这个极限,它们就会停止记忆 并开始泛化。 长期以来,记忆与泛化之间的模糊性一直困扰着对模型能力和风险的评估,即区分其输出究竟源于对训练数据的「记忆」 (对其训练数据分布的编码程度) ,还 是对潜在模式的「泛化」理解 (将理解扩展到未见过的新输入)。 这种不确定性阻碍了在模型训练、安全、可靠性和关键应用部署方面的针对性改进。 机器之心报道 编辑:+0、张倩 这就好比我们想知道一个学生考试得了高分,是因为他真的理解了知识点(泛化),能够举一反三,还是仅仅因为他把教科书上的例题和答案都背下来了(记 忆)。 基于此,研究团队提出了一种新方法,用于估计一个模型对某个数据点的「了解」程度,并利用该方法来衡量现代语言模型的容量。 研究团队从形式上将记忆分为两个组成部分: 通过消除泛化部分,可以计算出给定模型的总记忆量,从而估计出模型容量:测量结果估计, GPT 系列模型的容量约为每个参数 3.6 比特 。 研究团队训练了数百个参数量 ...
英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
机器之心· 2025-06-04 04:41
强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理 技能吗,还是只是提高了已有知识的调用效率? 过去的研究多数持悲观态度:认为 RL 带来的收益非常有限,有时甚至会让模型「同质化」加重,失去多样性。然而,来自英伟达的这项研究指出,造成这 一现象的根本原因在于:数学、编程等任务在 base model 的训练数据中被过度呈现,以及 RL 训练步数不足。 论文题目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models 链接:https://arxiv.org/pdf/2505.24864 ProRL 来了!长期训练 = 推理能力质变! 由 NVIDIA 团队提出的 ProRL(Prolonged Reinforcement Learning)框架,将 RL 训练步数从传统的几百步大幅提升至 2000 步以上,释放了小模型潜 藏的巨大潜力。结果令人震惊: KL 正则化 + 周期性策略重置 这一突 ...
Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
机器之心· 2025-06-04 01:59
本文第一作者为刘启昊,约翰霍普金斯大学计算机科学博士四年级学生,师从 Alan Yuille 教授,研究方向涉及模型鲁棒性、生成模型与 3D 视觉。通讯作者为 Mannat Singh,Meta GenAI 研究员,近期的研究主要涉及视频生成领域创新工作,包括 Emu Video、MovieGen 等项目。 核心创新:从 "噪声到数据" 到 "模态到模态" 基于 Diffusion 或者流匹配的生成模型通常从高斯噪声出发,通过逐步去噪或优化路径生成目标数据。然而,对于噪声的依赖限制了这类算法的灵活性和潜能。 近期,不少工作在探索如何摆脱对噪声的依赖,比如使用基于薛定谔桥的生成模型。然而这些算法往往很复杂,并且依旧局限于相似模态之间的生成(比如人类 转猫脸等)。 而 CrossFlow 则深入分析了流匹配,并基于流匹配提出了一种非常简单跨模态生成新范式,可以直接在模态间进行映射,无需依赖噪声分布或额外条件机制。例 如,在文本到图像生成中,模型直接使用流匹配学习从文本语义空间到图像空间的映射,省去了复杂的跨注意力机制(Cross-Attention),仅通过自注意力即可实 现高效的文本到图像生成。 论文标题:Fl ...
冲击自回归,扩散模型正在改写下一代通用模型范式
机器之心· 2025-06-04 01:59
机器之心报道 编辑:Panda 上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中, Gemini Diffusion 绝对算是最让 人兴奋的进步之一。从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模 型! Google DeepMind 表示,他们正在使用「扩散」技术来探索新的语言模型方向,从而为用户提供更强大的控制力、创造力和文本生成速度。 从演示效果看,Gemini Diffusion 也确实快 ——「生成速度是我们迄今为止最快模型的五倍,同时还具有相当的编程性能。」 那么,扩散模型为什么会这么快呢?这与其工作原理有关。简单来说,不像自回归语言模型那样直接预测下个文本 token,扩散语言模型(dLLM)是通过逐步细 化噪声的方式来学习生成输出。这意味着它们不仅可以快速迭代,还能在生成过程中进行纠错。这些特性有助于它们更好地应对编辑等任务,包括在数学和代码 环境中。 用户输入「 Explain what artificial intell ...
视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成
机器之心· 2025-06-03 08:57
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。 一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型的推理能力。 来自阿里巴巴通义实验室的最新研究成果 ——VRAG-RL(Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning),将强化学习算法引入多模态智能体训练,借助迭代推理和视觉感知空间,全方位提升视觉语言 模型(VLMs)在检索、推理和理解视觉信息方面的能力,为纯视觉检索增强生成任务提供有效解决方案,代码、模型全面开源! Paper 地址:arxiv.org/pdf/2505.22019 Github 地址:https://github.com/Alibaba-NLP/VRAG 为了解决现有 RAG 方法在处理视觉丰富文档时面临的挑战,尤其 ...
本周日不见不散!CVPR 2025北京论文分享会最后报名了
机器之心· 2025-06-03 08:57
前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高 度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入到了真正的「有声时代」。 从中可以发现,虽然当前 AI 社区已有的大模型已经足够惊艳,但得益于架构的创新、算力集群的投入,仍然会「卷」出一些新东西来。比如视频生成领域,从最 初的无声进化到如今的有声,提升明显;再比如多模态领域,逐渐朝着理解与生成大一统的方向演进。 因此,为让从业者全面了解 AI 社区涌现的最新创新成果和发展趋势,机器之心计划 6 月 8 日在北京举办「CVPR 2025 论文分享会」,围绕着多模态、视频生成等 热门主题邀请顶级专家、论文作者与现场参会观众共同交流。 作为计算机视觉领域中最重要的国际会议之一,CVPR 具有极高的含金量,每年都会吸引大量研究机构和高校参会。今年,CVPR 2025 共收到 13008 份论文投 稿,最终接收 2878 篇论文,整体接收率为 22.1%。 作为一场为国内 AI 人才打造的盛会,本次论文分享会 ...
经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
机器之心· 2025-06-03 06:26
机器之心报道 机器之心编辑部 不用换模型、不用堆参数,靠 SUGAR 模型性能大增! 在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。 尽管这一趋势盛行,经典 ReLU 函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。 然而 ReLU 单元易陷入所谓的「死亡 ReLU 问题」, 一旦某个神经元在训练中输出恒为 0,其梯度也为 0,无法再恢复。 这一现象最终制约了其整体效能,也是 ReLU 网络的重大缺陷。 正是死亡 ReLU 问题催生了大量改进的线性单元函数,包括但不限于:LeakyReLU、PReLU、GELU、SELU、SiLU/Swish 以及 ELU。这些函数通过为负预激活值 引入非零激活,提供了不同的权衡。 本文,来自德国吕贝克大学等机构的研究者引入了一种新颖的方法:SUGAR(Surrogate Gradient for ReLU),在不牺牲 ReLU 优势的情况下解决了 ReLU 的局限 性。即前向传播仍使用标准 ReLU(保持其稀疏性和简单性),反向传播时替换 ReLU 的导数为 ...