机器之心

Search documents
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
机器之心· 2025-06-17 00:10
当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现 出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。 我们(UIUC & Amazon)提出的 s3(Search-Select-Serve) 是一种 训练效率极高、结构松耦合、生成效果导向的 RL 范式 。该方法使用名为 Gain Beyond RAG (GBR) 的奖励函数,衡量搜索器是否真的为生成带来了有效提升。实验表明,s3 在使用仅 2.4k 训练样本 的情况下,便在多个领域问答任务中超越了数据规模大百 倍的强基线(如 Search-R1、DeepRetrieval)。 论文标题:s3: You Don't Need That Much Data to Train a Search Agent via RL 研究动机 RAG 的发展轨迹:从静态检索到 Agentic 策略 b. Search-R1 :将检索与生成联合建模,以最终答案是否 Exa ...
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 00:10
机器之心报道 编辑:杜伟 在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。 今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜,其 中 DeepSeek-R1(0528)的成绩尤为引人瞩目 。 | | Rank (UB) ↑ Model ↑↓ | | Score 11 | | 95% Cl (±) 1↓ Votes 1J | لا Organization 1 | License 1لا | | --- | --- | --- | --- | --- | --- | --- | --- | | | 1 | G gemini-2.5-pro-preview-06-05 | 1468 | +8/-6 | 8,454 | Google | Proprietary | | | 2 ...
「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
机器之心· 2025-06-16 09:10
机器之心报道 编辑:杨文 假作真时真亦假,无为有处有还无。 200 多年前,曹雪芹在《红楼梦》中写下这样一句话:假作真时真亦假,无为有处有还无。翻译成大白话就是,当虚假被当作真实时,真实也会被视为虚假;当虚 无被强行视为存在时,存在也会消解为虚无。万万没想到,放在今天的 AI 语境下,这句古话竟精准地映照了现实。 最近在 X 上冲浪,刷到了一段「人类在飞机上吵架看呆袋鼠」的视频。视频中,一只紧握登机牌、站得直挺挺的袋鼠,正满脸无辜地看着自己的主人和一名空乘人 员在登机口 battle。 视频来自: https://www.instagram.com/infiniteunreality/ 由于袋鼠的举止表情「比小朋友还乖」,引发不少网友点赞转发。其中 X 账号 @DramaAlert 就在短时间内获得了 7460 万次观看,Instagram 上这段视频光点赞量就 有 110.4 万次。 不过很快有细心的网友发现了不对劲。袋鼠手中的「登机牌」上全是难以辨认的文字乱码,而这往往是 AI 生成视频的最大「罪证」。 视频中的人类说着并不存在的语言,空乘人员佩戴的胸牌上也没有名字。 此外,乘客的左手无名指一开始并没有任 ...
高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
机器之心· 2025-06-16 05:16
机器之心报道 机器之心编辑部 上上周的 2025 高考已经落下了帷幕!在人工智能领域,各家大模型向数学卷发起了挑战。 在 机器之心的测试 中,七个大模型在「2025 年数学新课标 I 卷」中的成绩是这样的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分紧 随其后,并列第二;o3 和 Qwen3 也仅有一分之差,分别排在第三和第四。受解答题的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的总成绩排到了最后两名。 其实,向今年数学卷发起挑战的大模型还有其他家,比如 Xiaomi MiMo-VL,一个只有 7B 参数的小模型 。 该模型同样挑战了 2025 年数学新课标 I 卷,结果显示, 总分 139 分,与 Qwen3-235B 分数相同,并只比 OpenAI o3 低一分 。 并且,相较于同样 7B 参数的多模态大模型 Qwen2.5-VL-7B, MiMo-VL 整整高出了 56 分 。 MiMo-VL-7B 和 Qwen2.5-VL-7B 是通过上传题目截图的形式针对多模态大模型进行评测,其余均是输入文本 lat ...
AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
机器之心· 2025-06-16 05:16
机器之心原创 编辑:吴昕 AI 不缺模型,缺的是能把它带到真实世界里的「玩家」,会是你吗? 高考刚刚结束, AI 正在进入「真实世界的考试季」。 三年前, ChatGPT 开启生成式 AI 副本,一路打怪升级,势如破竹。三年后,参数量暴涨、训练成本 高企 ,模型性能虽持续攀升,却也走到了一个关键转向点—— 性能并不是终点,应用价值才是答案。 在中国,已有超 500 个大模型通过备案,解锁「伍佰时代」。技术跃进之下,场景落地成为新的主副 本,越来越多企业开始追问: AI ,不能只是个「聊天 NPC 」,它究竟能为真实世界做些什么? 金融副本难度拉满, AI 迎来「真题挑战」 在这场「副本更新」中,比起通用对话助手的泛能力,更具行业深度的垂类模型迅速成为焦点,特别是 在信息密度极高的金融行业。 大科技企业已陆续下场,华为推出「盘古金融大模型」,蚂蚁集团则在外滩大会发布「 AntFinGLM 」,并部署于内部应用产品 AI 金融管家「蚂小财」。 金融,历来是 AI 应用最早也最复杂的行业之一。 一方面,结构化数据如同「资源矿」,为模型提供源源不断的养料;另一方面,场景丰富,应用潜力巨 大。 想知道市场什么时候「翻车 ...
初赛报名截止倒计时!75万奖池+心动Offer,启元实验室重磅赛事等你来战!
机器之心· 2025-06-16 05:16
编辑:吴昕 大赛报名于 2025年6月25日截止,感兴趣的团队尽快报名参赛。 百舸争流,「启智杯」 初赛火热进行中 随着人工智能技术的不断突破,智能化浪潮正深刻改变千行百业, 中国也迎来人工智能加速应用期。 为推动智能算法从理论创新走向实际落地, 5 月 20 日,启元实验室正式启动「启智杯」算法大赛。 本届大赛围绕「卫星遥感图像鲁棒实例分割」「面向嵌入式平台的无人机对地目标检测」以及「面向多 模态大模型的对抗」三大命题,聚焦鲁棒感知、轻量化部署与对抗防御三大关键技术,旨在引导技术创 新精准对接真实场景,加快算法能力的转化落地与规模化应用。 赛事一经发布,便迅速点燃全国 技术圈 热情,目前已有来自高校、科研院所、科技企业的 500 余支 队伍报名。其中不乏清华、北大、复旦、上交、南大、武大、华科、中科大、哈工大、国防科大、西 交、成电等顶尖高校队伍,以及中科院自动化所、 中科院 空天信息创新研究院等科研机构团队,为赛 事注入强劲科研力量。 目前,赛事正处于初赛的关键节点。三大赛道的选手们正围绕核心任务展开高强度的建模与调优,争分 夺秒攻克技术难点,不断迭代优化模型方案,部分赛题的竞争已经进入白热化阶段。 三大 ...
ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
机器之心· 2025-06-16 04:04
本文共同一作是张翔和曹峻泰。张翔是英属哥伦比亚大学研究生,主要研究兴趣集中在大模型推理和 AI for Science;曹峻泰是英属哥伦比亚大学研究生, 主要研究兴趣集中在大模型推理和可解释性研究;本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽,以及来自 Meta Gen AI 的研究员丁渡鉴。 近年来,大型语言模型(LLM)在自然语言处理领域取得了革命性进展。然而,其底层的 Transformer 架构在处理复杂推理任务时仍有不足。尽管「思维 链」(CoT)提示技术提供了一条实用路径,但多数方法依赖通用指令,导致提示工程高度依赖反复试验,缺乏理论指导。 图 1 :Prompt 模板深刻影响着答案空间的配置和导航方式。左侧展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空间」中进行搜索,而右侧则展示了在特定 Prompt 指导下,如何在「答案空间」中进行搜索以得到解决方案(如 Tree-of-Thought、Graph-of-Thought)。 来自英属哥伦比亚大学、纽约大学石溪分校和浙江大学的研究团队深入剖析了 Prompt 如何在 LLM 的 CoT ...
Muon作者仅用一篇博客,就被OpenAI看中了
机器之心· 2025-06-16 04:04
Keller Jordan,OpenAI 深度学习团队主要成员之一,用一篇博客就撬开了 OpenAI 的大门。 这篇名为《 Muon: An optimizer for hidden layers in neural networks 》的博客发布于 2024 年 12 月,而 Keller Jordan 入职 OpenAI 的时间恰好也在此时。 机器之心报道 机器之心编辑部 「许多博士(包括过去的我)都陷入了这样一个误区:认为只有在顶级会议上发表论文才是终极目标。」AI 云服务商 Hyperbolic CEO Yuchen Jin 如是说。 但现在,发表论文并不与学术影响力直接画等号了。 在这篇博客中,Keller Jordan 提出并构建了一种用于神经网络隐藏层的优化器 Muon,其能够在保证神经网络(包括 Transformer 和 CNN)的准确度的前提上大幅 提升其训练速度。 为何只发了博客,而不是发表一篇正式的 arXiv 论文,Keller Jordan 这样解释:能否发表一篇关于新优化器的论文,且包含大量看起来不错的结果,和这个优化器 是否真的有效之间没有任何联系。「我只相信速通。」 一直以来 ...
放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
机器之心· 2025-06-15 04:43
机器之心报道 编辑:杜伟 今天,一位研究者加入 OpenAI 的消息吸引了很多人的关注。 这位研究者名为 James Campbell,他才于 2024 年攻读 CMU 的计算机科学博士学位。现在,他突然宣布要 放弃博士学业,加入 OpenAI。 在社媒 X 上,他表示自己在 OpenAI 的 研究重心是「AGI 和 ChatGPT 的记忆 + 人格」,记忆将从根本改 变人类与机器智能的关系 。他将努力工作,确保正确地实现这一切。 他的加入连 OpenAI 联合创始人、总裁 Greg Brockman 都表达了欢迎。 那么,这位老兄是何方神圣呢?他的加入为什么引起了这么多的关注?我们来看一下他的履历。 他本科毕业于康奈尔大学,专业是数学与计算机科学。本科期间,他致力于 LLM 可解释性和真实性的研 究,还是两篇论文《Representation Engineering》和《Localizing Lying in Llama》的主要作者。 前一篇论文研究了表示工程:一种自上而下的 AI 透明性方法,后者研究了在 Llama 中定位谎言:通过提 示、探查和修补来理解判断题上的不诚实指令。 他还在 Gray Swa ...
复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
机器之心· 2025-06-15 04:40
真正的智能在于理解任务的模糊与复杂,Context Scaling 是通向 AGI 的关键一步。 2024 年底,Ilya Sutskever 断言「我们所知的预训练时代即将终结」,让整个人工智能领域陷入对 Scaling What 的集体追问之中。 新的思路不断涌现:推理时扩展(Test-Time Scaling)让 OpenAI 的 o 系列在数学推理上大放异彩, DeepSeek-R1 通过 GRPO 替代 PPO 实现了强化学习的突破,强化学习 Self-play + LLM 让 AI 在游戏和代码 生成中展现惊人能力,Agent 化路径则催生了能够操作浏览器、调用工具的新一代智能助理…… 每一条路 都在探寻可能的下一个跃迁。 在这场技术探讨中,复旦大学 / 上海创智学院的邱锡鹏教授提出了一个耐人寻味的新路径 ——Context Scaling。与参数规模、数据量、推理计算等扩展路径不同,Context Scaling 的核心,不在于更大,而在于更 「深」:如何让 AI 真正理解并适应复杂、多变、模糊的情境(Context)。 在与机器之心的最新一次对谈中,邱锡鹏教授系统阐述了他对 AI 发展的洞察: ...