Workflow
机器之心
icon
Search documents
性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
机器之心· 2025-09-02 03:44
覆盖桌面、移动和 Web,7B 模型超越同类开源选手,32B 模型挑战 GPT-4o 与 Claude 3.7, 通义实验室 全新 Mobile-Agent-v3 现已开源。 一眼看到实力:关键成绩速览。 备注:分数来源于公开基准,包括桌面 + 移动环境的任务规划、定位、推理、执行等全链路能力 开源地址:https://github.com/X-PLUG/MobileAgent 背景:为什么 GUI Agent 要这么强? GUI 智能体,就像你的跨平台虚拟操作员,能看懂屏幕、点鼠标、敲键盘、滑手机,在办公、测试、RPA 等场景自动执行任务。然而,要实现这一愿景,现有方 案却面临重重挑战。它们往往能力割裂,比如精于定位 UI 元素却拙于长任务规划,或难以融入灵活的多智能体框架。 同时,许多方案严重依赖特定的硬件和操作系统,适配成本高昂;而依赖闭源模型的方案则缺乏灵活性,遇到全新任务时常常束手无策。 更现实的是,高昂的推理成本、多图输入带来的延迟以及部署困难,都成为阻碍 GUI 智能体广泛应用的瓶颈。 亮点一 对于那些模型反复尝试依旧失败的困难任务,系统还会启动 困难任务指南生成模块 。它会分析已有的成功轨迹( ...
冲上热搜!美团大模型,靠「快」火了
机器之心· 2025-09-02 03:44
机器之心原创 编辑:张倩 、陈陈 国内外开发者:亲测,美团新开源的模型速度超快! 当 AI 真的变得像水和电一样普及之后,模型强不强已经不是大家唯一关心的问题了。 从年初的 Claude 3.7 Sonnet、Gemini 2.5 Flash 到最近的 GPT-5、DeepSeek V3.1,走在前面的模型厂商无一不在思考:在保证准确性的前提下,如何让 AI 既能以最 少的算力去解决每一个问题,又能在最短的时间内给出回应?换句话说,就是如何做到既不浪费 token,也不浪费时间。 对于在模型上构建应用的企业和开发者来说,这种从「单纯构建最强模型到构建更实用、更快速模型」的转变是个好消息。而且更加令人欣慰的是,与之相关的 开源模型也逐渐多了起来。 前几天,我们在 HuggingFace 上又发现了一个新模型 —— LongCat-Flash-Chat 。 这个模型来自 美团的 LongCat-Flash 系列,官网可以直接使用 ( https://longcat.ai )。 它天然知道「not all tokens are equal」,因此会根据重要性为重要 token 分配动态计算预算。这让它在仅激活少量参 ...
AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能
机器之心· 2025-09-02 03:44
机器之心报道 机器之心编辑部 谷歌回归搜索老本行,这一次,它要让 AI 能像人一样「看见」网页。 这是谷歌前不久 在 Gemini API 全面上线 的 URL Context 功能(5 月 28 日已在 Google AI Studio 中推出 ),它使 Gemini 模型能够 访问并处理来自 URL 的内容, 包括网页、PDF 和图像。 Google 产品负责人 Logan Kilpatrick 表示这是他最喜欢的 Gemini API 工具,并推荐大家把这个工具设置为默认开启的「无脑选项」。 那么灵魂一问: 这和我平时把链接扔给 AI 对话框里有什么本质区别? 感觉我一直在这么做。 区别在于处理深度和工作方式。你平时扔链接,AI 通常会通过一个通用的浏览工具或搜索引擎插件来「看」这个网页,AI 很可能只读取了网页的 摘要或部分文本 而 URL Context 则完全不同。它是一个专为开发者设计的编程接口(API),当开发者在他的程序里调用这个功能时,他是明确地指令 Gemini「把这个 URL 里的 全部内容(上限高达 34MB)作为你回答下一个问题的唯一、权威的上下文」,Gemini 会进行 深度、完 ...
14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1
机器之心· 2025-09-02 01:27
机器之心报道 编辑:Panda 现在,LLM 已经可以获得非常强大的推理能力,而其中关键便是 测试时扩展(test-time scaling) 。 通常而言,延长思维链(CoT)就可以延长「思考时间」,从而显著提升性能,尤其是当使用大规模强化学习和可验证奖励 (RLVR) 进行优化时。 然而,对于容易出现细微中间错误或需要创造性推理转变的难题,较长的思维链仍然存在根本性的局限性。在这些情况下,模型往往依赖内部的自我反思,但这 又常常无法发现错误,也无法在初始方法存在缺陷时进行自我纠正。 因此,模型不仅要能更长时间地思考,还应该要能「更聪明」地思考。为此,可以引入更高级的认知能力,让模型可以自主地利用合适的工具,从工具环境提供 的反馈信号中进行推理、验证和学习。 近日,微软研究院的一个研究团队探索了使用 主动式强化学习(agentic reinforcemen t lea rning) 来实现这一目标,也就是说,模型会与专用工具环境中的工具 进行交互,并根据收到的反馈调整其推理方式。 而他们的探索成果便是 rStar2-Agent ,这是一种强大的主动式强化学习方法。使用该方法,这个微软团队训练了一个 14B ...
自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
机器之心· 2025-09-02 01:27
Core Insights - The article discusses the development and effectiveness of SSRL (Structured Search Reinforcement Learning) in enhancing the training efficiency and stability of Search Agents using large language models (LLMs) [6][28] - SSRL demonstrates superior performance over traditional methods that rely on external search engines, achieving effective transfer from simulation to real-world applications (Sim2Real) [6][28] Group 1 - SSRL utilizes structured prompts and format rewards to effectively extract world knowledge from models, leading to improved performance across various benchmarks and reduced hallucination [2][6] - The research highlights the high costs and inefficiencies associated with current RL training methods for Search Agents, which include full-real and semi-real search approaches [7][13] - The introduction of SSRL allows for a significant increase in training efficiency, estimated at approximately 5.6 times, while maintaining a continuous increase in training rewards without collapse [31][32] Group 2 - Experiments show that models trained with SSRL outperform those relying on external engines, particularly in real-world search scenarios, indicating the importance of integrating real-world knowledge [28][31] - The article presents findings that suggest the combination of self-generated knowledge and real-world knowledge can enhance model performance, particularly through entropy-guided search strategies [34] - The integration of SSRL with TTRL (Task-Driven Reinforcement Learning) has shown to improve generalization and effectiveness, achieving up to a 67% performance increase in certain tasks [38][39]
开学了:入门AI,可以从这第一课开始
机器之心· 2025-09-01 08:46
机器之心报道 编辑:+0 9 月,不仅是返校的季节,对许多人来说,也意味着一个新的开始。无论你是重返校园的学生,还是希望在 职业道路上寻找新方向的探索者,可能都在思考同一个问题:「如何才能跟上这个被 AI 定义的未来?」 或许,我们可以从身边的一些小事开始寻找答案: 其实这些问题背后,都藏着与 AI 紧密关联的知识:推荐算法、计算机视觉(CV)、自然语言处理 (NLP)、强化学习(RL)。无论你将来想成为什么样的人,这股浪潮都已将我们所有人卷入其中。 图源: AI 生成 那我们继续问自己几个问题。 你是否想过,抖音如何猜到你下一秒想看什么? 为什么你的手机相册能自动识别人脸,甚至是你家的猫? 和 Siri、小爱同学聊天时,它们究竟在想什么? 玩游戏时,那些聪明的 NPC 是如何思考和行动的? 是哪个瞬间让你对 AI 产生了浓厚兴趣?是 AlphaGo 打败人类最顶尖的棋手,ChatGPT 的横空出世,还是 DeepSeek 的一夜爆火? 你对自己的 AI 探索之路有何设想?你最大的兴趣爱好是什么?你有想过,AI 能否成为连接你的工作、专业 与兴趣爱好的桥梁吗? 停!再问下去就要变成成功学课堂了。 我们进入正题 ...
OpenAI大神:人工智能导论课程停在15年前,本科首选该是机器学习导论
机器之心· 2025-09-01 08:46
机器之心报道 编辑:杜伟 如今,人工智能已经成为科技发展的主流,尤其是 ChatGPT 问世以来,大语言模型(LLM)正在深刻影响社会、企业和个人的方方面面。 对于想要投身人工智能领域的初学者来说,选对一门课程显得尤为重要。很多大学往往会设置人工智能导论(Intro to AI)课程,并成为很多学生的首选。 其中最 著名、深受学生喜爱的课程有斯坦福大学的《CS221: Artificial Intelligence: Principles and Techniques》。 对于入门者来说,人工智能导论可以让学生快速了解人工智能的不同分支,一般包括人工智能基础、 机器学习、神经网络与深度学习、自然语言处理(NLP)、 计算机视觉、强化学习等知识 。 斯坦福大学 2025 秋季 CS221 课程。 另外,他曾经与很多大学教授讨论过这个问题,几乎所有人都认为「人工智能导论」课程应该涵盖更多的机器学习内容。问题在于,他们对删除哪些内容来为机 器学习腾出空间无法达成统一的意见。曾经有一段时间,他建议应该移除 CSPs(约束满足问题),结果就让一些教授觉得被冒犯了。 近日,OpenAI 研究科学家、德扑 AI 作者 No ...
DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态
机器之心· 2025-09-01 06:46
本研究由中科院自动化所和腾讯混元联合研发,团队成员包括 Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng, Jie Jiang 背景:多模态大模型的思考困境 当前,业界顶尖的大模型正竞相挑战" 过度思考 "的难题,即无论问题简单与否,它们都采用 "always-on thinking" 的详细推理模式。无论是像 DeepSeek-V3.1 这种 依赖混合推理架构提供需用户"手动"介入的快慢思考切换,还是如 GPT-5 那样通过依赖庞大而高成本的"专家路由"机制提供的自适应思考切换。它们距离真正意义 上的" 智能思考 "仍有距离。这些方案或将判断压力转移给用户,或受限于复杂的系统架构和高昂的部署成本。因此,研发一款 轻量化、支持多模态且能实现更智 能自适应思考的大模型 ,将为用户提供更加流畅的交互体验。 近期 ,由腾讯混元团队与中科 院自动化所合作的一项最新研究推出 R-4B 多模态大模型,通过 自适应思考 (auto-thinking)机制,改变了这一现状,它让 AI 能像 人类一样 "智能切换" 思维模式。简单问题直接响应,复杂问题深度推理,在最大化 ...
NeurIPS 2025:高分论文也可能被拒,只为保住那25%左右的接收率?
机器之心· 2025-09-01 06:46
| | | 要指标还是更多有价值的论文,顶级学术会议似乎也面临着「to be or not to be」的难题。 NeurIPS 2025 将于 2025 年 12 月 2 日到 7 日在美国圣地亚哥举办,并且首次设置了第二个官方分会场墨西哥城。 最近几天,根据国内外社交媒体的众多反馈,本届 NeurIPS 的 Meta Review(元评审,即多位匿名审稿人提交评审意见后由领域主席或高级审稿人撰写总结性评 审)已经陆续完成。 出自: MiroMind 研究科学家 Bai Song (小红书) 从更多领域主席(AC)透露的消息中,有一些现象关系到了投稿人论文最终能否被接收。 其中,有领域主席表示,「在 DB(数据集和基准) track,即使得分 4-4-4-5(均分 4.25)也有可能被拒稿。」根据此前的相关数据统计,本届 NeurIPS 的投稿数 量或达到史上最多的 30000。 他认为,不要为了接收率固定在 20% 到 25%,而拒掉获得审稿人积极评分并达成共识的论文。并且,他呼吁向程序主席(PC)建议提高接收率。而根据 Senior PC(高级程序委员会成员)的回复, 由于场地和资源有限以及投稿量超出了 ...
科研智能体「漫游指南」—助你构建领域专属科研智能体
机器之心· 2025-09-01 02:49
欢迎关注中国科学院自动化研究所 & 北京中关村学院 & 芝加哥大学 & 西湖大学 & 腾讯带来的科研智能体方面的最新综述调研。 当前基于大语言模型(LLM)的智能体构建通过推动自主科学研究推动 AI4S 迅猛发展,催生一系列科研智能体的构建与应用。然而人工智能与自然科学研 究之间认知论与方法论的偏差,对科研智能体系统的设计、训练以及验证产生着较大阻碍。 与传统综述不同,本篇综述为大家呈现了科研智能体的 「 漫游指南 」 ,旨在提供构建科研智能体的 「 说明指南 」 :从科学研究的全周期出发,概述了科 研智能体的分级策略,并详细阐述了对应等级的构建策略与能力边界;同时该 「 漫游指南 」 详细阐明了如何从头构建科研智能体,以及如何对科研智能体 的定向能力进行增强。同时 「 指南 」 中详细涵盖了科研智能体的概念阐述、构建方案、基线评估以及未来方向。 希望本 「 漫游指南 」 能启发 AI 研究者与具体自然科学研究者,促进 AI 与自然科学之间的深度融合。 综述的核心贡献如下: 论文地址:https://doi.org/10.36227/techrxiv.175459840.02185500/v1 仓库地址:ht ...