推理能力

Search documents
刷新复杂Agent推理记录!阿里通义开源网络智能体超越DeepSeek R1,Grok-3
量子位· 2025-07-07 07:43
WebSailor团队 投稿 量子位 | 公众号 QbitAI 在互联网信息检索任务中,即使是很强的LLM,有时也会陷入"信息迷雾"之中:当问题简单、路径明确时,模型往往能利用记忆或一两次搜索 就找到答案;但面对高度不确定、线索模糊的问题,模型就很难做对。 举个例子,我们平常问一个直白的问题(比如"某城市的人口是多少"),搜索引擎一查即可。 但如果问题被设计得非常复杂,比如"这首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于 哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?",人类和AI都很难直接找到入口。 这类问题需要阅读许多网页、抽丝剥茧地拼凑线索,逐步把迷雾拨开,才能找到答案。这超出了人类有限记忆和注意力的负荷,也远远超出了 普通开源模型的能力范围。 有没有办法让开源的大模型也掌握这种拨云见日的本领? 阿里巴巴通义实验室最新提出的方案WebSailor通过一整套创新的post-training方法,大幅提升了开源模型在复杂网页推理任务上的表现。 此前开源的Agent在类似BrowseComp这样复杂的、超越人类能力边界的基准上几乎为零,WebSailor成为首个 ...
从多模态融合到行业深扎,国内 AI 大模型三大发展方向解析
Sou Hu Cai Jing· 2025-07-07 03:36
国内有众多 AI 大模型研发机构,如百度、阿里、字节跳动、科大讯飞等,从这些机构的实践来看,大模型主要有以下发展方向: ·行业深度赋能:科大讯飞计划将星火大模型从 "通用" 走向 "行业",深度赋能汽车、教育、医疗、智慧城市、赛事运营等产业。百度、阿里等公司的大模型 也在金融、工业、政府、科研、电商等领域积极探索应用,未来大模型会针对不同行业的特点和需求,进行定制化开发和优化,为各行业提供更专业、更精 准的服务,推动行业智能化升级。 ·智能应用创新:随着大模型技术的发展,将催生更多新型智能应用。字节跳动提出 "互联网正从 APP 时代进入 Agents 时代",其火山引擎发布的方舟平台 等系列工具,构建了服务 Agent 开发的完整体系,展现出 AI 重构软件开发范式的潜力,也催生了不少如他她它、推氪AI等的应用层面的产品。未来,大模 型将与更多新兴技术结合,创造出如智能助手、智能创作工具等更多创新应用,改变人们的生活和工作方式。 生态建设方向 ·开源共享:开源成为大模型发展的重要趋势。2025 年以来,字节豆包、百度文心、阿里通义千问等均推出开源模型。商汤科技发布了 LazyLLM 开源框架 等产品,Min ...
腾讯研究院AI速递 20250703
腾讯研究院· 2025-07-02 15:52
生成式AI 一、 从亲密伙伴抢人,Cursor挖走Claude Code两位核心人物 1. Cursor开发商Anysphere挖走Claude Code核心人物Boris Cherny和Cat Wu,尽管双方 是密切合作伙伴; 2. Anthropic年收入达40亿美元,估值615亿美元,Claude被视为最佳编程模型; 3. Anysphere收入三个月内翻倍至年收入5亿美元,估值达99亿美元,AI编程市场竞争加 剧。 https://mp.weixin.qq.com/s/xsPfOFxttF7s9bq3o-F_Iw 二、 智谱开源GLM-4.1V-Thinking视觉推理模型,10B级SOTA 1. 智谱开源GLM-4.1V-9B-Thinking模型,采用课程采样强化学习策略,在18项权威评测 中超越8倍参数的72B模型; 2. 模型架构结合ViT视觉编码器、MLP适配器和GLM语言解码器,引入2D-RoPE和3D- RoPE位置编码增强处理能力; 3. 训练过程分为多模态预训练、长上下文持续训练、监督微调和课程采样强化学习四个阶 段,显著提升逻辑推理能力。 https://mp.weixin.qq. ...
OpenAI 研究员 Noam Brown:Mid-training 是新的 pre-training
海外独角兽· 2025-07-02 11:03
两个 编译:haozhen 编辑:siqi 海外独角兽原创编译 转载请注明 去年以来,随着 OpenAI 在 o1 模型中提出 RL 叙事 ,以及 DeepSeek 发布的 R1 模型 解开了 RL 谜 题,AI 行业进入了新范式,智能的下半场也真正开启。 如果说过去 LLM 主要依赖于模式匹配与数据记忆,如今,推理能力的兴起让模型能力从表层关联跃 升到复杂认知。推理不仅仅是参数数量或训练数据的增加,而是能充分利用算力进行深度探索。因 此,推理能力既是涌现智能的重要催化剂,也是未来模型在科学发现、复杂决策与 multi-agent 协作 中的关键。 本篇内容是 OpenAI 研究员 Noam Brown 的最新播客。Noam 是全球最顶尖的推理研究员之一,他最 知名的两个项目分别是在德扑中击败顶尖人类玩家的 AI 系统 Libratus 和 Pluribus,2022 年他又开发 了首个在复杂多人策略游戏 Diplomacy 中达到人类水平的 AI,名为 Cicero。 这次播客中,他详细分享了自己在 scaling test time compute 上的前沿观点: • 推理(reasoning)是模型涌现 ...
新国立×上交发布RoboCerebra:长时序机器人操作推理的全新评测基准
自动驾驶之心· 2025-06-29 11:33
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 SonghaoHan等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 Ideal Dynamic Memory Execution Memory Exploration Mix 1 问题背景与动机 近年来,视觉-语言模型(VLM)凭借对图像与文本的强大对齐能力,为机器人带来了"看图执行指令"的全 新范式。研究者只需给出一句自然语言命令,机械臂便能在仿真或真实桌面环境中完成抓取、移动、放置 等操作。这类系统通常以 VLA 等 "小脑" 模型的形式存在:直接把多模态观测映射到低层控制信号,强调 即时反应与传感-运动耦合。然而,随着任务场景从单步抓取扩展到家庭级复合操作,仅靠小脑反应已难以 胜任;机器人还需要 "大脑" VLM 进行长期规划、记忆管理与自我反思,并与小脑 Controller 高效协同。 现有公开基准的平均任务长度不足 500 步,也很少显式考察大小脑协作(Planner ...
反转,AI推理能力遭苹果质疑后,Claude合著论文反击:不是不会推理,是输给Token
3 6 Ke· 2025-06-17 07:52
近日,Apple 机器学习研究团队发布了一篇名为《思考的幻觉(The Illusion of Thinking)》的论文。 苹果的要求也很苛刻:不仅要给出正确答案,还得用"思维链"的方式,把解题的每一步都写出来。 结果呢? 正如苹果所料,随着谜题越来越难,所有顶尖推理模型的准确率都直线下滑。在最复杂的任务面前,性能直接崩盘,准确率归零。 这篇 53 页的技术报告并非普通评测,而是一记质疑当下主流 LLM 推理能力的重锤。 研究者们指出,OpenAI 的"o"系列、Google 的 Gemini 2.5、以及 DeepSeek-R 等所谓"推理型大模型",本质上并没有从训练数据中学习到可泛化的第一性 原理。 他们用了四个经典问题来证明这一观点:汉诺塔(Tower of Hanoi)、积木世界(Blocks World)、过河问题(River Crossing)和跳棋(Checkers Jumping)。 图注:四类经典问题的示意图。 这些任务的特点是,可以通过增加步骤和限制条件,让难度指数级飙升,极其考验模型的长链条逻辑规划能力。 这篇论文在X(推特)上被疯狂转发,很多人上来就直接宣判:"苹果已经证明了,像Cl ...
知识类型视角切入,全面评测图像编辑模型推理能力:所有模型在「程序性推理」方面表现不佳
量子位· 2025-06-13 05:07
o3-pro答高难题文字游戏引围观,OpenAI前员工讽刺苹果:这都不叫推理那什么叫推理
量子位· 2025-06-13 02:25
西风 发自 凹非寺 量子位 | 公众号 QbitAI 该测试引来 OpenAI前A GI Readine ss团队负责人Miles Brundage 的转发关注。 OpenAI"最新最强版"推理模型 o3-pro ,实际推理能力到底有多强? 全球 首位全职提 示工程师Riley Go odside 来给它上难度: 说出歌手Sabrina Carpenter的一首歌的歌名,回答这个问题时, 每个单词最后一个字母连起来看,也能对应这首歌名 。 结果,o3-pro在经过4分25秒的推理过后,成功给出正确答案。 经Sabrina Carpenter实测, o3只能做对个大概 ,通常只能把最后几个字母凑对。 虽然人已经不在OpenAI了,但Miles Brundage还是替老东家直接开大阴阳苹果:如果这都不叫推理那什么叫推理。 PS: 苹果前几天发了个新研究 ,用汉诺塔等四个小游戏测试大模型,称推理模型全都没在真正思考,只是另一种形式的"模式匹配",所谓思 考只是一种假象。 除了网友实测外,各大评测榜单已陆续同步更新排名。 总结来看,和官方给的测试结果略有不同。 官方测评中,o3-pro超越o3、o1-pro,成为当前 ...
从「记忆解题」到「深度推理」:港科大推出首个本科数学动态评测基准 UGMathBench
AI科技大本营· 2025-06-09 09:41AI Processing
数学推理能力作为衡量模型智能水平的关键指标,需对其进行全面公平的评估。然而,现有的 GSM8K、MATH 数学基准因覆盖不足和易被数据污染饱 受诟病,要么缺乏对本科水平数学问题的广泛覆盖,要么可能受到测试集的污染。 为了填补这些空白,来自香港科技大学的研究团队近日发表在 ICLR 2025的最新研究 UGMathBench——首个针对本科数学的多元化动态评测体系, 专为评估 LLM 在本科阶段各类数学主题下的推理能力而设计。它提供了动态多样的评估工具,首次将数学推理评测带入「动态污染防控」时代, 标志 着 LLMs 数学推理评估从"浅层解题"迈向"深层理解"。 论文地址:https://arxiv.org/pdf/2501.13766 | AGI-Eval | 评测榜单 入人机竞赛 | 评测集社区 | Data Studio 団 | | | など | | --- | --- | --- | --- | --- | --- | --- | | | 评测集社区:UGMathBench | | | | | | | | UGMathBench ☞▩ | | | | 我要参评 | | | | UGMathBench 是 ...
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
Di Yi Cai Jing· 2025-05-29 14:10
报告显示此前 R1模型幻觉率在21%左右。 在开源平台HuggingFace上发布R1模型的更新后,5月29日晚,DeepSeek终于发布了官方公告介绍这次版本的具体能力迭代细节,其中包括深度思考能力强 化、幻觉改善和创意写作更好等。 值得一提的是,DeepSeek提到,新版DeepSeek R1 针对"幻觉"问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻 觉率降低了 45%-50% 左右,能够提供更为准确可靠的结果。 所谓幻觉即大模型的"胡说八道",此前DeepSeek的幻觉率并不低,也被不少用户和开发者所讨论。5月15日,SuperCLUE曾发布最新一轮中文大模型忠实性 幻觉测评结果,显示此前的DeepSeek-R1模型幻觉率在21%左右,在测评的国内模型中排名第五。 doubao-1.5-pr 在测评数据上,官方表示,更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的成绩,并且在整体表现上已 接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。 gemini-2.5-pro-p1 gemini-2.5-flash-t ...