智能体系统

Search documents
OpenAI发布ChatGPT Agent:部分能力超越人类,但做电子表格仍不如人类
Di Yi Cai Jing· 2025-07-18 05:13
"现在ChatGPT可以思考和行动,能主动从技能工具箱中选择工具,完成一些任务。"OpenAI介绍,这些任务包括"查看我的日历并根据近期新闻介绍即将 举行的会议""分析三个竞争对手并创建幻灯片"等。此外,用户还可以执行一些重复任务,例如将屏幕截图转换为可编辑PPT、用新的财务数据更新电子 表格、重新安排会议。 在评估模型编辑真实场景电子表格能力的测试中,ChatGPT Agent的最高得分45.5%远低于人类得分71.3%。 7月,OpenAI尚未按照此前计划发布GPT-5,智能体方面的更新先行面世了。 北京时间7月18日凌晨,OpenAI直播发布了ChatGPT Agent,这一智能体融合了Operator智能体网页交互能力以及Deep Research功能,使ChatGPT内置计算 机能帮助用户完成复杂的多步骤任务。 不过,虽然ChatGPT Agent在SpreadsheetBench测试(评估模型编辑真实场景电子表格的能力)中,表现超过OpenAI的其他模型,但其最高得分45.5%还是 远低于人类得分71.3%。 据介绍,ChatGPT的工作过程包括浏览网站、过滤结果、提醒用户登录相关账号、运行账号、 ...
OpenAI发布ChatGPT Agent
第一财经· 2025-07-18 00:10
北京时间18日凌晨,OpenAI发布ChatGPT Agent。ChatGPT Agent一个重要功能模块是其多工具 集成能力,将Operator的网站交互能力、Deep Research的信息整合能力以及ChatGPT的深度对话 能力融合在一起,形成统一的智能体系统。 ...
「0天复刻Manus」的背后,这名95后技术人坚信:“通用Agent一定存在,Agent也有Scaling Law”| 万有引力
AI科技大本营· 2025-07-11 09:10
以下文章来源于CSDN ,作者万有引力 CSDN . 成就一亿技术人 嘉宾 | 范文栋 对话 | 唐小引 责编 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 今年 3 月,Manus 的横空出世,引爆 了 新一轮 的 AI Agent 热潮 。 人们惊讶地发现,原本复杂繁琐的任务流,如今一个 Agent 就能自动规划、调用工具、执行操作,甚至还能主动 Debug 和自我修复——生成式 AI 从" 语言理解"向"任务执行"演化, Agent 也 不再是只能聊天的大语言模型,而是可以"动手做事"的数字助手 。 然而,在 这场技术热潮中,质疑与分歧也接踵而至:" Agent 的 Scaling Law 是否存在 "、" 通用 Agent 是否真的可行 " , 这些 问题 引发了广泛的 争议与探讨。一方面,部分研究者坚信,随着模型技术的进步,Agent 将能实现从特定任务向通用能力的跨越;而另 一 方面,也有声音指出 , 所谓 的"通用 Agent", 或许 只 是一套被过度期许的工程幻象。 为了解答这些技术 争议,由 CSDN 主办 的《万有引 力》栏目 在 全球机器学习技术大会 的现场特别邀请到了 C ...
给你一群顶尖AI,如何组队才能发挥最大战力?UIUC用一个新的多智能体协作基准寻找答案
机器之心· 2025-07-09 04:23
朱昆仑是伊利诺伊大学香槟分校(UIUC)计算机科学系的研究生,现隶属于Ulab与Blender Lab,曾在斯坦福大学、卡内基梅隆大学(CMU)与蒙特利尔学习算 法研究所(Mila)进行学术访问。他的研究方向包括大语言模型(LLM)智能体、多智能体系统、AI科学家与工具学习等,在ICML、ICLR、ACL、TMLR等顶 级会议与期刊发表论文10余篇,总引用超过1500次。 他积极参与多个广泛影响的开源项目,包括 OpenManus(RL)、ChatDev(MACNET)、ToolBench 等,累计 在 GitHub 上获得超过 5万+ stars。此外,他曾受邀在 AMD 开发者大会、阿里巴巴云栖大会等重要学术与工业会议中作报告,分享其在AI智能体方面的开源成 果。 这不仅是一个评测集,更是首个能够全面、系统化地评估 LLM 多智能体系统协作与竞争能力的综合性基准。它不仅仅是一套「考题」,而更像一个「模拟 真实社会动态的实验室」,旨在揭示多智能体协作的奥秘,并回答一系列关键问题: …… 论文标题: MultiAgentBench:Evaluating the Collaboration and Compet ...
探索金融多领域应用 中财融通大模型及上市公司研报智能体发布
Sou Hu Cai Jing· 2025-07-06 14:55
Group 1 - The CUFEL model and the CUFEL-A research report generation agent were officially launched at the Global Finance Forum hosted by Central University of Finance and Economics on July 5 [1] - CUFEL is described as not just a single model but a cluster of models or an efficient model fine-tuning process, enhancing performance in specific tasks while maintaining general capabilities [3] - The CUFEL-A agent produces independent and in-depth research reports on A-share listed companies through a four-step process: data aggregation, planning, structuring and reflection, and writing [5] Group 2 - The research report evaluation algorithm is built on three principles: generative, end-to-end, and multi-agent system reinforcement learning, improving the quality of report writing [5] - The model was developed by a team of faculty and students from the Central University of Finance and Economics, which is actively collaborating with leading companies in the financial industry to explore applications in smart credit, compliance, and supply chain finance [5]
ICML 2025 | 多智能体的ChatGPT时刻?上交MAS-GPT实现工作流一键生成
机器之心· 2025-07-05 02:46
本文第一作者叶锐,上海交通大学博士三年级,研究方向是大模型多智能体,联邦学习,博士导师陈思衡,上海交通大学人工智能学院副教授。 OpenAI 将 "组织级智能 (Organizational AI)" 设定为通向 AGI 的第五个重要阶段 —— 期待 AI 能像一个高效协作的组织那样,处理复杂任务并协调大规模运作。多 智能体系统(Multi-Agent Systems, MAS)正是实现这一目标的重要探索方向。 然而,构建能够支撑这种复杂智能的 MAS 并非易事,研究者们常面临结构繁多、Prompt 调试耗时、难以解决通用任务等挑战…… 如今,一种全新的方法出现了,由上海交通大学人工智能学院、上海人工智能实验室、牛津大学等机构联合推出的 MAS-GPT,正式提出: 生成式 MAS 设计范 式 , 只需一句 Query,就能 "一键生成" 一套可执行、组织清晰的 MAS! 这意味着,构建 MAS 变得 " 像与 ChatGPT 聊天一样简单,一个问题直出完整多智能体系统 "!MAS-GPT,正努力让这条通往 AGI 第五阶段的道路,变得更加 平坦和高效。 该工作 "MAS-GPT: Training LLMs ...
当无人机遇到AI智能体:多领域自主空中智能和无人机智能体综述
具身智能之心· 2025-06-30 12:17
作者丨 视觉语言导航 编辑丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 自主导航无人机的基础 | UAV Type | Perception | Control Archi- | Decision System | Autonomy | Task | | Communication | | --- | --- | --- | --- | --- | --- | --- | --- | | | Modality | tecture | | Level | Adapt- | | Interface | | | | | | | ability | | | | Traditional | Monocular or | Rule-based | Deterministic. | Level 1-2 | Static | | Line-of-sight, | | UAVs | stereo RGB | flight con- | s ...
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
机器之心· 2025-06-17 03:22
港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练 方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。 该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation 论文地址:https://arxiv.org/abs/2505.23885 项目代码:https://github.com/camel-ai/owl 背景与挑战:多智能体系统的 「 领域壁垒 」 随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智 ...
Anthropic 详述如何构建多智能体研究系统:最适合 3 类场景
投资实习所· 2025-06-16 11:51
本文来自 Anthropic 官网的分享,详细阐述了他们是如何构建多智能体研究系统《How we built our multi-agent research system》。 他们研究发现, 多智能体系统最适合三类场景:高价值并行任务、超出单上下文窗口的信息处理、需要操作多个复杂工具的情况。需要共享上下文或存 在复杂依赖关系的场景目前并不适合多智能体方案。 下面是翻译全文: 我们的"研究"功能采用多智能体协作架构,让 Claude 能更高效地探索复杂课题。本文将分享系统构建过程中遇到的工程挑战与经验总结。 如今 Claude 已具备跨网络、Google Workspace 及各类集成系统进行信息检索的研究能力,以完成复杂任务。这套多智能体系统从原型到生产的实践历 程,让我们在系统架构、工具设计和提示工程等方面积累了宝贵经验。 多智能体系统由多个自主使用工具的 LLM 智能体协同工作,在我们的研究功能中,主智能体会根据用户查询规划研究流程,随后创建并行工作的子智能 体进行信息检索 。这类系统在智能体协调、评估与可靠性方面带来了全新挑战。 本文将拆解我们验证有效的设计原则,希望能为开发者构建多智能体系统提供参考 ...
近期必读!Devin VS Anthropic 的多智能体构建方法论
歸藏的AI工具箱· 2025-06-15 08:02
播客内容由 listenhub 生成,懒得看的话也可以听 昨天最热的的两篇文章是关于多智能体系统构建的讨论。 先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验,具体:包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方 面。 另外一边 Devin 的开发商 Cognition 的一个负责人 Walden 发布文章告诫大家不要构建多智能体,指出一些常见但实际效果不佳的方法,特别是多智能体架构的弊 端。 这篇文章主要就是结合两篇文章看一下 Cognition 提到的多智能体架构弊端和 Anthropic 给出的解决方案 。同时后面也会有两篇文章非常详细的总结。 什么是多智能体 多智能体系统由多个智能体(大型语言模型 [LLM] 自主地循环使用工具)协同工作组成。 在这种系统中,一个主智能体(或协调器)会根据用户查询规划研究过程,然后使用工具创建并行操作的子智能体,这些子智能体同时搜索信息。这种架构允许主 智能体协调整个过程,同时将任务委托给专门的子智能体。 所以具体的步骤一般为: 1. 将工作分解为多个部分 首先是领域选择: 他们将多智能体系统应用于他们认为特别适合并行 ...