Workflow
computer use
icon
Search documents
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
机器之心· 2025-05-25 03:51
自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL) 算法把电脑智能体的能力推向新高,引发全球范围广泛关注。 业界普遍认为,需要海量的轨迹数据或复杂的强化学习才能实现电脑智能体的水平突破——这可能意味着大量的人工轨迹标注,以及大规模虚拟机环境的构 建,以支撑智能体的学习与优化。 然而,来自上海交通大学和 SII 的最新研究却给出了一个非共识答案: 仅需 312 条人类标注轨迹 ,使用 Claude 3.7 Sonnet 合成更丰富的动作决策,就 能激发模型 241% 的性能,甚至 超越 Claude 3.7 Sonnet extended thinking 模式 ,成为 Windows 系统上开源电脑智能体的 新一代 SOTA 。 312 条轨迹在不同软件上的分布 思维链补全:让「动作」有「思考」的支撑 这一发现传递出一个关键信号: 当前大模型已经具备了使用电脑完成任务的基础能力,其性能瓶颈主要在于长程推理(long-horizon planning)能力的激 发, ...
Manus 背后的重要 Infra,E2B 如何给 AI Agents 配备“专属电脑”?
海外独角兽· 2025-05-09 12:16
编译:haozhen 编辑:Siqi 海外独角兽原创编译 转载请注明 Multi agent 系统正成为新的突破方向的过程中,agent infra 也成为落地关键。在 computer use 带来范式创新的趋势下,virtual machine 将成为潜在创业机会, E2B 就是这个领域的新兴参与者。 E2B 之所以受到市场关注很大程度上是因为 Manus,Manus agent 完成任务过程中的 virtual computer 支持正是来自于 E2B。E2B 成立于 2023 年,作为一个开 源基础设施,允许用户在云端的安全隔离沙盒中运行 AI 生成的代码。E2B 本质上是一个可以快速启动(~150 毫秒)的 microVM,它的底层类似于 AWS Firecracker 这个代表性的 MicroVM,在此基础上, AI Agents 可以在 E2B 中运行代码语言、使用浏览器、调用各种操作系统中的工具。 随着 Agent 生态的繁荣,E2B 的 沙盒月创建量一年内从 4 万增长到 1500 万,一年内增长了 375 倍。 为什么 AI agents 需要专属的"电脑"? 为了更好地理解这个问题,我们 ...
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经
42章经· 2025-04-27 14:10
23 年 4 月以 AutoGPT 为代表的那一波里,Agent 更像是一个玩具,demo 都很炫,但实际应用价值很有限。 经过两年的发展,这波 Agent 确实能够在实际的工作和生活场景中解决问题,为大家带来价值了。 曲凯: Agent 是当下绝对的风口。关于 Agent 这个话题,我自己有一些核心在思考的问题,相信也是很多人同样会有疑问的地方。所以今天我们请来了长时间对 Agent 有研究和实操的文锋,想就这些问题展开一些讨论。 首先我想问,到底怎么定义 Agent? 文锋: 我认为最好的就是 Anthropic 的定义:Agent 是让模型基于环境反馈去使用工具的一个程序。 曲凯: 那你怎么看最近这波 Agent 热? 文锋: 这波 Agent 跟过去非常不一样。 之所以会有这种跃迁,一是因为底层模型能力有了很大的进步,尤其是在结合了 RL 之后,以 o1 为代表的模型还赋予了 Agent 长思维能力。 二是因为 Agent 的工程侧和产品侧也有很大的突破,主要表现就是大家更知道该怎么给 Agent 构建一个合适的 Context,从而更好地解决问题了。 曲凯: 怎么理解这个 Context? 文锋: ...
OpenAI:computer use 处于 GPT-2 阶段,模型公司的使命是让 agent 产品化
海外独角兽· 2025-04-23 12:41
编译:haozhen, Cookie AI agent 并不是一个新概念,但从 2024 年到今天,agent 的行动能力和交互方式发生了质变,头部模型厂商也正在将 agentic 能力融入模型,agentic 能 力会成为今年模型竞赛的重点之一, tool use 作为 agent 最重要的能力,一直是头部 AI labs 非常关注的方向。上周,OpenAI 发布了新一代模型 o3, o3 有最丰富的 tool use 方式。 本文是对 OpenAI agent 团队访谈的编译,OpenAI agent 产品和工程负责人分享了 OpenAI 在 agent 开发与工具生态方面的技术细节,以及他们对开发 者实践的观察与见解。他们认为,受益于 CoT 与 tool use 的结合,agent 获取信息的方式已经发生了巨变,agent 的下一步是能够接入数百个工具,并 能够自主判断调用哪个工具并确定如何使用。此外,multi agent 系统的工作效率会更高,且具有更高的可控性和优化潜力。 我们判断, multi agent 系统会在今年有大的突破,vertical agent 会因此直接受益,在 compute ...