Workflow
Computer Use
icon
Search documents
ChatGPT智能体正式发布,多个创业赛道昨夜无眠
量子位· 2025-07-18 00:30
白交 雷刚 发自 纽凹非寺 量子位 | 公众号 QbitAI 实用,太实用了!这才是OpenAI Agent该有的样子。 就在刚刚,OpenAI最新发布来了, ChatGPT Agent 正式对外亮相。 这是一个把 "想" 和 "干" 统一了的智能体,之前 深度研究 的思考和分析能力, Operator 的操作执行能力,在ChatGPT Agent实现了统 一。 而且ChatGPT Agent还可以接管你的整个电脑——这几乎就是全新的 操作系统 了。 能做什么? 工作场景 里,安排和改期会议、生成PPT、制定出差和外出议程、自动提交报销……几乎就是大厂高管才能配置的 助理 的核心工作。 生活场景 下,你个人的旅游行程规划设计、重大活动如婚礼晚宴安排……一些定期需要手动更新的认证证明……差不多也是董事长CEO们 个 人秘书 实现的能力。 但现在,ChatGPT Agent一夜之间人人都可拥有。OpenAI还专门配备了 专用模型 ,创造了全新的SOTA,刷新了模型能力新纪录。 之前,通用Agent们只敢自称"实习生",但OpenAI在自研底层模型能力的底气下,几乎就把"实习生"变成了"大秘书"。 之前一个创业赛道 ...
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
机器之心· 2025-05-25 03:51
自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL) 算法把电脑智能体的能力推向新高,引发全球范围广泛关注。 业界普遍认为,需要海量的轨迹数据或复杂的强化学习才能实现电脑智能体的水平突破——这可能意味着大量的人工轨迹标注,以及大规模虚拟机环境的构 建,以支撑智能体的学习与优化。 然而,来自上海交通大学和 SII 的最新研究却给出了一个非共识答案: 仅需 312 条人类标注轨迹 ,使用 Claude 3.7 Sonnet 合成更丰富的动作决策,就 能激发模型 241% 的性能,甚至 超越 Claude 3.7 Sonnet extended thinking 模式 ,成为 Windows 系统上开源电脑智能体的 新一代 SOTA 。 312 条轨迹在不同软件上的分布 思维链补全:让「动作」有「思考」的支撑 这一发现传递出一个关键信号: 当前大模型已经具备了使用电脑完成任务的基础能力,其性能瓶颈主要在于长程推理(long-horizon planning)能力的激 发, ...
晚点播客丨硅谷怎么看 DeepSeek?与 FusionFund 张璐聊开源、Agent 和除了 AI
晚点LatePost· 2025-02-13 13:01
技术的力量,开源的力量,初创生态的力量。 整理丨刘倩 ▲扫描上图中的二维码,可收听播客。《晚点聊 LateTalk》#100 期节目。欢迎在小宇宙、喜马拉雅、苹果 Podcast 等渠道关注、收听我们。 《晚点聊 LateTalk》是《晚点 LatePost》推出的播客节目。"最一手的商业、科技访谈,最真实的从业者思考。" 2025 年 1 月,农历春节也没有让模型竞赛丝毫减速。DeepSeek 发布开源推理模型 R1,以相对低的成本,在一些 Benchmark 上比 肩,甚至超越了 o1 的表现,在全球掀起了广泛讨论。 这期节目,我们邀请了 2015 年,在硅谷创立了 Fusion Fund 的投资人张璐,来和我们一起聊一聊,当前美国科技圈和硅谷语境中, 对 DeepSeek 等模型的讨论。 我们也延展聊了 DeepSeek-R1 和 o1 等推理模型打开的 Agent(智能体)应用空间;以及在美国的科技投资视野中,除了 AI,大家还 在关注什么。 Fusion Fund 曾投资 Grubmarket、Al 会议公司 Otter.ai 还有 Al 与医疗结合的公司 Subtle Medical 等。在 Al ...