智能体

Search documents
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:50
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接 突破了benchmark上限 。 具体来说,benchmark中推箱子一共就只做到了被o3-pro突破的第六关;俄罗斯方块则是强行终止的结果,实际上o3-pro根本停不下来。 如果和前SOTA——o3比较,o3-pro的成绩也是直接翻倍。 还有网友直言,比起大模型竞技场,这套标准才更适合做测试大模型的基准。 经典小游戏成为新Benchmark 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro挑战的这两个游戏,出自一套名为 Lmgame 的benchmark,顾名思义就是让大模型玩游戏。 o3-pro挑战的推箱子是从1989年的版本修改而来,在o3-pro之前,评估指标是游戏结束之前推动到目标位置的箱子总数。 不过这次o3-pro直接把所有关卡都通了,颇有种"得一百分是因为卷面只有一百分"的感觉。 但也不必担心,测试基准会动态更新,GItHub仓库中半个月前更新的游戏地图还只有四关,原版游戏更是有足足50多个关卡。 而在o3-pro挑战之前,表现最好的 ...
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
量子位· 2025-06-16 04:49
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 推箱子、俄罗斯方块……这些人类的经典怀旧小游戏,也成大模型benchmark了。 o3-pro刚刚也挑战了这两款游戏,而且表现还都不错,直接 突破了benchmark上限 。 还有网友直言,比起大模型竞技场,这套标准才更适合做测试大模型的基准。 经典小游戏成为新Benchmark o3-pro挑战的这两个游戏,出自一套名为 Lmgame 的benchmark,顾名思义就是让大模型玩游戏。 o3-pro挑战的推箱子是从1989年的版本修改而来,在o3-pro之前,评估指标是游戏结束之前推动到目标位置的箱子总数。 具体来说,benchmark中推箱子一共就只做到了被o3-pro突破的第六关;俄罗斯方块则是强行终止的结果,实际上o3-pro根本停不下来。 如果和前SOTA——o3比较,o3-pro的成绩也是直接翻倍。 不过这次o3-pro直接把所有关卡都通了,颇有种"得一百分是因为卷面只有一百分"的感觉。 但也不必担心,测试基准会动态更新,GItHub仓库中半个月前更新的游戏地图还只有四关,原版游戏更是有足足50多个关卡。 而在o3-pro挑战之前,表现最好的 ...
坚持数智赋能城市治理 加快创新融合驱动发展
Zheng Zhou Ri Bao· 2025-06-16 00:56
6月13日,省委常委、市委书记安伟深入信访智能体、教育智能体、网格智能体等场景,调研城市 智能体建设和应用情况,强调要深入学习贯彻习近平总书记在河南考察时的重要讲话精神,全面落实中 央决策和省委部署要求,以智能体城市建设为引领,围绕"场景优化、生态构建、数智赋能",推动治理 效能与民生福祉同频共振、产业活力与发展动能深度融合。 市领导吕挺琳、虎强参加调研。 安伟来到阜民里片区,实地察看商户经营、北庆里改造提升情况,仔细询问阜民里网格智能体服务 群众、化解纠纷、助力企业发展的效果。他强调,人流量大、人员密集场所是城市治理的关键区域,要 充分发挥专属网格作用,提升指挥调度效率,不断提高维护城市安全、守护群众安宁的能力。要巩固提 升一体化政务服务能力,进一步推动数据互通共享,更好服务新业态发展、服务企业和群众,为经济高 质量发展创造优良环境。 安伟在调研中强调,智能体城市建设是郑州实现高质量发展、高效能治理的关键一步。各级各部门 要持续完善数字基础设施,拓展更多惠民、兴企、强政的应用场景,推动产业转型升级,提升城市治理 效能,让智能体成为郑州创新发展的新引擎,为郑州国家中心城市现代化建设注入强大动力。 安伟走进市群 ...
下周重要事件与数据预告:超级央行周、中国社零&LPR、美国零售数据
news flash· 2025-06-15 13:01
下周重要事件与数据预告:超级央行周、中国社零&LPR、美国零售数据 1. 周一:①数据: 中国5月社会消费品零售总额年率及规上工业增加值年率,美国6月纽约联储制造业 指数;②国家统计局公布70个大中城市住宅销售价格月度报告;③国新办就国民经济运行情况举行新闻 发布会;④ 欧佩克公布月度原油市场报告;⑤习近平出席中国—中亚峰会。 2. 周二:①数据:欧元区和德国6月经济景气指数, 美国5月零售销售月率、进口物价指数月率及工业 产出月率;②1820亿元1年期中期借贷便利(MLF)到期;③ 日本央行公布利率决议;④国内成品油将 开启新一轮调价窗口;⑤ IEA公布月度原油市场报告;⑥新西兰总理访华;⑦巴以"两国方案"国际会议 举行;⑧美国国会参议院表决GENIUS法案。 3. 周三:①数据: 美国API原油库存和EIA原油库存,英国5月CPI和零售物价指数,欧元区4月季调后 经常帐,欧元区5月CPI终值, 美国初请失业金人数;②加拿大央行公布货币政策会议纪要;③印尼央 行、瑞典央行公布利率决议;④ 2025陆家嘴论坛在上海举办;⑤2025数据智能大在北京召开,将发布 《智能体产业图谱》;⑥加拿大央行行长就加拿大经济前 ...
TikTok Shop美国大换血!营收不达标,改用中国管理层;韩国一家电商公司要来中国开店,首站上海丨Going Global
创业邦· 2025-06-15 11:15
出海四小龙 「Going Global 出海周报」 是创业邦推出的出海系列栏目,旨在为出海领域的创业者和投资人精选 出海大事件、海外大公司、投融资消息,本篇为栏目第 287 篇报道。 整理丨赵晓晓 本周( 202 4 . 06 . 09 - 2025.06.15 )出海大事件包括 : TikTok Shop 美国业务由中国高管接管; TikTok 宣布在英国扩大投资; TikTok Shop 东 南亚站点放宽入驻政策, GMV 泰国超越美国; Temu 美区全托管或将恢复上架;速卖通在中东卖车;京东物流进军沙特:已开启配送,当地招募上千人 团队;携程 CEO 孙洁:未来 3-5 年海外收入占比目标翻倍;韩国时尚电商 Musinsa 拟进军中国和日本市场; Grab :目前没在同 GoTo 谈合并 等。 TikTok Shop 美国业务由中国高管接管 TikTok 宣布在英国扩大投资 TikTok 宣布将在英国扩大投资,包括在伦敦设立新办事处、扩大业务规模并新增就业岗位。 声明称, TikTok 英国员工人数今年将增至 3000 人,新增 500 多个工作岗位。 据报道, TikTok 正在伦敦巴比肯投资新建办 ...
周末,大消息不断!
证券时报· 2025-06-15 11:11
宏观•要闻 广州:优化房地产政策 全面取消限购、限售、限价并降低贷款首付比例和利率 广州近日发布《提振消费专项行动实施方案(征求意见稿)》,提出有序减少消费限制,包括优化房地产政策,全面取消限购、限售、限价,降低贷款首付比例和 利率,以满足住房消费需求。方案还提出大力发展体育消费,推动体育比赛进景区、进街区、进商圈,支持冰雪运动和赛马运动消费发展。 今年11月起 中国公民持有效澳大利亚签证可免签入境新西兰 新西兰政府官网发文指出,从2025年11月起,中国护照持有者如从澳大利亚入境,且持有有效澳大利亚旅游、工作、学生或家庭签证,将可免签进入新西兰,最长 停留3个月。 中东战局步入第三日 能源资产正沦为以伊冲突的下一个战场 以色列6月14日晚袭击伊朗能源设施,导致部分设施起火,影响伊朗国内能源供应。据以方称,这是其首次袭击伊朗能源基础设施,或许意味着能源资产正在成为 以伊冲突的下一个战场。在伊朗能源安全备受威胁之际,霍尔木兹海峡的安危成为大众关心的问题,对封锁的担忧情绪蔓延。 特朗普提交其任内首份公开财务披露报告:通过持有加密货币平台股份获得超5700万美元收益 当地时间6月13日晚,美国总统特朗普提交了其任内 ...
周末,大消息不断!
证券时报· 2025-06-15 11:10
宏观•要闻 广州:优化房地产政策 全面取消限购、限售、限价并降低贷款首付比例和利率 广州近日发布《提振消费专项行动实施方案(征求意见稿)》,提出有序减少消费限制,包括优化房地产政策,全面取消限购、限售、限价,降低贷款首付比例和 利率,以满足住房消费需求。方案还提出大力发展体育消费,推动体育比赛进景区、进街区、进商圈,支持冰雪运动和赛马运动消费发展。 今年11月起 中国公民持有效澳大利亚签证可免签入境新西兰 新西兰政府官网发文指出,从2025年11月起,中国护照持有者如从澳大利亚入境,且持有有效澳大利亚旅游、工作、学生或家庭签证,将可免签进入新西兰,最长 停留3个月。 中东战局步入第三日 能源资产正沦为以伊冲突的下一个战场 以色列6月14日晚袭击伊朗能源设施,导致部分设施起火,影响伊朗国内能源供应。据以方称,这是其首次袭击伊朗能源基础设施,或许意味着能源资产正在成为 以伊冲突的下一个战场。在伊朗能源安全备受威胁之际,霍尔木兹海峡的安危成为大众关心的问题,对封锁的担忧情绪蔓延。 特朗普提交其任内首份公开财务披露报告:通过持有加密货币平台股份获得超5700万美元收益 当地时间6月13日晚,美国总统特朗普提交了其任内 ...
近期必读!Devin VS Anthropic 的多智能体构建方法论
歸藏的AI工具箱· 2025-06-15 08:02
播客内容由 listenhub 生成,懒得看的话也可以听 昨天最热的的两篇文章是关于多智能体系统构建的讨论。 先是 Anthropic 发布了他们在深度搜索多智能体构建过程中的一些经验,具体:包括多智能体系统的优势、架构概览、提示工程与评估、智能体的有效评估等方 面。 另外一边 Devin 的开发商 Cognition 的一个负责人 Walden 发布文章告诫大家不要构建多智能体,指出一些常见但实际效果不佳的方法,特别是多智能体架构的弊 端。 这篇文章主要就是结合两篇文章看一下 Cognition 提到的多智能体架构弊端和 Anthropic 给出的解决方案 。同时后面也会有两篇文章非常详细的总结。 什么是多智能体 多智能体系统由多个智能体(大型语言模型 [LLM] 自主地循环使用工具)协同工作组成。 在这种系统中,一个主智能体(或协调器)会根据用户查询规划研究过程,然后使用工具创建并行操作的子智能体,这些子智能体同时搜索信息。这种架构允许主 智能体协调整个过程,同时将任务委托给专门的子智能体。 所以具体的步骤一般为: 1. 将工作分解为多个部分 首先是领域选择: 他们将多智能体系统应用于他们认为特别适合并行 ...
AI智能体上线,营销人下线? | AI无悖论
Hu Xiu· 2025-06-14 07:06
题图|AI生成 当智能体开始替代人类完成端到端的业务流程,一个根本性问题浮出水面: AI时代下,行业的运行规则是会被AI彻底重构,还是借助AI,被放大其原有本质? 过去十年,以ROI为标准的流量算法让品牌建设逐渐走向短视与程式化;而今天,生成式AI带来的不仅是内容生产力的提升,更可能是品牌思维范式的彻底 跃迁。 要真正实现AI原生的品牌管理,仅靠引入几个工具远远不够。这背后需要的是底层数据的重构、工作流的改写,以及对品牌本质的重新回答:你的价值是 什么?你为谁而存在?你是否具备持续被理解与记住的能力? 最近,《虎嗅·AI无悖论》节目特别邀请中欧国际工商学院市场营销学教授、副教务长、ESG研究领域主任王雅瑾,以及蓝色光标CEO、中欧EMBA校友潘 飞进行了探讨,请他们分享了对于AI与品牌营销的深度思考: 本期主持人为资深媒体人、热AInext主理人陈庆春。 以下是交流实录,有删编: AI能否重构品牌营销的本质? 主持人:目前在AI冲击下,营销行业发生的较大变革是什么? 潘飞:整体来说,今天生成式AI的爆发本质上是大语言文本类模型的爆发,距离多模态和视频模型的爆发还有一段时间距离。从用户洞察、内容生成、沉 浸式的 ...
多智能体在「燃烧」Token!Anthropic公开发现的一切
机器之心· 2025-06-14 04:12
机器之心报道 机器之心编辑部 研究多智能体必读指南。 「Anthropic 发布了他们如何使用多个 Claude AI 智能体构建多智能体研究系统的精彩解释。对于任何构建多智能体系统的人来说,这是一本必读的指南。」刚 刚,X 知名博主 Rohan Paul 强力推荐了 Anthropic 一项新研究。 最近一段时间,关于智能体的研究层出不穷。但这也为广大研究者带来一些困惑,比如什么任务需要多智能体?多个 AI 智能体如何协作?怎么解决上下文和记忆 问题…… 面对这些问题,你不妨读读 Anthropic 的这篇文章,或许能找到答案。 文章地址:https://www.anthropic.com/engineering/built-multi-agent-research-system 多智能体系统的优势 有些研究涉及开放式问题,这类问题往往难以预先确定所需的步骤。对于复杂问题的探索,人类无法硬性规定固定路径,因为这一过程本质上是动态且具有路径 依赖性的。当人们开展研究时,通常会根据发现持续调整方法,沿着调查过程中浮现的线索不断推进。 这种不可预测性使得 AI 智能体特别适合执行研究类任务。研究工作要求具备灵活性 ...