Workflow
AI智能体基准测试
icon
Search documents
什么都不做就能得分?智能体基准测试出现大问题
机器之心· 2025-07-15 05:37
机器之心报道 编辑:笑寒 都在研究考生,考卷出问题了。 基准测试在评估人工智能系统的优势与局限性方面具有基础性作用,是引导科研与产业发展的关键工具。 随着 AI 智能体从研究原型逐步走向关键任务的实际应用,研究人员和从业者开始构建用于评估 AI 智能体能力与局限性的基准测试。 这和常规模型的评估方式产生了很大不同。由于智能体的任务通常需要一个真实场景,并且任务缺乏标准答案,针对 AI 智能体的基准测试在任务设计和评估方式 上要远比传统 AI 基准测试要复杂。 显然,现有的智能体基准测试 并没有达到一个可靠的状态 。 举几个例子: 近期加入英伟达担任首席研究科学家的 Banghua Zhu 发推评论这一现象,认为一个什么都不做的智能体就可以取得高达 38% 分数的现象「非常有趣」。 此外,在目前常用的 10 个 AI 智能体基准测试中(如 SWE-bench、OSWorld、KernelBench 等),研究在其中 8 个基准中发现了严重的问题,有些情况下甚至会导 致 对 AI 智能体能力 100% 的误判 。 这些数据传达出一个明确的信息: 现有智能体基准测试存在大问题。若要准确理解 AI 智能体的真实能力, ...