AI智能体(AI Agent)

Search documents
红杉中国大动作!发布全新AI基准测试工具xbench,意义几何
Zheng Quan Shi Bao Wang· 2025-05-26 12:50
5月26日,红杉中国对外宣布推出一款全新的AI基准测试工具xbench,并发布了一篇解释其工作原理的论文。这一突破性进展标志着自2022年ChatGPT引 爆通用人工智能(AGI)赛道以来,投资机构首次主导发布基准测试(Benchmark),给当下火爆的AI投资又加了一把火,在业内也受到广泛关注。 过去两年多,AI Benchmark渐渐成为评估基础大模型和AI Agent(AI智能体)能力的通用工具,海内外高校、研究机构和AI公司推出了大量不同维度的测试 体系。随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试却面临一个日益尖锐的问题:想要真实地反映AI的客观能力正变 得越来越困难。 基于以上需求,根据红杉中国的介绍,xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值。 该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术边界;(2)量化AI系统在真实场景的效用价值(Utility Value)。其中,后 者需要动态对齐现实世界的应用需求,基于实际工作流程和具体社会角色,为各垂直领域构建具有明确 ...