Workflow
今天,我们推出xbench
红杉汇·2025-05-25 23:20

随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试 (Benchmark) 却面临一 个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重 要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench, 并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》 。 在评估和推动AI系统提 升能力上限与技术边界的同时,xbench会重点量化AI系统在真实场景的效用价值,并采用长青评估的机 制,去捕捉Agent产品的关键突破。 (点击文末 【阅读原文】 即可 下载阅读 本论文,建议使用电脑端进行下 载) 摘 要 • xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实 际落地价值。该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术 边界;(2)量化 ...