技术-市场契合点

Search documents
红杉中国推出 Agent 基准测试「xbench」,双轨评估体系,关注 AI 真实场景的效用
Founder Park· 2025-05-26 06:44
文章转载自红杉中国公众号「红杉汇」,内容略有调整。 红杉中国开放了他们内部进行 AI 和 Agent 基准测试的工具「 xbench」,并发布了相应论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。 论文地址: https://xbench.org/files/xbench_profession_v2.4.pdf TLDR: | Benchmark | Category | 151 B | 8 2nd | g 3rd | Details | | --- | --- | --- | --- | --- | --- | | xbench-ScienceQA | AGI Tracking | 03- high 60.8 | Gemini 2.5 Pro 57.2 | Doubao-1.5-thinking- pro 53.6 | View > | | xbench-DeepSearch | AGI Tracking | 03 65+ | o4-mini-high 60+ | ...
今天,我们推出xbench
红杉汇· 2025-05-25 23:20
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试 (Benchmark) 却面临一 个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重 要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench, 并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》 。 在评估和推动AI系统提 升能力上限与技术边界的同时,xbench会重点量化AI系统在真实场景的效用价值,并采用长青评估的机 制,去捕捉Agent产品的关键突破。 (点击文末 【阅读原文】 即可 下载阅读 本论文,建议使用电脑端进行下 载) 摘 要 • xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实 际落地价值。该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术 边界;(2)量化 ...