Workflow
AI基准测试
icon
Search documents
xbench评测集正式开源
红杉汇· 2025-06-17 13:27
https://xbench.org/ 2. github: https://github.com/xbench-ai/xbench-evals 3. huggingface: 三周前,我们正式推出了xbench,一款致力于量化AI系统在真实场景的效用价值,以及采用长青评估机制 的AI基准测试。 这期间,从大厂到创业公司,从大模型研究者到AI Agent开发者,我们收到了来自海内外的大量咨询,特别 是希望使用xbench评测集对他们的产品进行测试的需求与日俱增。 把红杉投资团队进行内部测评的工具打造成一款公开的AI基准测试,用公开透明的方式吸引更多AI人才和 项目的共创,是我们打造xbench的初衷。我们相信开源精神可以让xbench更好地进化,为AI社群创造更大的 价值。 因此,红杉中国今天正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。未来,我们将基 于大模型和AI Agent的发展情况不断动态更新评测集,并且采用"黑白盒"机制,既保证xbench的发展可以服 务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbenc ...
谷歌推出开源框架,要给AI大模型的跑分“立规矩”
3 6 Ke· 2025-05-28 23:34
"不服跑个分",曾经是风靡手机圈的一句话,只不过随着用户越来越注重产品的综合体验,"唯分数 论"已经逐渐被手机行业边缘化。可贯彻着万物皆可跑分的原则,AI大模型也成为了"不服跑个分"新的 受众。 只不过相比于智能手机、PC,AI大模型跑分如今还属于是"百家争鸣"的状态。 其中既有清华大学的C-Eval、上海交通大学的CMMLU、伯克利的大模型竞技场(Chatbot Arena)等知名学府推出的榜单,也有民间高手自建的MMLU,甚至于做投资的红杉中国也 搞出了自己的AI基准测试工具xbench。 有鉴于此,谷歌也坐不住了。 01 除了测试AI大模型的性能,作为业界巨头,谷歌还为LMEval引入了Giskard安全评分,以展示其规避有 害内容的表现,百分比越高则代表安全性越强。同时为了打消开发者的顾虑,谷歌方面强调测试结果会 存储在加密的SQLit数据库中,确保数据本地化、且不会被搜索引擎抓取。 02 可是谷歌旗下如今是有Gemini模型的,他们再做一个LMEval真的不是既当裁判员,又当运动员吗? 其实谷歌也是不得已而为之,毕竟当下AI大模型的基准测试可谓是群魔乱舞。比如,Meta最新的LIama 4模型之所以 ...
速递|红杉中国进军AI测评赛道:xbench为何要“摆脱智力题”考察AI的真实效用?
Z Potentials· 2025-05-27 02:37
在基础模型疯狂"刷榜"的时代,传统的AI基准测试正迅速失效——各大模型纷纷取得满分,评测榜单失去了区分度与指导意义。当"考卷"不再能反映真实 能力,测评本身就成了问题。 因此,构建一个更加科学、长效和反映 AI 客观能力的评测体系,正在成为指引 AI 技术突破与产品迭代的重要需求。 5 月 26 日,红杉中国宣布推出全新的 AI 基准测试 xbench ,并发布论文《 xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real- World Evaluations 》。这是首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的 AI 基 准测试。 xbench 将在评估和推动 AI 系统能力提升上限与技术边界的同时,重点量化 AI 系统在真实场景的效用价值,并长期捕捉 Agent 产品的关键突破。 xbench 基准测试的特点包括: • xbench 采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与 Agent 的实际落地价值。该体系创新性地将评 ...
一个打破信息差的神器,用了就离不开
佩妮Penny的世界· 2025-05-26 08:07
大家好,我是佩妮。 今天是一期生产力工具推荐,介绍一个对我有很大帮助的产品,这就是 沉浸式翻译。 它很年轻,22 年底才由独立开发者 Owen 创立,是一个浏览器双语对照翻译插件。 (灵感是他在阅读一本双语对照版本的纸质书《芭巴拉少校》时迸发的。1-2 周就 solo开发完成了初版。前 50 万用户全部来自口碑传播。好 羡慕开发者!有啥想要的可以自己做……) 目前,沉浸式翻译在全球有千万级用户在使用,2024 年还获得了Google 的 年度全球最佳扩展程序; 自从开始使用产品,确实极大地便利了我的阅读和信息获取(尤其是外文材料),我也推荐给了身边很多的朋友。 后来比较巧的是,产品所属公司的创始人也加入了我的社群(后面找机会和他录一期播客哈哈),还给群友送了很多会员福利,感恩的心。 (免费就足够好用, 文末我也会发一些 pro 会员福利 哈,欢迎大家来使用!) 我描述一下我自己核心的使用场景,希望对大家有帮助: 1)外网各类信息的快速浏览,比如财经网站,社交媒体等等; 因为个人工作原因,我平时会看比如 FTime(金融时报),WSJ(华尔街日报), Bloomberg(彭博) ,这些信息经常成为国内各种小作文 ...
当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试
Di Yi Cai Jing· 2025-05-26 05:30
5月26日,红杉中国宣布推出一款全新的AI基准测试工具xbench,由红杉中国发起,联合国内外十余家高校和研究机构的数十位博士研究生,采用双轨评估 体系和长青评估机制。 双轨评估体系是指构建多维度测评数据集,同时追踪模型的理论能力上限与Agent的实际落地价值。长青评估机制是指动态的、持续更新的评估方法。此前 行业模型进行榜单成绩对比时,会面临"刷榜"质疑。即静态评估集会出现题目泄露问题,模型反复测试可以将分数"刷"上去。 主流模型"刷爆"题目的速度越来越快,基准测试的有效时间在急剧缩短。 | Benchmark | | Category | 1st | @ 2nd | | --- | --- | --- | --- | --- | | ﺣﺎﻟﺔ | xbench-ScienceQA | AGI Tracking | 03- high | Gemini 2.5 Pro 57.2 | | | | | 60.8 | | | | xbench-DeepSearch | AGI Tracking | 03 65+ | o4-mini-high 60+ | | රි | xbench-Profession- recru ...
刚刚,投资机构首创的AI基准测试xbench诞生!
母基金研究中心· 2025-05-26 04:12
随着基础模型的快速发展和 AI Ag e n t进入规模化应用,被广泛用于评估AI能力的基准测试 (Be n c hma r k)却面临一个日益尖锐的问题:想要真实反映AI系统的客观能力正变得越来越困 难,这其中最直接的表现——基础模型"刷爆"了市面上的基准测试题库,纷纷在各大测试榜单 上斩获高分甚至满分。 因此,构建一个更加科学、长效和反映 AI客观能力的评测体系,正在成为指引AI技术突破与 产品迭代的重要需求。 5月2 6日,红杉中国宣布推出全新的AI基准测试x b e n c h,并发布论文《x b e n c h : Tr a c k i n g Ag e n ts Pr o d u c ti v it y, Sc a li n g wit h Pr o f e ssi o n -Ali g n e d Re a l-Wo rl d Ev a l u a ti o n s》。这是 首个由投资机构发起,联合国内外十余家顶尖高校和研究机构的数十位博士研究生,采用双轨 评估体系和长青评估机制的AI基准测试。x b e n c h将在评估和推动AI系统能力提升上限与技术 边界的同时,重点量化AI系统在真实场景 ...
今天,我们推出xbench
红杉汇· 2025-05-25 23:20
随着基础模型的快速发展和AI Agent进入规模化应用阶段,被广泛使用的基准测试 (Benchmark) 却面临一 个日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。 因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重 要需求。 有鉴于此,红杉中国今天正式推出一款全新的AI基准测试工具xbench, 并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》 。 在评估和推动AI系统提 升能力上限与技术边界的同时,xbench会重点量化AI系统在真实场景的效用价值,并采用长青评估的机 制,去捕捉Agent产品的关键突破。 (点击文末 【阅读原文】 即可 下载阅读 本论文,建议使用电脑端进行下 载) 摘 要 • xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实 际落地价值。该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术 边界;(2)量化 ...