xbench评测集正式开源
红杉汇·2025-06-17 13:27
https://xbench.org/ 2. github: https://github.com/xbench-ai/xbench-evals 3. huggingface: 三周前,我们正式推出了xbench,一款致力于量化AI系统在真实场景的效用价值,以及采用长青评估机制 的AI基准测试。 这期间,从大厂到创业公司,从大模型研究者到AI Agent开发者,我们收到了来自海内外的大量咨询,特别 是希望使用xbench评测集对他们的产品进行测试的需求与日俱增。 把红杉投资团队进行内部测评的工具打造成一款公开的AI基准测试,用公开透明的方式吸引更多AI人才和 项目的共创,是我们打造xbench的初衷。我们相信开源精神可以让xbench更好地进化,为AI社群创造更大的 价值。 因此,红杉中国今天正式开源xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。未来,我们将基 于大模型和AI Agent的发展情况不断动态更新评测集,并且采用"黑白盒"机制,既保证xbench的发展可以服 务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbenc ...