红杉中国,刚刚发了一篇Paper
投资界·2025-05-26 03:09
还有一个全新的benchmark 红杉中国,以出乎意料的方式刷屏国内AI圈。 报道 I 投资界PEdaily 今天,红杉中国对外宣布推出一款全新的AI基准测试工具x be n c h,并发布了一篇解释其 工作原理的论文。这是自2 02 2年Cha tGPT点燃AGI赛道之后,第一家由投资机构主导发 布的基准测试(Be n c hma r k),给火爆的AI圈增添了新的话题。 红杉中国出品,有何不同? x b e n c h最早是红杉中国在20 2 2年Ch a tGPT推出后,对AGI进程和主流模型进行的内部月 评与汇报。在建设和不断升级"私有题库"的过程中,发现主流模型"刷爆"题目的速度越 来越快,基准测试的有效时间在急剧缩短。 在官宣的技术报告中,红杉中国提出了这个让AI界头疼的问题:想要真实地反映AI的客 观 能 力 正 变 得 越 来 越 困 难 , 如 何 构 建 更 加 科 学 、 长 效 和 如 实 反 映 AI 客 观 能 力 的 评 价 体 系,正成为指引AI基数突破与产品迭代的重要需求。 科 学 、 长 效 和 如 实 反 映 , 切 中 了 当 前 AI 基 准 测 试 的 痛 点 。 ...