LMArena

Search documents
AI圈顶级榜单曝黑幕,Meta作弊刷分实锤?
虎嗅APP· 2025-05-01 13:51
本文来自微信公众号: 新智元 ,作者:新智元,编辑:ZJH,原文标题:《AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛 斥》,题图来自:AI生成 有越来越多的人发现:大模型排行榜LMArena,可能已经被大厂们玩坏了! 就在最近,来自Cohere、普林斯顿、斯坦福、滑铁卢、MIT和Ai2等机构的研究者,联手祭出一篇新论文,列出详尽论据,痛斥AI公司利用LMArena作 弊刷分,踩着其他竞争对手上位。 论文地址: https://arxiv.org/abs/2504.20879 与此同时,AI大佬、OpenAI创始成员Andrej Karpathy也直接下场,分享了一段自己的亲身经历。 前一段时间,Gemini模型一度在LMArena排名第一,远超第二名。 但Karpathy切换使用后,感觉还不如他之前用的模型。 相反,大约在同一时间,他的个人体验是Claude 3.5是最好的,但在LMArena上的排名却很低。 | Rank* (UB) | A Model | Azena | A 95% CI | ﻪ Votes | 4 Organization | 4 License A | | -- ...