Workflow
谷歌推出开源框架,要给AI大模型的跑分“立规矩”
3 6 Ke·2025-05-28 23:34

"不服跑个分",曾经是风靡手机圈的一句话,只不过随着用户越来越注重产品的综合体验,"唯分数 论"已经逐渐被手机行业边缘化。可贯彻着万物皆可跑分的原则,AI大模型也成为了"不服跑个分"新的 受众。 只不过相比于智能手机、PC,AI大模型跑分如今还属于是"百家争鸣"的状态。 其中既有清华大学的C-Eval、上海交通大学的CMMLU、伯克利的大模型竞技场(Chatbot Arena)等知名学府推出的榜单,也有民间高手自建的MMLU,甚至于做投资的红杉中国也 搞出了自己的AI基准测试工具xbench。 有鉴于此,谷歌也坐不住了。 01 除了测试AI大模型的性能,作为业界巨头,谷歌还为LMEval引入了Giskard安全评分,以展示其规避有 害内容的表现,百分比越高则代表安全性越强。同时为了打消开发者的顾虑,谷歌方面强调测试结果会 存储在加密的SQLit数据库中,确保数据本地化、且不会被搜索引擎抓取。 02 可是谷歌旗下如今是有Gemini模型的,他们再做一个LMEval真的不是既当裁判员,又当运动员吗? 其实谷歌也是不得已而为之,毕竟当下AI大模型的基准测试可谓是群魔乱舞。比如,Meta最新的LIama 4模型之所以 ...