AI跑分越来越没意义,谷歌说不如让AI一起玩游戏
据谷歌方面介绍,此次比赛旨在通过策略游戏中的正面交锋,评估并推动AI模型在复杂推理和决策能 力上的进步,从而解决现有基准测试难以跟上模型发展速度的问题。同时他们此次赛事也是为了宣传自 己的Kaggle Game Arena平台,而后者则是谷歌推出的一个全新的、公开的基准测试平台。 与目前常规的AI基准测试不同,Kaggle Game Arena的测试题目是"策略游戏"。谷歌之所以推出一个让 AI玩游戏的平台,是因为当下传统的AI基准测试已经陷入瓶颈,难以反映旗舰模型的真实能力。简单 来说,或为名、或为利的AI厂商,已经将各种AI基准测试给玩坏了,所以作为业界巨头,谷歌选择站 出来正本清源。 其实在这一轮AI浪潮中,"钱不值钱了"是一个很特别的现象。以往独角兽通常指的是成立时间较短,估 值超过10亿美元、且未上市的科技创新企业。可现在只要创始人有一定的技术背景,一家AI初创企业 拿到10亿美元的估值几乎像吃饭喝水一样简单。 时隔八年,在生成式人工智能问世之后,谷歌又搞了一次"AI棋王争霸赛",OpenAI o4-mini、DeepSeek- R1、谷歌Gemini 2.5 Pro、Anthropic Claud ...