基准测试的陷阱

Search documents
《我的世界》成为AI新「考场」?高三生用游戏评测AI:DeepSeek-R1位列第三
3 6 Ke· 2025-03-25 12:45
《我的世界》成为AI新「考场」?高三生用游戏评测AI:DeepSeek-R1位列 第三 如果要衡量 AI 的智能程度,你会怎么做?让它解数学题、写代码,还是让它通过标准化考试?这些方法虽然严谨,但普通人往往难以直观理解 AI 的能 力差异。 近来,一位高三学生 Adi Singh 找到了一个更有趣的办法——用《我的世界》(Minecraft)来评测 AI!他创建了一个名为 MC-Bench 的网站,让不同的 AI 大模型在《我的世界》里建造建筑物,然后由网友投票评选出表现最好的模型。 据悉,这个项目迅速吸引了大量 AI 研究人员和开发者的关注,OpenAI、Google、Anthropic 和阿里巴巴等大型企业虽未直接参与开发,但也为该项目提 供了 AI 计算资源支持。 一名高中生,创建了一种新的 AI 评测基准 如今,研究人员通常会使用标准化测试来评估 AI 模型的表现,但许多测试都给了AI"主场优势"。 由于 AI 模型的训练方式,它们一般较为擅长解决特定、狭窄的问题,尤其是需要死记硬背或简单推理的任务。例如,AI 模型在 LSAT 法律考试、数学推 理测试等标准化考试中得分很高,但在现实应用中仍然容易犯 ...