科学概念理解

Search documents
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学
量子位· 2025-08-25 15:47
上海交通大学王德泉教授课题组 投稿 量子位 | 公众号 QbitAI 近年来,以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型,在各大基准测试(如MMMU)中捷报频传,纷纷刷榜成功。 然而,这些令人瞩目的进展也带来了一个愈发严峻的问题:当现有的"题库"逐渐被提前预训练进模型,我们如何才能持续、准确地评估这些顶 尖AI的真实能力? 为了应对这一挑战,上海交通大学王德泉教授课题组巧妙地将"动态基准"这一理念与不断更新的科学前沿相结合,提出了 MAC(多模态学术 封面)基准 :既然科学知识本身在不断演进,为什么不用最新的科学内容来测试AI呢? 研究团队利用《Nature》《Science》《Cell》等188种顶级期刊的最新封面作为测试素材,从超过25,000个图文对中构建测试集。这些期刊 每周或每月都会发布新刊,每期封面都经过顶尖科学家和专业编辑精心打造,蕴含着最前沿、最复杂的科学概念,从而 评测多模态大模型是 否能够理解艺术化表达的视觉元素与科学概念之间的深层关联。 | MLLMs | | Image2Text Level | | | | Text2Image Level | | | | --- ...