通专融合AGI

Search documents
真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击
机器之心· 2025-07-09 09:52
当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为 「 革命的工具 」 ,需要采用 「 通专融 合 AGI 」 方式。大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。 现有科学评测面临着两大痛点:现有测试多聚焦知识记忆,而真实科研需要从原始科学数据感知到复杂推理的全链条能力;天文、地球、生命和材料等领域存在 大量未开发的多模态数据分析需求。 为此,上海人工智能实验室 AI4S 团队推出了 Scientists' First Exam(以下简称 SFE)—— 系统评估多模态大模型(MLLMs)多学科、高难度的科学专业领域认 知能力的评测基准 。 SFE 首创 「 信号感知 - 属性理解 - 对比推理 」 三级评估体系,涵盖 五大科学领域的 66 项高价值任务 ,采用原始科学数据和中英双语问答形式。测试表明,尽管 主流模型在传统基准表现优异,但在 SFE 高阶科学任务上仍面临显著挑战( SOTA 大模型综合得分仅为 30 左右 )。SFE 通过系统全面地评测大模型在科学任务 上的能力短板,为科学 ...