SDE(Scientific Discovery Evaluation)评测体系
Search documents
一夜200万阅读,OpenAI神同步,这项测评框架让全球顶尖LLM全翻车
3 6 Ke· 2026-01-15 01:26
这篇中国团队领衔发布的论文,已经在外网刷屏了,仅一夜阅读就达到了200万!这位MIT博士回国创业后组建的团队,拉来全球24所顶级机 构,给AI如何助力科学发现来了一剂猛药。 最近,一篇由中国团队领衔全球24所TOP高校机构发布,用于评测LLMs for Science能力高低的论文,在外网炸了! 当晚,Keras (最高效易用的深度学习框架之一)缔造者François Chollet转发论文链接,并喊出:「我们迫切需要新思路来推动人工智能走向科学创 新。」 AI领域KOL Alex Prompter分享论文核心摘要后,NBA独行侠队老板Mark Cuban跟帖转发,硅谷投资人、欧洲家族办公室、体育媒体同时涌进评论区。 仅一夜,累计阅读量逼近200万。 值得一提的是,同一时间窗里,OpenAI也发布了对于AI在科学发现领域能力评测的论文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出现有评测标准在AI for Science领域失灵。 神同步OpenAI、海外讨论出圈,究竟是什么样的一份工作成 ...