Workflow
机器学习工程
icon
Search documents
大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源
量子位· 2025-07-26 09:01
小石不是小石头 投稿 量子位 | 公众号 QbitAI 当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场"闭卷考 试"。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。 为了打破这一瓶颈,来自佐治亚理工学院和斯坦福大学的研究团队正式推出了 MLE-Dojo,一个专为训练和评测大模型智能体(LLM Agents)设计的"交互式武馆"。它将LLM从静态的"答题者"转变为可以在一个包含200多个真实Kaggle竞赛的环境中,不断试错、学习和进化 的"机器学习工程师"。 MLE-Dojo是一个专为机器学习工程设计的综合性Gym风格基准测试框架。与现有依赖静态数据集或单次评估的基准不同,MLE-Dojo提供了 一个完全可执行的交互式环境,让AI智能体可以通过结构化的反馈循环,反复实验、调试并优化解决方案 。 在MLE-Dojo的竞技场上,团队对当前八个顶尖的LLM进行了全面评测。 结果显示, Gemini-2.5-Pro 在综合Elo评分中拔得头筹,但即便是最强的模型,在自主生成长流程 ...