Workflow
多智能体工作流
icon
Search documents
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 04:57
西风 发自 凹非寺 量子位 | 公众号 QbitAI "人类最后的考试"首次 突破30分 ,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。 直到最近, 最高分也不过26.9 ,由Kimi-Research和Gemini Deep Research并列取得。 现在,上海交大联合深势科技团队突然发布了一项新研究,在"人类最后的考试" (HLE,Humanity's Last Exam) 上一举拿下 32.1分 , 创下新纪录。 在这项研究中,团队推出 工具增强推理智能体X-Master 、 多智能体工作流系统X-Master s。 划重点:还直接把这套方案给 开源 了。 网友们纷纷感叹现在AI竞赛太激烈,一天一个样。 另外值得一提的是,这项研究 使用了DeepSeek-R1-0528作为驱动智能体的推理模型 ,由此也有网友表示: R1在函数调用上表现仍欠佳,而且在这项研究里甚至没有针对这一点进行微调。但即便如此,只要给它搭配合适的框架,它在HLE这 个难度很高的测试中就能拿到32%的成绩。 虽然大家可能会习惯性地称R1为"最佳基础模型",但我觉得这其实是给V4打下了基础。我敢肯定, ...