国产大模型在多项基准测试中超越GPT-5
21世纪经济报道·2025-11-15 10:00
记者丨雷晨 编辑丨张伟贤 近期,月之暗面三位创始人杨植麟、周昕宇和吴育昕同时现身Reddit论坛,进行了一场长达数小时的线上问答活动。 这场技术极客风格的互动,举办在Kimi K2 Thinking模型发布第五天。 该模型在"人类最后的考试"等多项基准测试中表现超越GPT-5,引发全 球AI社区关注。 在问答过程中,创始人团队不仅回应了训练成本、算力优化、开源策略等核心问题,更直面海外用户对"中国LLM"的使用疑虑。 多项测评成绩领先 11月6日晚,月之暗面推出Kimi K2 Thinking模型,并称其为"Kimi迄今能力最强的开源思考模型"。 这一模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力。在多项权威基准测试中,K2 Thinking达到SOTA水平。 譬如, 在被称为"人类最后的考试"的HLE(Humanity's Last Exam)测试中,K2 Thinking获得了44.9%的成绩,超过GPT-5的41.7%。在 自主网络浏览能力BrowseComp基准测试中,Kimi K2 Thinking同样以60.2%的得分,领先GPT-5的54.9%。同时在复杂信息收集推理 ...