国产大模型在多项基准测试中超越GPT-5
2 1 Shi Ji Jing Ji Bao Dao·2025-11-15 09:49
记者丨雷晨 编辑丨张伟贤 近期,月之暗面三位创始人杨植麟、周昕宇和吴育昕同时现身Reddit论坛,进行了一场长达数小时的线 上问答活动。 这场技术极客风格的互动,举办在Kimi K2 Thinking模型发布第五天。该模型在"人类最后的考试"等多 项基准测试中表现超越GPT-5,引发全球AI社区关注。 在问答过程中,创始人团队不仅回应了训练成本、算力优化、开源策略等核心问题,更直面海外用户 对"中国LLM"的使用疑虑。 多项测评成绩领先 11月6日晚,月之暗面推出Kimi K2 Thinking模型,并称其为"Kimi迄今能力最强的开源思考模型"。 这一模型基于"模型即Agent"理念训练,原生掌握"边思考、边使用工具"的能力。在多项权威基准测试 中,K2 Thinking达到SOTA水平。 譬如,在被称为"人类最后的考试"的HLE(Humanity's Last Exam)测试中,K2 Thinking获得了 44.9%的成绩,超过GPT-5的41.7%。在自主网络浏览能力BrowseComp基准测试中,Kimi K2 Thinking 同样以60.2%的得分,领先GPT-5的54.9%。同时在复杂信息收集 ...