Kimi K2 Thinking突袭,智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距
3 6 Ke·2025-11-07 03:07
Kimi K2 Thinking,现已发布并开源! 主打一个"模型即Agent",不仅是Kimi"迄今能力最强的开源思考模型",还掌握边思考,边使用工具的能力—— 无需人工干预,即可执行200-300次连续工具调用。 作为今年最受关注的开源模型系列之一,Kimi K2的Thinking版本一上线,就成为热议对象:再次缩小了开源模型与闭源模型的差距。 更多技术细节速览在此: △ 技术细节 官方提到,K2 Thinking是月之暗面在Test-Time Scaling(测试时扩展)领域的最新进展,通过同时扩展思考Token和工具调用轮次,模型实现了更强的 Agent和推理性能。 智能体、推理能力全面提升 体现在测试上,在人类最后的考试(HLE)中,允许使用工具——搜索、Python、网络浏览工具的同等情况下,Kimi K2 Thinking取得了44.9%的SOTA成 绩。 在人类最后的考试(HLE)、测试自主网络浏览能力的BrowseComp,和复杂信息收集推理基准测试SEAL-0等评测基准中,Kimi K2 Thinking都刷新了 SOTA,超越GPT-5、Claude Sonnet 4.5(Thinkin ...