“大模型第一股”打响上市前哨战!智谱GLM-4.7 刷新开源编程SOTA,修复代码、终端操作表现超Claude 4.5
AI前线·2025-12-23 07:29

GLM-4.7 主打编程与代理式任务(coding + agentic tasks)的提升 ,同时在 推理能力 等方面也有所增强。 众所周知,今年的大模型,已经从卷"会答题"发展成了 卷"能干活" 。对应的变化,也体现在评测体系上,这些测试覆盖了真实代码修改、终端操作、多 工具调用以及长链路任务执行等场景。 作者 | 木子、高允毅 正在 冲刺大模型第一股 的 智谱 ,今天又拿出了诚意满满的新一代大模型 GLM-4.7,还给开源了 。 智谱也是 把 GLM-4.7 一口气送进了 17 项基准测试 ,和 GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro、DeepSeek-V3.2、Kimi K2 Thinking 等同台竞 技。 然后在一众强劲对手中,GLM-4.7 还在 两项 BenchMark 中刷新了公开 SOTA :在 AIME 2025 (测试高级数学推理能力)中正确率已达 95.7%;在 BrowseComp-ZH 中分数达 66.6%。 | Benchmark 基准 | GLM-4.7 | GLM-4.6 | Kimi K2 Thinking | DeepSeek- V3 ...