CGM(Code Graph Model)

Search documents
不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜
机器之心· 2025-06-27 06:44
机器之心报道 编辑:吴昕 Agentless+开源模型,也能高质量完成仓库级代码修复任务,效果媲美业界 SOTA 。 一、Agentless 、44% 与 NO.1 说到 AI 写代码的实力,大家最关心的还是一个问题:能不能真修 bug ? 首个全自动 AI 软件工程师 Devin 一出场就引爆了技术圈,其江湖地位也在权威基准 SWE-Bench 上被进一步坐实—— 独立解决了 13.86% 的问题,远远甩开 GPT-4 仅有的 1.7% ,Claude2 也不过 4.8% 。 没过多久,Genie 又在同一测试中直接将得分拉升至 30.08% ,曾一度登顶全球最强 AI 程序员。 SWE-Bench 为何能赢得工业界、学术界和创业团队广泛关注?因为,它够真实。 这套由普林斯顿大学提出的测试集,任务全部来自真实的 GitHub 项目—— 问题要么是开发者在生产环境中遇到的 bug ,要么是功能开发中的典型需求,难度大、上下文复杂,最大程度地还原了程序员在真实开发中的工作状态。 换句话说,能在 SWE-Bench 上拿高分的模型,必须具备一个经验丰富软件工程师的复杂技能和经验,而这些恰恰是传统代码生成 benc ...