Workflow
CodeFuse
icon
Search documents
不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜
机器之心· 2025-06-27 06:44
机器之心报道 编辑:吴昕 Agentless+开源模型,也能高质量完成仓库级代码修复任务,效果媲美业界 SOTA 。 一、Agentless 、44% 与 NO.1 说到 AI 写代码的实力,大家最关心的还是一个问题:能不能真修 bug ? 首个全自动 AI 软件工程师 Devin 一出场就引爆了技术圈,其江湖地位也在权威基准 SWE-Bench 上被进一步坐实—— 独立解决了 13.86% 的问题,远远甩开 GPT-4 仅有的 1.7% ,Claude2 也不过 4.8% 。 没过多久,Genie 又在同一测试中直接将得分拉升至 30.08% ,曾一度登顶全球最强 AI 程序员。 SWE-Bench 为何能赢得工业界、学术界和创业团队广泛关注?因为,它够真实。 这套由普林斯顿大学提出的测试集,任务全部来自真实的 GitHub 项目—— 问题要么是开发者在生产环境中遇到的 bug ,要么是功能开发中的典型需求,难度大、上下文复杂,最大程度地还原了程序员在真实开发中的工作状态。 换句话说,能在 SWE-Bench 上拿高分的模型,必须具备一个经验丰富软件工程师的复杂技能和经验,而这些恰恰是传统代码生成 benc ...
大模型首次直接理解代码图:不用Agent自动修bug,登顶SWE-Bench开源模型榜单
量子位· 2025-06-27 06:08
来自蚂蚁的开源新模型,在SWE-bench Lite上 超越所有开源方案 ,性能媲美闭源模型。 具体表现如下,在SWE-bench Lite上: 明敏 发自 凹非寺 量子位 | 公众号 QbitAI AI自动修bug,解决率达 44% !这是全球开源模型的最新 最强水平 。 | | | SWE-bench | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | | Lite Verified Multimodal | Full | | | | | | | | Open Weight Model V Open Source System Checked | | (All Tags Selected) | | | | | | | Model | | % Resolved | Org | Date | Logs | Trajs | Site | | CodeFuse-CGM | | 44.00 | JEFK | 2025-03-10 | V | V | 6 | | KGCompass + DeepSeek V3 | | 36.67 | (1) | ...