CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准
机器之心·2025-08-30 10:06
你是否也好奇过:现在的模型在各类榜单分数都那么高,实际体验却不符预期? 我们也看过各种 AI Coding 领域的评测,发现大多停留在了 「代码生成」与「封闭题目」的考核,却忽视了环境配置、依赖处理、跨仓库资源利用等开发者必经 的真实需求 —— 当下众多 Benchmark 仅通过题目,已难以衡量 Code Agent 的实际效果。 为突破现有评测局限, 中科院、北大、港科大、中科大、新加坡国立大学等机构的研究者,与前沿开源学术组织 QuantaAlpha 及阶跃星辰姜大昕团队联合 ,首次 提出并开源了 repo-level 的 测评新范式 GitTaskBench : 1)真正考察 Agent 从 仓库理解 → 环境配置 → 增量开发 / 代码修复 → 项目级交付 的全链路能力,指引了迭代新范式 2)首次把「框架 × 模型」的「经济收益」纳入评测指标,给学界、业界以及创业者都带来了很好的思路启发 GitTaskBench 分布一览 其开源版覆盖了 7 大模态 × 7 个领域 × 24 个子领域 及 54 个真实任务: 对应后端仓库 18 个,包含平均 204 个文件、1,274.78 个函数、52.63k ...