不止修bug:Agentic Coding评测走向复杂feature交付新阶段
机器之心·2026-03-04 03:58
在 Princeton 发布 SWE-Bench 之后,用 真实世界 代码 仓库+可执行测试 评测大模型软件工程能力,几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范 式迅速发展,也催生了一系列 SWE 系列 benchmark,在刻画模型 bug 修复能力方面发挥了重要作用。 但真实的软件工程实践并不止于修 bug。大量关键工作发生在 feature 级别的 End-to-End 开发 中:它往往意味着更长的代码路径、更复杂的跨文件依赖,以及对 为填补这一空白, 中国科学院自动化研究所联合华为 聚焦 Test-Driven 的评测范式,提出了 FeatureBench(Benchmarking Agentic Coding in End-to-End Development of Complex Features) ,并构建了一整套覆盖 数据构建、推理与评测 的端到端基础设施。数据、管线代码与执行镜像均已完整开源,旨在为评估与 推动更强、更全面的 agentic coding 模型提供新的基准。 长期上下文与整体系统行为的理解。 也就是说,能修 bug 并不意味着能交付一个完整的 feat ...