不止修bug：Agentic Coding评测走向复杂feature交付新阶段

在 Princeton 发布 SWE-Bench 之后，用真实世界代码仓库+可执行测试评测大模型软件工程能力，几乎已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展，也催生了一系列 SWE 系列 benchmark，在刻画模型 bug 修复能力方面发挥了重要作用。但真实的软件工程实践并不止于修 bug。大量关键工作发生在 feature 级别的 End-to-End 开发中：它往往意味着更长的代码路径、更复杂的跨文件依赖，以及对为填补这一空白，中国科学院自动化研究所联合华为聚焦 Test-Driven 的评测范式，提出了 FeatureBench（Benchmarking Agentic Coding in End-to-End Development of Complex Features），并构建了一整套覆盖数据构建、推理与评测的端到端基础设施。数据、管线代码与执行镜像均已完整开源，旨在为评估与推动更强、更全面的 agentic coding 模型提供新的基准。长期上下文与整体系统行为的理解。也就是说，能修 bug 并不意味着能交付一个完整的 feat ...