ICLR 2026 oral | AI代码真能进生产环境?SwingArena:从「写对代码Commit」到「通过CI审查」
机器之心·2026-02-12 06:45

过去一年,大模型写代码的能力几乎以肉眼可见的速度提升。从简单脚本到完整功能模块,GPT、Claude、DeepSeek 等模型已经能够在几秒钟内生成看起来相当 "专业" 的代码。 这种能力的提升,让很多人开始认真思考一个问题: AI 能不能真正参与到软件工程的核心流程中? 但越接近真实开发,这个问题就越显得复杂。因为在工业界,"写出一段能跑的代码" 远远不够。 代码是否能被合并,取决于它能否通过完整的持续集成(Continuous Integration,简称 CI)流水线——这是一种在代码开发过程中,通过自动化的构建、测试和代 码检查,确保每一次改动都能在真实工程环境下稳定运行的机制。 此外,代码还需符合项目规范、经得起代码审查,并在多轮修改中保持稳定可靠。遗憾的是,现有主流代码评测基准,几乎都停留在"能否通过几个单元测试"的层 面。 SwingArena 的出发点,正是填补这块长期缺失的评测空白。 该论文已被 ICLR 2026 正式接收。目前,SwingArena 已实现 全栈开源。 在传统评测中,模型面对的是一个高度简化的问题:给定函数签名和说明,只要输出能通过测试的实现即可。这种设定对于衡量基础编程 ...