Workflow
从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
机器之心·2025-08-08 07:53

那么,当我们将任务从「修复一个已知问题」升级为 「根据软件文档添加一个新功能」 时,当今最强的 AI 模型表现如何? 近日,由浙江大学牵头,联合香港科技大学、德国斯图加特大学等机构的研究者们,共同推出了一个全新的评估基准 NoCode -be nch 。这项研究直面真实世界中 更为常见的「自然语言驱动功能添加」任务,意外发现: 即便是当前最佳 LLM,在此任务上的成功率也仅有两成 ,揭示了当前 AI 在真实软件开发能力上的巨大 挑战。 论文的主要作者为浙江大学研究员刘忠鑫及其研究生邓乐、蒋中豪,其他作者包括香港科技大学研究助理教授曹嘉伦、德国 CISPA 和斯图加特大学教授 Michael Pradel。刘忠鑫的主要研究领域为代码智能,包括代码生成与变更、代码表示学习等;曹嘉伦的主要研究领域包括 AI&SE、人工智能测试、形式化验证等。 当前,大型语言模型(LLM)在软件工程领域的应用日新月异,尤其是在自动修复 Bug 方面,以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而,软 件开发远不止于修 Bug,功能开发与迭代才是日常工作的重头戏。 论文标题: NoCode-bench: A B ...