AI替代程序员?一项最新测试的结果恰恰相反 | 企服国际观察
Tai Mei Ti A P P·2025-06-25 05:54
AI编程已经成为生成式AI落地的过程中最热门的赛道之一,不过,近日一支由国际算法奥赛金牌得主 组成的科研团队发表的论文却跟AI编程"泼了一盆冷水"。 AI优势仍停留在"知识密集型" 这支由国际算法奥赛金牌得主组成的科研团队对目前市面上常见的大模型产品(包括了GPT-4o、 DeepSeek R1、Claude 3等20个顶级大模型)进行了测试(点击阅读LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),测试主要内容是:一个由Codeforces、 ICPC和IOI这些顶级赛事中的问题组成的LiveCodeBench Pro基准测试,在过程中,这些问题会持续更 新,以降低数据污染的可能性,共计设置了584道编程赛题。 他们为每一个问题进行了算法类别的标注,并对模型生成的失败提交进行了逐行分析。 在难度层级设置上面,团队采用 Codeforces Elo评级启发式方法进行难度标注。官方Elo评级≤2000 的问 题标记为 "简单":世界级选手通常可使用标准教科书技术和观察在约 15 分钟内解决;中 ...