自博弈(Self-Play)
Search documents
华人一作,Meta等复刻AlphaZero神话,AI甩开人类自修成神
3 6 Ke· 2025-12-29 02:44
当模型学会「左右互搏」的那一刻,平庸的模仿时代结束了,真正的硅基编程奇迹刚刚开始。 编程界的AlphaZero时刻,终于来了? 当年,AlphaZero抛弃人类棋谱,仅凭「左右互搏」便参透了超越千年的棋道。 而今天,AI程序员的致命伤,恰恰就在于它们太像「人」了—— 靠学习人类代码长大的AI,注定无法突破人类的平庸。 就在最近,来自Meta、UIUC和CMU的研究团队,凭借最新成果Self-play SWE-RL(SSR),正在试图复刻AlphaZero的神话—— 抛弃人类教师,拒绝模仿。 论文地址:https://arxiv.org/pdf/2512.18552 只要给AI一个代码库,让它分饰「破坏者」与「修复者」进行死斗。 在这场无需人类插手的自我博弈中,一种真正的、超越人类经验的编程奇迹,正在诞生。 被「喂养」的AI与人类数据的天花板 从Devin到OpenDevin,再到各大厂内部的代码助手,它们确实能帮程序员干不少脏活累活。 但这里有一个隐形的瓶颈。 目前主流的训练方法,无论是SWE-RL还是DeepSWE,本质上都是在教AI「模仿」。 这种依赖人类知识的模式有三个致命伤: 数据不够用:高质量的、带 ...