清华&通院推出"绝对零"训练法,零外部数据大模型自我博弈解锁推理能力
量子位·2025-05-12 04:11
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 不用引入外部数据 ,通过自我博弈(Self-play)就能让预训练大模型学会推理? 来自清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员,提出了一种名为 "绝对零" (Absolute Zero)的训练方式。 这种方法通过让大模型根据推理目标,自己生成并解决任务,便可以获得推理能力。 测试中,用"绝对零"训练出的模型,表现已 经超过了用专家标注样本训练的模型 。 并且"绝对零"方法只需在代码环境中训练,但可以让模型在数学推理上也取得显著进步。 这项研究也在Reddit上引发了讨论,开帖转载的网友惊叹:会自我进化的AI已经被解锁了? Proposer负责生成新的推理任务,Solver负责解决这些任务。通过两个角色的交替和协同,模型可以自主地构建学习任务分布,并在求解任 务的过程中不断提升推理能力。 "绝对零"将所有的推理任务统一表示为 (p,i,o) (即程序,输入,输出)的三元组形式。 这里的程序是一段可执行的代码,输入是该程序的输入数据,输出是程序在给定输入下的输出结果。 在出题-做题中自我学习 "绝对零"采用了一种自我博弈的学习范式。在这个 ...