Workflow
自我博弈
icon
Search documents
清华&通院推出"绝对零"训练法,零外部数据大模型自我博弈解锁推理能力
量子位· 2025-05-12 04:11
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 不用引入外部数据 ,通过自我博弈(Self-play)就能让预训练大模型学会推理? 来自清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员,提出了一种名为 "绝对零" (Absolute Zero)的训练方式。 这种方法通过让大模型根据推理目标,自己生成并解决任务,便可以获得推理能力。 测试中,用"绝对零"训练出的模型,表现已 经超过了用专家标注样本训练的模型 。 并且"绝对零"方法只需在代码环境中训练,但可以让模型在数学推理上也取得显著进步。 这项研究也在Reddit上引发了讨论,开帖转载的网友惊叹:会自我进化的AI已经被解锁了? Proposer负责生成新的推理任务,Solver负责解决这些任务。通过两个角色的交替和协同,模型可以自主地构建学习任务分布,并在求解任 务的过程中不断提升推理能力。 "绝对零"将所有的推理任务统一表示为 (p,i,o) (即程序,输入,输出)的三元组形式。 这里的程序是一段可执行的代码,输入是该程序的输入数据,输出是程序在给定输入下的输出结果。 在出题-做题中自我学习 "绝对零"采用了一种自我博弈的学习范式。在这个 ...
很值得留意: Robust Autonomy Emerges from Self-Play
理想TOP2· 2025-04-28 12:49
2025年2月5日苹果发布Robust Autonomy Emerges from Self-Play, 所有作者名看起来都不是中国人。 论文链接: https://arxiv.org/pdf/2502.03349 小米王乃岩对这篇论文的评价是现阶段强化学习如果想攻克自动驾驶,最相关,也是最值得推荐的一 个工作。王乃岩个人觉得这是一个里程碑级别的工作,标志着强化学习在自动驾驶中向前迈了一大 步。 这篇论文如果能被后世公认为里程碑级别的工作,意味着将来量产的更强的自动驾驶方案将通过Self- Play RL( 自我博弈强化学习)的方式获得。 这是第一篇在自动驾驶领域证明了完全基于 Self-Play RL( 自我博弈强化学习)的有效性。其在所有闭 环benchmark(nuPlan、CARLA、Waymax)上都刷到了benchmark(基准测试)性能上限。 如果 Self-Play RL( 自我博弈强化学习)将来不成为自动驾驶主流或热点研究方案,那这篇论文也就称 不上里程碑工作。 一旦 Self-Play RL( 自我博弈强化学习)成为了自动驾驶主流方案,意味着人类驾驶数据重要性将大大 降低,极端情况下是压根 ...