类GAN训练框架
Search documents
两个LLM互相对线,推理能力起飞:康奈尔团队发布大模型版类GAN训练法
机器之心· 2025-12-07 02:52
大型语言模型(LLMs)虽然通过可验证奖励的强化学习(RLVR)取得了显著进展,但仍然在很大程度上依赖外部监督(例如人工标注的数据)。自博弈(self- play)提供了一种有前景的替代方案,使模型能够通过与自身反复对抗来学习,从而减少对外部监督的依赖。GAN 则提供了另一种更具吸引力的训练范式:通过 对抗式地训练两个模型,其中一个模型专注于生成具有挑战性的任务或对抗样本,另一个模型则专注于解决这些任务。 于是问题来了:LLM 是否也可以像 GAN 一样进行训练?我们的希望是,通过赋予每个模型不同的专门化角色,可以促进持续的竞争与共同进化,从而让它们能 够解决单一模型可能从根本上无法胜任的任务。 为解决这一难题,来自康奈尔大学的 NLP 团队提出了 Pa soDo ble ,一个面向大语言模型的全新类 GAN 训练框架。PasoDoble 通过对抗式地训练 两个几乎相同的 模型 :Proposer 用于生成带有标准答案的高难度问题,Solver 则尝试解决这些问题。我们进一步利用高质量的数学预训练语料,并引入离线训练范式,以缓解潜在 的训练不稳定性。值得注意的是,PasoDoble 在整个训练过程中 不依赖 ...