SFT与RL的结合
Search documents
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
机器之心· 2025-09-22 02:05
本文的第一作者曾敏来自 vivo AI Lab,主要研究方向为大语言模型、强化学习、agent。 监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场 景,强化学习未取得较大的进展,其表现往往不如监督学习。 SFT 和 RL 在训练的过程中都存在各自的特点:SFT 直接对着答案「死记硬背」,简单且有效,收敛速度快,但是泛化能力不行。而 RL 通过探索来获得答案,泛 化能力强。但强化学习只会一味地探索,而不学习答案,学习速度缓慢,可能出现长期无法得到收敛甚至最后出现训练不稳定的现象。 为了解决这些难题,最近, vivo AI Lab 算法团队 提出了一种新的大模型后训练框架 GTA,该方法可以综合发挥出 SFT 的优点和 RL 的优点,成功解决了文本分 类场景中 RL 收敛速度慢的问题。该论文已被 AI 顶级学术会议之一的 EMNLP 2025 录用。 论文标题:GTA: Supervised-Guided Reinforcement Learning for Text Classification with Lar ...