SFT与RL的结合 - filings, earnings calls, financial reports, news

SFT与RL的结合

Search documents

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

机器之心· 2025-09-22 02:05

本文的第一作者曾敏来自 vivo AI Lab，主要研究方向为大语言模型、强化学习、agent。监督微调（SFT）和强化学习（RL）微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展，但是在文本分类场景，强化学习未取得较大的进展，其表现往往不如监督学习。 SFT 和 RL 在训练的过程中都存在各自的特点：SFT 直接对着答案「死记硬背」，简单且有效，收敛速度快，但是泛化能力不行。而 RL 通过探索来获得答案，泛化能力强。但强化学习只会一味地探索，而不学习答案，学习速度缓慢，可能出现长期无法得到收敛甚至最后出现训练不稳定的现象。为了解决这些难题，最近， vivo AI Lab 算法团队提出了一种新的大模型后训练框架 GTA，该方法可以综合发挥出 SFT 的优点和 RL 的优点，成功解决了文本分类场景中 RL 收敛速度慢的问题。该论文已被 AI 顶级学术会议之一的 EMNLP 2025 录用。论文标题：GTA: Supervised-Guided Reinforcement Learning for Text Classification with Lar ...

SFT与RL的结合

Artificial Intelligence

GTA (Supervised - Guided Reinforcement Learning for Text Classification with Large Language Models)

SFT与RL的结合

Artificial Intelligence

GTA (Supervised - Guided Reinforcement Learning for Text Classification with Large Language Models)