重要性加权SFT(iw SFT)
Search documents
SFT的本质,其实是在优化RL目标的下界...
自动驾驶之心· 2025-10-22 00:03
作者 | 欲壑难填@知乎 转自 | SFT 其实在优化 RL 目标的下界 原文链接: https://zhuanlan.zhihu.com/p/1950847739404456574 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,如有侵权,联系删文 ,欢迎添加小助理微信AIDriver004做进一步咨询 TL;DR:本文推导出在稀疏奖励的情况下, 标准 SFT 的训练目标其实是 RL 目标的一个(松的)下界,为了收紧这个下界同时 保持训练稳定,作者引入了一个桥梁分布 来进行调节。最终在形式上得到了一个重要性加权版本的 SFT 目标。 论文链接:https://arxiv.org/abs/2507.12856 SFT 的优化目标是 RL 的下界 在 SFT 的设定下,我们只有 "好的" 回复数据。从 RL 的视角来看,这可以理解为我们有一个打分函数 能够区分出好的回 复和差的回复,并据此构建一个奖励函数 ,只对打分值为正的样本给出奖励值 1,其他样本奖励值均为 首先,我们通过目标函数的推导,将 SFT 和 RL 联系起来。 RL 策略梯度算法中,训练策略 ...