Workflow
腾讯混元升级AI绘画微调范式,在整个扩散轨迹上优化,人工评估分数提升300%
TENCENTTENCENT(HK:00700) 量子位·2025-09-15 03:59

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 让AI生成的图像更符合人类精细偏好,在32块H20上训练10分钟就能收敛。 腾讯混元新方法让微调的FLUX1.dev模型人工评估的真实感和美学评分提高3倍以上。 当前的扩散模型虽然能通过奖励机制来贴合人类喜好,但存在两个问题:一是优化步骤少,容易出现 "奖励作弊",也就是模型为了拿高分生 成质量差的图;二是需要离线调整奖励模型才能达到好的美学效果,不够灵活。 为此,团队提出两个关键方法: 一个是Direct-Align,通过预先注入噪声,能从任意时间步恢复原图,避免了只在后期步骤优化的局限,减少了 "奖励作弊"。 另一个是语义相对偏好优化(SRPO),它把奖励变成受文本控制的信号,通过添加正面和负面提示词,能在线调整奖励,不用额外数据就能 灵活适配需求。 论文公开后,有开发者评价SRPO看起来就像下一代RLHF。 更重要的是,这种方法支持在整个扩散轨迹上进行优化,而不是像ReFL、DRaFT等方法那样只能在后期步骤训练。 实验发现,仅在后25%时间步训练会导致严重的奖励黑客问题,模型会过度拟合奖励函数的偏好,比如HPSv2偏好红色调、PickScore偏好 ...