RDPO(残差狄利克雷策略优化)框架
Search documents
西湖大学提出RDPO强化学习框架,实现扩散模型并行推理加速
量子位· 2026-01-13 07:21
非羊 整理自 凹非寺 量子位 | 公众号 QbitAI 用扩散模型 (比如Stable Diffusion) 一张张"挤"出高分辨率图像的时代,正在被世界模型实时生成高清视频的浪潮冲刷。 但无论图像还是视频,扩散模型骨子里的"顺序去噪"过程,就像一场无法并行的接力赛,成为速度提升的终极瓶颈。 如何在不伤及模型"绘画功力"的前提下,为它装上加速引擎? 西湖大学AGI Lab提出的 RDPO(残差狄利克雷策略优化)框架 ,给出了一种巧妙的答案: 不必改动模型本身,而是优化它的"采样导航 系统" 。 重要的是,由于额外的梯度计算是 独立 的,它们可以完全 并行化 ,从而保持 低延迟采样 的特性。 团队引入了一个 两阶段优化框架 :最初,EPD-Solver通过基于 蒸馏 的方法优化一小组可学习参数;随后,团队进一步提出了一种参数高 效的强化学习微调框架 RDPO ,将求解器重新构建为随机的狄利克雷 (Dirichlet) 策略。 与微调庞大骨干网络的传统方法不同,团队的RL方法严格在 低维求解器空间 内运行,在增强复杂文本到图像 (T2I) 生成任务性能的同 时,有效缓解了奖励作弊 (Reward Hacking) ...