Rectified Flow (RF)反演稳定性
Search documents
西湖大学破解Rectified Flow反演不稳定难题,实现零成本稳定增强|ICLR'26
量子位· 2026-03-02 09:09
PMI团队 投稿 量子位 | 公众号 QbitAI 近年来,大规模生成模型在视觉内容生产中的能力不断提升,人们对AI的使用方式也逐渐从"纯生成"转向"可控生成"与"智能编辑"。 在创意设计、影视制作、社交媒体、数字人建模等实际场景中,用户往往希望模型不仅能够从文本生成图像,更能够对现有内容进行精细修 改,例如保持主体不变的局部编辑、风格调整、跨帧一致的视频修改与现实照片的结构化增强等。 这些任务的共同前提是:模型必须具备稳定可靠的 反演(inversion)能力 ,能够将输入图像准确映射回自身的潜在表示空间。 在新一代生成架构中,Rectified Flow (RF) 模型凭借高效的ODE推理、光滑的生成轨迹以及良好的训练稳定性,正成为替代扩散模型的 重要方向。越来越多的主流模型开始采用流式生成结构,希望借助其速度、可控性与结构化潜力构建统一式的生成系统。 然而,与其在正向生成上的表现相比,RF在反演阶段仍然面临根本性的数值不稳定问题: 逆向路径对误差高度敏感,容易偏离前向轨迹, 不同次反演得到的latent表示差异显著,噪声在逆向传播中被放大。 这些问题使得RF模型难以在实际编辑任务中稳定重建输入图像,限制 ...