Workflow
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心·2025-07-18 00:38

本文第一作者操雨康,南洋理工大学MMLab博士后,研究方向是3D/4D重建与生成,人体动作/视频生成,以及图像生成与编辑。 引言 本文共同第一作者司晨阳,南京大学助理教授,研究方向是图像/视频生成,以及生成模型的优化和加速。 在图像处理领域, 「图像 morphing」 (图像变形)是一项常见又充满创意的任务 —— 它可以让两张风格迥异的图片平滑过渡、自然融合,从而生成令人惊艳的 中间图像。你可能在动画、电影特效或照片编辑中见过它的身影。 过去,这项技术往往依赖于复杂的图像对齐算法和颜色插值规则,难以应对复杂纹理和多样语义的图像变化。近年来,虽然 GAN、VAE 等深度学习方法取得了显 著进步,但它们仍然面临训练成本高、数据依赖强、反演不稳定等问题 —— 尤其在真实世界图像中表现并不稳定。 为了实现高质量的图像 morphing,研究者们先后尝试了从图像 warping 到颜色插值,从 GAN 到 VAE,甚至使用了 Stable Diffusion 和 CLIP 等大模型。然而,即使 在最先进的方案中,训练成本高、适应性差依旧是难以回避的难题。 那么,是否可能完全抛开训练?不再依赖预训练模型或额外标注?只用 ...