Workflow
身份特征泄露
icon
Search documents
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法
机器之心· 2025-05-03 04:18
扩散模型(Diffusion Models, DMs)如今已成为文本生成图像的核心引擎。凭借惊艳的图像生成能力,它们正悄然改变着艺术创作、广告设计、乃至社交媒体内容 的生产方式。如今,只需一段文字,就能生成一张极具风格的个性化头像,已经不再稀奇。 但,如果我们想要的不只是 "一个人" 的照片呢? 在朋友缺席的聚会中,我们是否可以 "补全" 一张大家都在的合影?在广告场景中,我们是否可以自由组合多位虚拟角色,讲述一个多人物的故事?个性化的多人 图像生成正成为新的想象力疆域。但同时,它也带来了前所未有的技术挑战。 其中最棘手的,就是 身份特征泄露(ID leakage) —— 明明是两个人,却因为特征混淆,生成出面容 "融合" 的人脸,令人难以分辨谁是谁。更进一步,用户往往 还希望可以 精确指定每个人的位置和动作 ,实现更自然真实的构图和创意有趣的互动。可一旦位置错乱,原本的故事就变了味儿。 从单人走向多人,挑战也随之升级 如今,个性化单人照片生成已能达到令人惊艳的视觉效果。但当我们尝试生成多人互动照片时,问题便不再简单。 本文第一作者为密歇根州立大学计算机系博士生张益萌,系 OPTML 实验室成员,指导老师为刘 ...