图像编辑太慢太粗糙?全新开源自回归模型实现精准秒级修改 | 智象未来
量子位·2025-09-02 10:45
智象未来团队 投稿 量子位 | 公众号 QbitAI AI图像编辑技术发展迅猛,扩散模型凭借强大的生成能力,成为行业主流。 但这类模型在实际应用中始终面临两大难题:一是"牵一发而动全身",即便只想修改一个细节,系统也可能影响到整个画面;二是生成速度缓 慢,难以满足实时交互的需求。 针对这些痛点,智象未来(HiDream.ai)团队开辟了新路径:提出全新的自回归图像编辑框架 VAREdit 。 它引入了视觉自回归(VAR)架构,能够在遵循指令的前提下做到"指哪打哪",大幅提升编辑精准度与生成速度,推动图像编辑进入新的阶 段。 模型与代码均已开源,具体链接可见文末。 全新自回归图像编辑框架VAREdit 智象未来提出的VAREdit将视觉自回归建模引入指令引导的图像编辑中,将图像编辑定义为下一尺度预测问题,通过自回归地生成下一尺度目 标特征残差,以实现精确的图像编辑。 多尺度量化编码 :将图像表征 编码为多尺度残差视觉令牌序列R₁,R₂,…,Rₖ,其中Rₖ的空间规模(hₖ,wₖ)随着k的增大而依次递 增;融合前k个尺度残差信息的连续累积特征可通过码本查询和上采样操作进行加和,表示为 。 该方法虽能提供逐尺度参考, ...