1 研究背景、动机、主要贡献
1.1 研究背景
GAN的崛起,扩散模型迅速发展,视觉-语言模型(如CLIP)的发展,Blended Diffusion 的提出。
1.2 存在问题(动机)
1.2.1 现有方案
Blended Diffusion、GLIDE和DALL·E 2
1.2.2 现有方案缺点
- 长推理时间
- Blended Diffusion的像素级处理会带来噪声伪影,影响图像质量
- 需要精确编辑狭窄区域时,这些方法的处理效果较差。
1.3 主要贡献
- 局部文本引导的图像编辑。
- 解决了LDM固有的重建不准确的问题。
- 设计了一种掩码扩展和收缩的方法,使得模型在处理狭窄编辑区域时更为精准。
- 提出了适用于局部文本引导编辑的指标。
对Blended Diffusion的改进:
- 在潜在空间中进行,且每一步的去噪也不再计算 CLIP-loss gradients。
- 背景重建方面:
- 潜在空间优化
- 微调解码器权重
- 潜在空间优化
- 解决 m 较小时可能无法编辑的问题。
2 论文提出的新方法
2.1 Blended Latent Diffusion
- 将输入图像 x 编码到潜在空间,
。掩码 m 也下采样到同样的空间尺寸,以便在潜在空间中进行掩码融合,得到缩小后的掩码 。 每一步的去噪也不再计算 CLIP-loss gradients。
优势
- 更快的推理速度:在潜在空间中操作使得计算量大幅减少,扩散过程速度更快。此外,避免在每一步计算 CLIP 损失梯度,使整个编辑过程加快一个数量级。
- 避免像素级伪影:直接在像素空间操作可能导致像素值超出有效范围,出现明显的剪裁伪影,而潜在空间的操作避免了这些问题。
- 规避对抗样本问题:在潜在空间操作并避免 CLIP 损失梯度,可以减少生成对抗样本的风险,因此不需要额外的增强策略。
- 更高的精度:相比其他方法,该方法在批次和最终预测上表现出更高的精确度。
局限性
- 重建不完美:由于 VAE 编码有损,最终结果受到解码器的重建能力限制。在高频细节较多的图像中(如人脸),这种微小差异可能变得明显。
- 掩码过窄:如果输入掩码 m 较窄,缩小后的掩码
变得更窄,可能导致编辑效果不明显甚至完全无效。
2.2 Background Reconstruction
背景重建面临的问题:
- 编码损失。背景区域在解码后的图像中看起来与原始图像不一致,尤其是在细节内容(如人脸或文字)中显得不自然。
- 生成部分与背景的融合产生可见的接缝
- 使用 Poisson Image Editing 会导致编辑区域出现明显的颜色变化
潜在空间优化
微调解码器权重
2.3 Progressive Mask Shrinking
如果输入掩码 m 包含较细的区域,
因此,在去噪过程的早期阶段,使用扩大后的粗略掩码来覆盖更广泛的区域,从而更好地实现粗略的颜色和形状的编辑;随着去噪逐渐深入,掩码也逐步缩小,仅在最后的去噪步骤中使用精细的
2.4 Prediction Ranking
生成多个可能的编辑结果,使用CLIP模型将每个生成的图像转换为嵌入向量,然后计算这些向量与文本提示的嵌入向量之间的归一化余弦距离。
3 论文实验评估方法与效果
推理时间上:
应用:
- 对象编辑
- 背景替换
- 涂鸦引导编辑
4 论文方法局限性
- 推理速度:在A10 GPU上生成一批排序后的预测图像仍需超过1分钟。
- 该方法的排序主要关注生成的遮蔽区域,却未能全面考虑整个图像的整体感和真实感。一些图像的各个区域可能看起来都较为真实,但组合在一起却缺乏整体的真实感。
- 引导文本可能会被模型解释为文本生成任务,而非图像内容生成。例如当提示词为“大山”时,模型可能生成一个“名为大山的电影海报”,而不是实际的山。
- 该方法对输入提示词、掩码或图像的细微变化较为敏感,小的输入改变可能导致生成结果的轻微变化。