Blended Latent Diffusion

  1. 1 研究背景、动机、主要贡献
    1. 1.1 研究背景
    2. 1.2 存在问题(动机)
      1. 1.2.1 现有方案
      2. 1.2.2 现有方案缺点
    3. 1.3 主要贡献
  2. 2 论文提出的新方法
    1. 2.1 Blended Latent Diffusion
    2. 2.2 Background Reconstruction
    3. 2.3 Progressive Mask Shrinking
    4. 2.4 Prediction Ranking
  3. 3 论文实验评估方法与效果
  4. 4 论文方法局限性

1 研究背景、动机、主要贡献

1.1 研究背景

GAN的崛起,扩散模型迅速发展,视觉-语言模型(如CLIP)的发展,Blended Diffusion 的提出。

1.2 存在问题(动机)

1.2.1 现有方案

Blended Diffusion、GLIDE和DALL·E 2

1.2.2 现有方案缺点

  • 长推理时间
  • Blended Diffusion的像素级处理会带来噪声伪影,影响图像质量
  • 需要精确编辑狭窄区域时,这些方法的处理效果较差。

1.3 主要贡献

  1. 局部文本引导的图像编辑。
  2. 解决了LDM固有的重建不准确的问题。
  3. 设计了一种掩码扩展和收缩的方法,使得模型在处理狭窄编辑区域时更为精准。
  4. 提出了适用于局部文本引导编辑的指标。

对Blended Diffusion的改进:

  • 在潜在空间中进行,且每一步的去噪也不再计算 CLIP-loss gradients。
  • 背景重建方面:
    • 潜在空间优化
    • 微调解码器权重
  • 解决 m 较小时可能无法编辑的问题。

2 论文提出的新方法

2.1 Blended Latent Diffusion

  1. 将输入图像 x 编码到潜在空间, 。掩码 m 也下采样到同样的空间尺寸,以便在潜在空间中进行掩码融合,得到缩小后的掩码
  2. 每一步的去噪也不再计算 CLIP-loss gradients。

优势

  1. 更快的推理速度:在潜在空间中操作使得计算量大幅减少,扩散过程速度更快。此外,避免在每一步计算 CLIP 损失梯度,使整个编辑过程加快一个数量级。
  2. 避免像素级伪影:直接在像素空间操作可能导致像素值超出有效范围,出现明显的剪裁伪影,而潜在空间的操作避免了这些问题。
  3. 规避对抗样本问题:在潜在空间操作并避免 CLIP 损失梯度,可以减少生成对抗样本的风险,因此不需要额外的增强策略。
  4. 更高的精度:相比其他方法,该方法在批次和最终预测上表现出更高的精确度。

局限性

  1. 重建不完美:由于 VAE 编码有损,最终结果受到解码器的重建能力限制。在高频细节较多的图像中(如人脸),这种微小差异可能变得明显。
  2. 掩码过窄:如果输入掩码 m 较窄,缩小后的掩码 变得更窄,可能导致编辑效果不明显甚至完全无效。

2.2 Background Reconstruction

背景重建面临的问题:

  • 编码损失。背景区域在解码后的图像中看起来与原始图像不一致,尤其是在细节内容(如人脸或文字)中显得不自然。
  • 生成部分与背景的融合产生可见的接缝
  • 使用 Poisson Image Editing 会导致编辑区域出现明显的颜色变化

潜在空间优化

微调解码器权重

2.3 Progressive Mask Shrinking

如果输入掩码 m 包含较细的区域, 会变得更窄,可能到无法影响编辑结果的程度。

因此,在去噪过程的早期阶段,使用扩大后的粗略掩码来覆盖更广泛的区域,从而更好地实现粗略的颜色和形状的编辑;随着去噪逐渐深入,掩码也逐步缩小,仅在最后的去噪步骤中使用精细的 掩码。

2.4 Prediction Ranking

生成多个可能的编辑结果,使用CLIP模型将每个生成的图像转换为嵌入向量,然后计算这些向量与文本提示的嵌入向量之间的归一化余弦距离

3 论文实验评估方法与效果

推理时间上:

应用:

  • 对象编辑
  • 背景替换
  • 涂鸦引导编辑

4 论文方法局限性

  1. 推理速度:在A10 GPU上生成一批排序后的预测图像仍需超过1分钟。
  2. 该方法的排序主要关注生成的遮蔽区域,却未能全面考虑整个图像的整体感和真实感。一些图像的各个区域可能看起来都较为真实,但组合在一起却缺乏整体的真实感。
  3. 引导文本可能会被模型解释为文本生成任务,而非图像内容生成。例如当提示词为“大山”时,模型可能生成一个“名为大山的电影海报”,而不是实际的山。
  4. 该方法对输入提示词、掩码或图像的细微变化较为敏感,小的输入改变可能导致生成结果的轻微变化。

原文链接:Blended Latent Diffusion