Blended Latent Diffusion

2024-10-31
作者 szh
~ 1.78K 字

1 研究背景、动机、主要贡献
2 论文提出的新方法
3 论文实验评估方法与效果
4 论文方法局限性

1 研究背景、动机、主要贡献

1.1 研究背景

GAN的崛起，扩散模型迅速发展，视觉-语言模型（如CLIP）的发展，Blended Diffusion 的提出。

1.2 存在问题(动机)

1.2.1 现有方案

Blended Diffusion、GLIDE和DALL·E 2

1.2.2 现有方案缺点

长推理时间
Blended Diffusion的像素级处理会带来噪声伪影，影响图像质量
需要精确编辑狭窄区域时，这些方法的处理效果较差。

1.3 主要贡献

局部文本引导的图像编辑。
解决了LDM固有的重建不准确的问题。
设计了一种掩码扩展和收缩的方法，使得模型在处理狭窄编辑区域时更为精准。
提出了适用于局部文本引导编辑的指标。

对Blended Diffusion的改进：

在潜在空间中进行，且每一步的去噪也不再计算 CLIP-loss gradients。
背景重建方面：
- 潜在空间优化
- 微调解码器权重
解决 m 较小时可能无法编辑的问题。

2 论文提出的新方法

2.1 Blended Latent Diffusion

将输入图像 x 编码到潜在空间，。掩码 m 也下采样到同样的空间尺寸，以便在潜在空间中进行掩码融合，得到缩小后的掩码。
每一步的去噪也不再计算 CLIP-loss gradients。

优势

更快的推理速度：在潜在空间中操作使得计算量大幅减少，扩散过程速度更快。此外，避免在每一步计算 CLIP 损失梯度，使整个编辑过程加快一个数量级。
避免像素级伪影：直接在像素空间操作可能导致像素值超出有效范围，出现明显的剪裁伪影，而潜在空间的操作避免了这些问题。
规避对抗样本问题：在潜在空间操作并避免 CLIP 损失梯度，可以减少生成对抗样本的风险，因此不需要额外的增强策略。
更高的精度：相比其他方法，该方法在批次和最终预测上表现出更高的精确度。

局限性

重建不完美：由于 VAE 编码有损，最终结果受到解码器的重建能力限制。在高频细节较多的图像中（如人脸），这种微小差异可能变得明显。
掩码过窄：如果输入掩码 m 较窄，缩小后的掩码变得更窄，可能导致编辑效果不明显甚至完全无效。

2.2 Background Reconstruction

背景重建面临的问题：

编码损失。背景区域在解码后的图像中看起来与原始图像不一致，尤其是在细节内容（如人脸或文字）中显得不自然。
生成部分与背景的融合产生可见的接缝
使用 Poisson Image Editing 会导致编辑区域出现明显的颜色变化

潜在空间优化

微调解码器权重

2.3 Progressive Mask Shrinking

如果输入掩码 m 包含较细的区域，会变得更窄，可能到无法影响编辑结果的程度。

因此，在去噪过程的早期阶段，使用扩大后的粗略掩码来覆盖更广泛的区域，从而更好地实现粗略的颜色和形状的编辑；随着去噪逐渐深入，掩码也逐步缩小，仅在最后的去噪步骤中使用精细的掩码。

2.4 Prediction Ranking

生成多个可能的编辑结果，使用CLIP模型将每个生成的图像转换为嵌入向量，然后计算这些向量与文本提示的嵌入向量之间的归一化余弦距离。

3 论文实验评估方法与效果

推理时间上：

应用：

对象编辑
背景替换
涂鸦引导编辑

4 论文方法局限性

推理速度：在A10 GPU上生成一批排序后的预测图像仍需超过1分钟。
该方法的排序主要关注生成的遮蔽区域，却未能全面考虑整个图像的整体感和真实感。一些图像的各个区域可能看起来都较为真实，但组合在一起却缺乏整体的真实感。
引导文本可能会被模型解释为文本生成任务，而非图像内容生成。例如当提示词为“大山”时，模型可能生成一个“名为大山的电影海报”，而不是实际的山。
该方法对输入提示词、掩码或图像的细微变化较为敏感，小的输入改变可能导致生成结果的轻微变化。

原文链接：Blended Latent Diffusion

szh's Blog

Blended Latent Diffusion

1 研究背景、动机、主要贡献

1.1 研究背景

1.2 存在问题(动机)

1.2.1 现有方案

1.2.2 现有方案缺点

1.3 主要贡献

2 论文提出的新方法

2.1 Blended Latent Diffusion

2.2 Background Reconstruction

2.3 Progressive Mask Shrinking

2.4 Prediction Ranking

3 论文实验评估方法与效果

4 论文方法局限性

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

szh's Blog

1 研究背景、动机、主要贡献

1.1 研究背景

1.2 存在问题(动机)

1.2.1 现有方案

1.2.2 现有方案缺点

1.3 主要贡献

2 论文提出的新方法

2.1 Blended Latent Diffusion

2.2 Background Reconstruction

2.3 Progressive Mask Shrinking

2.4 Prediction Ranking

3 论文实验评估方法与效果

4 论文方法局限性

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可