High-Resolution Image Synthesis with Latent Diffusion Models

2024-09-19
作者 szh
~ 4.17K 字

1. 研究背景、动机、主要贡献
1. 主要贡献
2. 论文提出的新方法
3. 论文方法的理论分析或实验评估方法与效果

4. 论文创新点

1. 研究背景、动机、主要贡献

传统的扩散模型在像素空间操作，导致计算开销巨大，训练和推理都非常耗时。特别是高分辨率图像合成需要大量的GPU资源，限制了模型的广泛应用。

为了降低计算复杂度，作者提出在预训练的自动编码器的潜在空间中进行扩散模型的训练。使LDM能够在保持视觉细节的同时大大减少计算量。

此外，作者引入了交叉注意力机制，使模型能够进行灵活的条件生成任务，如文本生成图像或边界框生成图像。

主要贡献

比以前的工作提供更忠实和详细的重建
计算复杂度降低
高分辨率图像合成

2. 论文提出的新方法

Perceptual Image Compression

感知压缩模型基于之前的工作，由一个基于感知损失和基于patch的对抗性目标相结合训练的自动编码器组成。与依赖像素级损失（如L2或L1）不同，感知损失和对抗性目标可以确保生成的图像在整体结构和局部细节上都与真实图像一致，从而避免模糊，保持高质量的重建效果。

感知损失（perceptual loss）：感知损失通过衡量重建图像与原始图像在高层次特征空间中的差异，来指导模型生成更逼真的图像。它使用预训练的神经网络（如VGG）提取图像的高层次特征，而不是单纯比较像素级的差异。这样可以更好地保持图像的整体视觉质量和语义一致性。
基于patch的对抗性目标（patch-based adversarial objective）：这是通过生成对抗网络（GAN）来进一步提高图像的局部质量。在这种方法中，判别器会评估图像的局部区域（patch）是否真实，从而迫使生成模型生成更加逼真的局部细节。这种局部对抗性目标可以有效防止重建图像中出现模糊或失真的问题。
自动编码器由编码器和解码器两部分组成。编码器负责将输入的高维图像压缩为低维的潜在表示，解码器则从潜在表示中重建出原始图像。

编码器对高分辨率图像进行下采样，将其压缩为低维的潜在表示，然后解码器根据潜在表示重建图像。通过不同的下采样因子，在尽可能减少信息丢失的情况下，压缩图像以减少计算复杂度。

作者为避免潜在空间中出现高方差，采用了两种正则化策略：KL正则化和VQ正则化。通过这两种方法，模型能够更稳定地工作，并且可以在保持图像细节的同时实现较轻的压缩。与之前的将潜在空间表示成一维的自回归方法不同，作者保留了潜在空间的二维结构，这意味着潜在表示保留了空间信息（如图像的高度和宽度），而不是将图像压缩成一维序列。从而更好地保存了图像的空间信息，并且生成效果更加逼真、细腻。

KL正则化（KL-reg.）：

这种方法引入了Kullback-Leibler（KL）散度作为正则化手段。KL散度通常用于衡量两个概率分布之间的差异。在这里，它的作用是将学习到的潜在表示 z 的分布拉近到标准正态分布（mean = 0，variance = 1），类似于变分自编码器（VAE）。
通过在潜在空间上引入KL惩罚，模型可以避免潜在表示的方差过大，保持潜在空间的紧凑性。

VQ正则化（VQ-reg.）：

VQ正则化基于向量量化（Vector Quantization, VQ）技术，这种技术在VQ-VAE和VQGAN中广泛应用。它通过离散化潜在空间中的连续表示，使得模型更好地捕捉离散的语义信息。
在这里，VQ层被集成到解码器中，通过将潜在表示限制在特定的离散值上来实现正则化。
VQGAN（Vector Quantized Generative Adversarial Network）是基于VQ的生成模型，作者的设计与VQGAN类似，但VQ层直接融入了解码器结构。

Latent Diffusion Models

相比传统的像素空间，这种低维的潜在空间去除了感知不重要的细节，保留了关键的语义信息，使生成模型能够更加专注于生成重要的图像部分。模型采用UNet架构并通过优化重加权的变分下界，能够在保持高效性的同时生成高质量的图像。

重加权变分下界：在这个模型中，生成过程通过优化一个重加权的变分下界来实现。这种重加权机制允许模型将注意力集中在图像中感知上最重要的部分。损失函数的形式如下：其中，模型在时间 t 上根据潜在表示进行去噪。
时间条件的UNet：模型的主干是一个时间条件的UNet。UNet是一种适合图像生成的神经网络架构，通过卷积操作捕捉图像的局部特征，并逐步恢复图像细节。在这个模型中，UNet根据输入的噪声和时间步 t 进行去噪。
在训练时，前向过程是固定的。一旦潜在表示通过编码器 E 得到，模型可以通过单次通过解码器 D 将潜在表示解码回图像。这种高效的推理过程使得生成图像更加快速。

Conditioning Mechanisms

扩散模型可以通过引入条件输入来进行灵活的图像生成。本文的方法通过交叉注意力机制结合不同模态的输入（如文本、语义图等），并使用特定领域编码器处理这些输入。这种方法使得扩散模型不仅能够生成高质量图像，还能根据输入的条件对生成结果进行精确控制。训练过程中，去噪自编码器和条件编码器是联合优化的，从而确保模型能够同时学习如何去噪和如何从条件中提取信息。这种机制的灵活性使得模型能够适应多种生成任务。

条件生成模型
- 条件分布 p(z∣y)：扩散模型可以建模条件分布 p(z∣y)。条件生成意味着模型可以通过给定的输入条件来生成特定的输出。例如，给定某个文本描述，模型可以生成与该描述相关的图像。
- 条件去噪自编码器 ：噪声输入、时间步 t，还引入条件信息 y。通过条件去噪自编码器，模型能够在去噪过程中利用 y 来指导生成的方向。y 可以是文本、语义地图、或者其他形式的条件输入。
Beyond Class Labels
- 以往的扩散模型主要通过类别标签（class labels）或者模糊图像变体（blurred variants of the input image）进行条件生成。然而，将扩散模型与其他条件输入形式结合，目前仍然是一个研究较少的领域。
- 本文提出将扩散模型与交叉注意力机制（cross-attention mechanism）结合，扩展了模型的条件生成能力。
交叉注意力机制
- UNet架构中的交叉注意力：通过交叉注意力机制增强其底层 UNet 主干网。具体地，通过交叉注意力层来处理多种输入模态（如语言提示），从而使模型在不同的输入条件下生成相应的图像。
- 处理条件输入 y
  - 为了处理不同类型的条件输入 y（如文本、图像或语义图），模型引入了一个特定领域编码器 。该编码器将输入 y 投射到一个中间表示 ，表示为维度为 $Missing superscript or subscript argument Md_$ 的矩阵。
  - 通过交叉注意力机制，模型能够将条件输入 y 的中间表示用传递给UNet的中间层。具体的注意力机制计算如下：
    - Q 是对UNet中间表示进行线性变换后的查询矩阵。
    - K 和 V 是通过将条件输入进行线性变换后的键和值矩阵。
    - 注意力机制通过对 Q 和 K 的点积进行加权，从 V 中提取相关信息，从而在生成过程中融入条件信息。
条件扩散模型的训练
- 损失函数变为：
- 损失函数衡量模型预测的去噪结果与真实的噪声之间的差异。和是联合优化的，所以模型不仅学习去噪的过程，还学习如何从条件输入中提取有用信息。
- 可以由特定领域的专家进行参数化

3. 论文方法的理论分析或实验评估方法与效果

3.1 感知压缩的权衡分析

探讨不同下采样因子 f 对模型生成质量和计算效率的影响，分别在进行实验。
较小的压缩因子（如 LDM-1）需要更多的训练时间，而较大的压缩因子（如 LDM-32）虽然计算效率高，但生成的图像质量较差。适中的压缩因子（如 LDM-4 到 LDM-16）在计算效率和图像质量之间达到了良好的平衡。

3.2 无条件图像生成

在 CelebA-HQ、FFHQ、LSUN-Churches 和 ImageNet 数据集上训练了无条件生成模型，图像分辨率为 256x256。
LDM-4 模型在 CelebA-HQ 数据集上达到了新的最优 FID 分数，在生成质量上超越了GAN和VAE等方法。

3.3 文本条件生成

在 MS-COCO 数据集上测试文本条件生成，使用交叉注意力机制将文本提示与生成图像关联。
LDM 模型在文本条件生成任务中的表现优于其他基于自回归模型的生成方法，如 DALL-E 和 CogView，在 FID 和生成多样性方面具有优势。

3.4 超分辨率与图像修复

超分辨率：LDM 模型在 ImageNet 数据集上进行了 64x64 到 256x256 的超分辨率生成实验，生成的图像细节更为逼真。
图像修复：在 Places 数据集上进行了图像修复实验（inpainting），特别是对图像中 40-50% 被遮挡区域进行修复。