Structured Denoising Diffusion Models in Discrete State-Spaces

  1. 1 研究背景、动机、主要贡献
    1. 1.1 研究背景
    2. 1.3 主要贡献
  2. 2 论文提出的新方法
    1. Choice of Markov transition matrices for the forward process
      1. 均匀转移矩阵
      2. 吸收状态
      3. 离散化高斯
      4. 标记嵌入距离
    2. Noise schedules
    3. Parameterization of the reverse process
    4. Loss function

1 研究背景、动机、主要贡献

1.1 研究背景

尽管扩散模型在连续数据上表现良好,但在离散数据(如文本或量化后的图像)上的应用仍然有限。现有的离散扩散模型主要集中在文本和图像分割领域,尚未在大规模文本或图像生成任务上展示出竞争力。此外,最近的大多数研究集中在高斯扩散过程上,这种过程应用于连续状态空间(例如,用于处理实数值的图像和波形数据)。而缺乏对离散数据结构或领域知识的利用。

离散扩散模型的背景:

  • 离散扩散模型最初由Sohl-Dickstein等人引入,用于处理二值随机变量的扩散过程。
  • Hoogeboom等人将这一模型扩展到分类随机变量,使用了均匀转移概率的矩阵来描述这一扩散过程。
  • Song等人在其补充材料中也推导了这个模型的扩展,但没有做相关实验。

1.3 主要贡献

2 论文提出的新方法

one-hot向量表示

类别分布

(主要利用 此公式化简。且因为马尔可夫过程, )

  • Kullback-Leibler散度是衡量两个概率分布之间差异的常用方法。在这里,假设 q 和 是两个概率分布,KL散度可以通过将两个分布的差异按条件独立性分开求和,变得易于计算。
  • 依赖于转移矩阵 ,其累积乘积(多个时间步的转移概率)通常可以以封闭形式计算或预先计算。也就是说,可以提前准备这些转移矩阵以加速模型的推理过程。然而,对于大 K 和大 T 来说,这可能是令人望而却步的。

Choice of Markov transition matrices for the forward process

  • 转移矩阵的行必须相加为1,以保证概率质量的守恒。
  • 必须在 t 增大时收敛到已知的平稳分布。
  • 对于大多数现实世界的离散数据(例如图像和文本),在转移矩阵 中添加领域相关的结构是有意义的,这样可以更好地控制前向加噪过程和可学习的反向去噪过程。

均匀转移矩阵

  • Sohl-Dickstein等人研究了一个简单的2×2转移矩阵用于二元随机变量。Hoogeboom等人将其扩展到类别变量,提出的转移矩阵为 𝟙𝟙
  • 这个转移矩阵是双重随机的,确保了平稳分布是均匀的。这种离散扩散实例被称为D3PM-uniform。

吸收状态

  • Inspired by BERT和条件掩码语言模型(CMLM),考虑一个具有吸收状态(如[MASK])的转移矩阵,使得每个标记要么保持不变,要么以概率 t 转移到[MASK]
  • 这不会强加类别之间的特定关系,类似于均匀扩散。
  • 这种设计允许区分被损坏的标记与原始标记,但平稳分布不是均匀的,所有质量全在[MASK]标记上。

离散化高斯

对于序数数据,建议使用离散化的、截断的高斯分布,模仿连续空间的扩散模型。选择一个归一化使转移矩阵为双重随机的,从而得到均匀的平稳分布。该转换矩阵将以更高的概率在更相似的状态之间转换,并且非常适合图像等量化序数数据。

标记嵌入距离

对于文本数据,没有序数结构,但可能存在有趣的语义关系。使用词嵌入空间的相似性来指导前向过程,构造一个双重随机转移矩阵,在嵌入相似的标记之间更频繁地转移,同时保持均匀的平稳分布。

Noise schedules

  • 对于离散化的高斯扩散,探索在离散化之前线性增加高斯的方差。( 的线性调度会导致 中累积噪声的非线性增加。)
  • 对于均匀扩散,使用余弦调度,它将转换的累积概率设置为余弦函数。
  • 对于一组通用的转移矩阵 (例如基于令牌嵌入的矩阵),以前提出的调度可能不直接适用。
    • 考虑将 之间的互信息(mutual information)线性插值到零,即
      • 在时间 t 时,互信息可以通过一个线性函数来近似,该函数与初始状态 的熵 成正比。随着 t 的增加,互信息逐渐减小,最终为零。
    • 对于吸收状态D3PM的特定情况,这个调度恰好简化为 调度。

Parameterization of the reverse process

使用神经网络 来预测分布 的 logits。我们将其与 结合,并对 的one-hot 表示进行求和,以获得以下参数化形式:

(有点像全概率公式)

在处理有序离散数据时,除了直接用神经网络的输出预测 的 logits,还可以使用截断的离散逻辑分布来建模概率。这种方法为反向模型提供了额外的有序归纳偏置,从而提高了图像生成的FID和对数似然得分。

Loss function

  • 包含了一系列的KL散度项,用来衡量模型预测的后验分布和真实后验分布之间的差距。然而,尽管这种优化目标有其理论优势,实际应用中可能会导致优化过于复杂,效果不如预期。
  • Ho 等人提出了一种简化的损失函数 ,这是一种对负变分下界的重加权。这种方法减少了优化的复杂性,同时在实验中表现出色。通过重加权, 重点放在了某些特定的误差项上,使得模型的训练更为高效。
  • Nichol 和 Dhariwal 提出了混合损失函数 ,结合了简化损失和变分下界。使用一项来学习预测均值,另一项来学习预测方差。

受这项最近工作的启发,作者引入了一个辅助去噪目标,用于反向过程的 参数化。这个目标旨在在每个时间步预测原始数据 ,鼓励模型更准确地还原数据。这与以往的重加权方法不同,因为它直接对模型的输出 进行监督。作者将这一辅助去噪目标与负变分下界结合,得到一个新的损失函数

KL 重加权是在通过下界项进行间接优化,而新的损失函数则通过直接预测 的概率来进行监督。


原文链接:Structured Denoising Diffusion Models in Discrete State-Spaces