1 研究背景、动机、主要贡献
1.1 研究背景
尽管扩散模型在连续数据上表现良好,但在离散数据(如文本或量化后的图像)上的应用仍然有限。现有的离散扩散模型主要集中在文本和图像分割领域,尚未在大规模文本或图像生成任务上展示出竞争力。此外,最近的大多数研究集中在高斯扩散过程上,这种过程应用于连续状态空间(例如,用于处理实数值的图像和波形数据)。而缺乏对离散数据结构或领域知识的利用。
离散扩散模型的背景:
- 离散扩散模型最初由Sohl-Dickstein等人引入,用于处理二值随机变量的扩散过程。
- Hoogeboom等人将这一模型扩展到分类随机变量,使用了均匀转移概率的矩阵来描述这一扩散过程。
- Song等人在其补充材料中也推导了这个模型的扩展,但没有做相关实验。
1.3 主要贡献
2 论文提出的新方法
one-hot向量表示
类别分布
(主要利用
- Kullback-Leibler散度是衡量两个概率分布之间差异的常用方法。在这里,假设
q 和
是两个概率分布,KL散度可以通过将两个分布的差异按条件独立性分开求和,变得易于计算。 - 依赖于转移矩阵
,其累积乘积(多个时间步的转移概率)通常可以以封闭形式计算或预先计算。也就是说,可以提前准备这些转移矩阵以加速模型的推理过程。然而,对于大 K 和大 T 来说,这可能是令人望而却步的。
Choice of Markov transition matrices for the forward process
- 转移矩阵的行必须相加为1,以保证概率质量的守恒。
必须在 t 增大时收敛到已知的平稳分布。- 对于大多数现实世界的离散数据(例如图像和文本),在转移矩阵
中添加领域相关的结构是有意义的,这样可以更好地控制前向加噪过程和可学习的反向去噪过程。
均匀转移矩阵
- Sohl-Dickstein等人研究了一个简单的2×2转移矩阵用于二元随机变量。Hoogeboom等人将其扩展到类别变量,提出的转移矩阵为
𝟙 𝟙 - 这个转移矩阵是双重随机的,确保了平稳分布是均匀的。这种离散扩散实例被称为D3PM-uniform。
吸收状态
- Inspired by BERT和条件掩码语言模型(CMLM),考虑一个具有吸收状态(如[MASK])的转移矩阵,使得每个标记要么保持不变,要么以概率 t 转移到[MASK]。
- 这不会强加类别之间的特定关系,类似于均匀扩散。
- 这种设计允许区分被损坏的标记与原始标记,但平稳分布不是均匀的,所有质量全在[MASK]标记上。
离散化高斯
对于序数数据,建议使用离散化的、截断的高斯分布,模仿连续空间的扩散模型。选择一个归一化使转移矩阵为双重随机的,从而得到均匀的平稳分布。该转换矩阵将以更高的概率在更相似的状态之间转换,并且非常适合图像等量化序数数据。
标记嵌入距离
对于文本数据,没有序数结构,但可能存在有趣的语义关系。使用词嵌入空间的相似性来指导前向过程,构造一个双重随机转移矩阵,在嵌入相似的标记之间更频繁地转移,同时保持均匀的平稳分布。
Noise schedules
- 对于离散化的高斯扩散,探索在离散化之前线性增加高斯的方差。(
的线性调度会导致 中累积噪声的非线性增加。) - 对于均匀扩散,使用余弦调度,它将转换的累积概率设置为余弦函数。
- 对于一组通用的转移矩阵
(例如基于令牌嵌入的矩阵),以前提出的调度可能不直接适用。- 考虑将
和 之间的互信息(mutual information)线性插值到零,即- 在时间 t 时,互信息可以通过一个线性函数来近似,该函数与初始状态
的熵 成正比。随着 t 的增加,互信息逐渐减小,最终为零。
- 在时间 t 时,互信息可以通过一个线性函数来近似,该函数与初始状态
- 对于吸收状态D3PM的特定情况,这个调度恰好简化为
调度。
- 考虑将
Parameterization of the reverse process
使用神经网络
(有点像全概率公式)
在处理有序离散数据时,除了直接用神经网络的输出预测
Loss function
包含了一系列的KL散度项,用来衡量模型预测的后验分布和真实后验分布之间的差距。然而,尽管这种优化目标有其理论优势,实际应用中可能会导致优化过于复杂,效果不如预期。- Ho 等人提出了一种简化的损失函数
,这是一种对负变分下界的重加权。这种方法减少了优化的复杂性,同时在实验中表现出色。通过重加权, 重点放在了某些特定的误差项上,使得模型的训练更为高效。 - Nichol 和 Dhariwal 提出了混合损失函数
,结合了简化损失和变分下界。使用一项来学习预测均值,另一项来学习预测方差。
受这项最近工作的启发,作者引入了一个辅助去噪目标,用于反向过程的
KL 重加权是在通过下界项进行间接优化,而新的损失函数则通过直接预测
原文链接:Structured Denoising Diffusion Models in Discrete State-Spaces