Denoising Diffusion Probabilistic Models

  1. 1. 扩散模型和去噪自动编码器
    1. 方法原理
    2. 公式推导
  2. 2. 实验评估方法与效果

1. 扩散模型和去噪自动编码器

方法原理

方法原理大概就是对于 Noise Predicter 输入一张有噪音的图、当前的步骤编号(和文字提示),然后 Noise Predicter 生成预测的噪音,再用原来的图片减去噪音,得到更完整的图片。不断迭代。

而 Noise Predicter 的训练资料就是对于完整的图片,不断加入噪音

文字到图片主要就是文字先经过一个好的 Text Encoder ,生成向量,在加入噪音,生成模型就生成中间产物,中间产物图片压缩版本经过Decoder生成最终图片

公式推导

找噪音

实际上并不是一步一步地去噪音的,每一个循环都是在尽量找出对应的噪音,希望能够最大地去噪。

去噪

首先是尝试找到 值,使模型生成的network生成 概率最大

可能无法找到 的最大值,所以会希望它的下界最大。

最终可以化简为(要使下面的式子最小)

  • 要使 最小,希望两个分布的mean最接近。 根据 ,替换 ,得到 需要在 的条件下预测为 。 实际上就是需要预测

2. 实验评估方法与效果

为所有实验设置 T = 1000,将前向过程方差设置为从 线性增加到 的常数。这些常数相对于缩放至 [−1, 1] 的数据较小,确保反向和正向过程具有大致相同的函数形式,同时保持 处的信噪比尽可能小 。为了表示相反的过程,使用类似于未屏蔽的 PixelCNN++ 的 U-Net 主干网,并始终进行group normalization。参数是跨时间共享的,这是使用 Transformer 正弦位置嵌入指定给网络的。在 16 × 16 特征图分辨率下使用自注意力。


原文链接:Denoising Diffusion Probabilistic Models