DDPM论文解读

技术分享 2周前 (12-16) 0 999+

关注

DDPM（Denoising Diffusion Probabilistic Models）

论文研究背景

扩散概率模型（Denoising Diffusion Probabilistic Models, 简称DDPM）是近年来生成建模领域的重要发展之一。
生成模型的目标是学习数据分布并能够从中采样，生成与真实数据相似的新样本。
以往的生成模型主要有变分自编码器（VAE），生成对抗网络（GAN），自回归模型，正则化流（Normalizing Flows）等等。
DDPM提供了一种全新的概率生成方法，结合了扩散过程的理论和深度学习的表达能力。

DDPM(Denoising Diffusion Probalistic Models)是扩散模型的基石。

扩散模型的研究并不始于DDPM，但DDPM的成功对扩散模型的发展起到至关重要的作用。

可以看到两边的图像都是DDPM所生成的图像，质量都非常不错，左边是清晰度较高的图像，右边是清晰度较低的图像

研究方法

可以把DDPM的扩散过程比喻为一滴墨水滴到水杯的过程，墨水逐渐扩散直到完全扩散到整个水杯
DDPM论文解读
DDPM的过程如上图所示，刚开始对原始图像进行前向加噪，噪声都是从高斯分布N(0,1)随机采样的噪声，最后直到原始图像完全变成了高斯噪声
然后再反向去噪，预测过程中所加的噪声，反向还原原始图像

上图是扩散模型的数学模型，可以看到原始图像的加噪过程是从(x_{t-1})转移到(x_t)的概率分布，这是一个马尔可夫过程。马尔可夫分布具有无后效性。
反向去噪过程是一个参数化的马尔可夫链

(x_{t-1})(x_t)

研究方法

前向加噪

如图所示是论文中所提出的前向加噪过程部分公式，其中(β_𝑡) 随着𝑡增大是递增的，即(β_1)<(β_2)<…<(β_𝑇) 。(β_𝑡) 是由0.0001到0.02线性插值（以𝑇=1000为基准，𝑇增加，(β_𝑡) 对应增大）。

(β_𝑡)(β_1)(β_2)(β_𝑇)(β_𝑡)(β_𝑡)

我们可以发现从(x_{t-1})转移到(x_t)的概率分布是一个高斯分布，最后可以推出(q(x_t mid x_0) = mathcal{N}(x_t; sqrt{bar{alpha}_t} x_0, (1 - bar{alpha}_t) I))
推导过程如下所示：

从公式1我们可以发现从前一张图片转移到后一张图片是一个线性加噪的过程，把(β_t)代换成(α_t)就可以得到公式2，紧接着我们可以把(x_{t-1})展开成(x_{t-2})的形式

(β_t)(α_t)(x_{t-1})(x_{t-2})

公式4的推导是最为重要的，其中(ϵ_(𝑡−1))和(ϵ_𝑡)都是独立的高斯噪声，根据高斯噪声的独立可加性和重参数化的技巧，最后可以合成公式4，然后继续迭代可以得到(x_t)和(x_0)的关系，可以发现它的均值和方差和论文最后所推出来的高斯分布相吻合。

反向过程

DDPM论文解读
如图所示是反向过程所提出的部分公式，第一个公式根据马尔可夫的性质可以很容易得出来。
第二个公式可以看出来是一个带参数得高斯分布

推导过程如上图所示，第一步主要使用了贝叶斯公式完成近似后验概率分布的推导，第二步为了简化引入了x0方便计算

可以看到第二步中的三个变量都是已知的，都是下面的三个已知分布，代入后可以得到论文中所得到的公式

最后可以得到(tilde{mu}_t = frac{1}{sqrt{alpha_t}} left( x_t - frac{1 - alpha_t}{sqrt{1 - bar{alpha}_t}} epsilon_t right))
这就是我们需要去近似的参数，其中(x_t)是由(x_0)反代换出来的。

训练和采样过程

我们可以看到在训练过程中，每一次采样一个标准高斯分布的epsilon并将它和x0做前向加噪，最终的结果再变成输入进行后向去噪，其中(nabla_{theta} left| epsilon - epsilon_{theta} left( sqrt{bar{alpha}_t} mathbf{x}_0 + sqrt{1 - bar{alpha}_t} epsilon, t right) right|^2)是需要去优化的参数

(nabla_{theta} left| epsilon - epsilon_{theta} left( sqrt{bar{alpha}_t} mathbf{x}_0 + sqrt{1 - bar{alpha}_t} epsilon, t right) right|^2)

在采样过程中，从(x_t)到(x_{t-1})进行反向的去噪，其中的引入的z是为了引入随机化，使得最后生成的结果具有多样性。

(mathbf{X}_{t-1} = frac{1}{sqrt{alpha_t}} left( mathbf{X}_t - frac{1 - alpha_t}{sqrt{1 - bar{alpha}_t}} boldsymbol{epsilon}_{theta}(mathbf{X}_t, t) right) + sigma_t mathbf{Z})仔细观察公式，可以发现前半部分就是之前所推导出来的均值公式。