【场景应用5】深入探讨去噪扩散概率模型及训练推理过程
在这篇博客文章中,我们将深入探讨去噪扩散概率模型(Denoising Diffusion Probabilistic Models,简称DDPMs,扩散模型,基于评分的生成模型,或简单的自编码器),因为研究人员在(无条件或有条件的)图像/音频/视频生成任务中,已经取得了显著的成果。流行的例子(在撰写本文时)包括OpenAI的GLIDE和DALL-E 2、海德堡大学的Latent Diffusion,以及Google Brain的ImageGen。
我们将详细解读Ho等人(2020)发表的DDPM原始论文,并在PyTorch中一步一步地实现它,基于Phil Wang的实现,而Phil Wang的实现本身又基于原始的TensorFlow实现。需要注意的是,扩散生成模型的思想实际上早在(Sohl-Dickstein et al., 2015)中就已经被提出。然而,直到(Song et al., 2019)(斯坦福大学)和随后Ho等人(2020)(Google Brain)独立改进了这一方法,才真正推动了扩散模型的发展。
需要注意的是,关于扩散模型有多个不同的视角。在这里,我们采用离散时间(潜变量模型)的视角,但也建议你进一步了解其他的视角。
好的,接下来让我们深入