反演去噪扩散隐式模型 Inverting Denoising Diffusion Implicit Models

 ✒️ @halomaster 📅 21 Mar 2023, 16:46 GMT⋮ 【AI】 

加州大学洛杉矶分校CS 188(2023年冬季)课程项目,由林宽恒(乔丹)设计。 有关更多详细信息,请查看[【项目文章】](https://ucladeepvision.github.io/CS188-Projects-2023Winter/2022/03/01/team27-diffusion-inversion.html)(正在进行中的工作)。 https://github.com/kuanhenglin/ddim-inversion


[1] @halomaster • 23 Mar 2023, 07:33 GMT 
本文介绍了生成式神经网络中的一个重要部分——潜变量空间。目前流行的生成敌对网络(GANs)和变分自编码器(VAEs)都利用低维潜变量空间来生成高维图像,这个潜变量空间编码了所生成图像的特征。因此,我们可以通过对潜变量空间进行随机采样或插值来生成新图像,并且在生成敌对网络(GAN)中,生成的图像质量较高。 由于潜变量空间是生成图像的低维表示,我们可以将生成网络建模为一个双射函数G:Z→X,其中Z⊆Rd是潜变量空间,X⊆Rn是图像空间,d≪n。由于潜变量空间编码了输出图像的最重要的视觉特征,我们可以尝试倒置G,G−1:X→Z,从而实现从图像空间到潜变量空间的转换。 对于变分自编码器VAEs,G−1很容易包含在架构中,但对于生成敌对网络GANs和扩散模型而言,则不是这种情况。幸运的是,GAN反演是一个经过充分研究的领域。虽然找到G−1的解析解很困难,但有许多逼近这个过程的方法,包括: 学习方法,即我们训练编码器来逼近G−1 优化方法,即我们进行优化以找到最佳重构目标图像的潜变量向量 混合方法,即我们结合上述两种方法,例如使用基于学习的方法来找到优化方法的良好初始化。 那么直接将上述方法应用于扩散模型会出现问题吗?事实确实如此。


[2] @halomaster • 23 Mar 2023, 07:36 GMT 
扩散模型存在的问题 去噪扩散概率模型(DDPM)是生成式神经网络中的一个相对较新但极具影响力的进展。 请注意,与GAN不同,对于扩散模型,潜在空间与图像空间具有相同的维数,即Z,X⊆Rn。 DDPM的结果与GAN相当(现在甚至超过GAN),而且训练具有更高的稳定性,因为生成器不是通过对抗方式进行训练的,因此不容易出现模态崩溃等问题,但具有更长的采样/生成时间,因为必须对模型进行T次前向传递。 自然而然地,我们问一个问题:我们是否可以像对GAN那样对DDPM进行反演?为了将上述反演方法应用于生成网络,我们需要两个假设: - 潜在空间映射到有意义的图像特征,以及 - 生成器,即G,是确定性的。 事实证明,DDPM`不满足`第二个假设。由于DDPM的采样过程包括在给定xt的情况下将噪声应用于预测的xt−1,因此生成过程不是确定性的。即使Z确实映射到X,当输出图像在不同的采样过程中发生变化时,潜在空间操作(在没有条件ϵθ的情况下,即在没有提供某些附加语义潜在向量的情况下)也不能发生,即使z∈Z保持不变,G(z)每次执行时也会发生变化。 此外,基于优化的方法对于DDPM来说在计算上是不实用的,因为我们正在优化生成的图像(与目标图像相比)的重建误差(相对于随机初始化的潜在向量),我们必须通过具有T次迭代的整个马尔可夫采样过程进行反向传播。(标准值为T=1000,这是巨大的。)这样做不仅非常昂贵,而且会出现极深的神经网络问题,例如梯度消失或梯度爆炸。


[3] @halomaster • 23 Mar 2023, 07:44 GMT 
优化法是一种简单的方法,特别是梯度下降法。给定一张图像x,我们要最小化一个重构误差损失函数,可以包括L1、L2、L∞、PSNR和SSIM等。对于PSNR和SSIM,我们需要最大化损失函数,因为它们的值越高,重构效果越好。通过定义损失函数和使用梯度下降法进行优化,我们可以迭代更新z,直到收敛。最终,我们可以通过x̂ =ϵθ(z)获得一个良好的重构图像。 需要注意的是,优化法通常只适用于深度可分离插值模型(DDIMs),因为我们可以将Δt设置得较大,以便梯度不必通过网络的许多层传播。但即使如此,优化法仍然比学习法慢得多。 此外,优化法容易陷入局部最小值,或者无法收敛到全局最小值。可以通过使用不同的优化算法、从多个起点开始初始化优化,或在损失函数中添加额外的正则化项来缓解这个问题。 优化法可以是图像重构和其他任务的有用工具,但对于复杂或高维数据,可能不是最有效的方法。在选择方法之前,需要仔细考虑问题本身和可用资源。


1 of 1 pages  3 replies