反演去噪扩散隐式模型 Inverting Denoising Diffusion Implicit Models

　✒️ @halomaster　📅 21 Mar 2023, 16:46 GMT⋮　【AI】　

加州大学洛杉矶分校CS 188（2023年冬季）课程项目，由林宽恒（乔丹）设计。有关更多详细信息，请查看[【项目文章】](https://ucladeepvision.github.io/CS188-Projects-2023Winter/2022/03/01/team27-diffusion-inversion.html)（正在进行中的工作）。 https://github.com/kuanhenglin/ddim-inversion

[1] @halomaster　•　23 Mar 2023, 07:33 GMT　

本文介绍了生成式神经网络中的一个重要部分——潜变量空间。目前流行的生成敌对网络（GANs）和变分自编码器（VAEs）都利用低维潜变量空间来生成高维图像，这个潜变量空间编码了所生成图像的特征。因此，我们可以通过对潜变量空间进行随机采样或插值来生成新图像，并且在生成敌对网络（GAN）中，生成的图像质量较高。由于潜变量空间是生成图像的低维表示，我们可以将生成网络建模为一个双射函数G：Z→X，其中Z⊆Rd是潜变量空间，X⊆Rn是图像空间，d≪n。由于潜变量空间编码了输出图像的最重要的视觉特征，我们可以尝试倒置G，G−1：X→Z，从而实现从图像空间到潜变量空间的转换。对于变分自编码器VAEs，G−1很容易包含在架构中，但对于生成敌对网络GANs和扩散模型而言，则不是这种情况。幸运的是，GAN反演是一个经过充分研究的领域。虽然找到G−1的解析解很困难，但有许多逼近这个过程的方法，包括：学习方法，即我们训练编码器来逼近G−1 优化方法，即我们进行优化以找到最佳重构目标图像的潜变量向量混合方法，即我们结合上述两种方法，例如使用基于学习的方法来找到优化方法的良好初始化。那么直接将上述方法应用于扩散模型会出现问题吗？事实确实如此。

[2] @halomaster　•　23 Mar 2023, 07:36 GMT　

扩散模型存在的问题去噪扩散概率模型（DDPM）是生成式神经网络中的一个相对较新但极具影响力的进展。请注意，与GAN不同，对于扩散模型，潜在空间与图像空间具有相同的维数，即Z，X⊆Rn。 DDPM的结果与GAN相当（现在甚至超过GAN），而且训练具有更高的稳定性，因为生成器不是通过对抗方式进行训练的，因此不容易出现模态崩溃等问题，但具有更长的采样/生成时间，因为必须对模型进行T次前向传递。自然而然地，我们问一个问题：我们是否可以像对GAN那样对DDPM进行反演？为了将上述反演方法应用于生成网络，我们需要两个假设： - 潜在空间映射到有意义的图像特征，以及 - 生成器，即G，是确定性的。事实证明，DDPM`不满足`第二个假设。由于DDPM的采样过程包括在给定xt的情况下将噪声应用于预测的xt−1，因此生成过程不是确定性的。即使Z确实映射到X，当输出图像在不同的采样过程中发生变化时，潜在空间操作（在没有条件ϵθ的情况下，即在没有提供某些附加语义潜在向量的情况下）也不能发生，即使z∈Z保持不变，G（z）每次执行时也会发生变化。此外，基于优化的方法对于DDPM来说在计算上是不实用的，因为我们正在优化生成的图像（与目标图像相比）的重建误差（相对于随机初始化的潜在向量），我们必须通过具有T次迭代的整个马尔可夫采样过程进行反向传播。（标准值为T=1000，这是巨大的。）这样做不仅非常昂贵，而且会出现极深的神经网络问题，例如梯度消失或梯度爆炸。

[3] @halomaster　•　23 Mar 2023, 07:44 GMT　

优化法是一种简单的方法，特别是梯度下降法。给定一张图像x，我们要最小化一个重构误差损失函数，可以包括L1、L2、L∞、PSNR和SSIM等。对于PSNR和SSIM，我们需要最大化损失函数，因为它们的值越高，重构效果越好。通过定义损失函数和使用梯度下降法进行优化，我们可以迭代更新z，直到收敛。最终，我们可以通过x̂ =ϵθ(z)获得一个良好的重构图像。需要注意的是，优化法通常只适用于深度可分离插值模型（DDIMs），因为我们可以将Δt设置得较大，以便梯度不必通过网络的许多层传播。但即使如此，优化法仍然比学习法慢得多。此外，优化法容易陷入局部最小值，或者无法收敛到全局最小值。可以通过使用不同的优化算法、从多个起点开始初始化优化，或在损失函数中添加额外的正则化项来缓解这个问题。优化法可以是图像重构和其他任务的有用工具，但对于复杂或高维数据，可能不是最有效的方法。在选择方法之前，需要仔细考虑问题本身和可用资源。

1 of 1 pages 3 replies