Swin2SR: SwinV2

 ✒️ @halomaster 📅 26 Mar 2023, 08:16 GMT⋮ 【AI】 

Swin2SR: Swin2SR: SwinV2 Transformer for Compressed Image Super-Resolution and Restoration 用于压缩图像超分辨率和恢复的 SwinV2 Transformer 压缩对于通过流媒体服务、虚拟现实或视频游戏等带宽受限系统高效传输和存储图像和视频起着重要作用。然而,压缩不可避免地会导致伪影和原始信息的丢失,这可能会严重降低视觉质量。由于这些原因,压缩图像的质量增强已成为一个热门的研究课题。虽然大多数最先进的图像恢复方法都基于卷积神经网络,但其他基于变换器的方法(例如SwinIR)在这些任务上表现出了令人印象深刻的性能。在本文中,我们探索了新颖的 Swin Transformer V2,以改进图像超分辨率的 SwinIR,特别是压缩输入场景。使用这种方法,我们可以解决训练 transformer 视觉模型的主要问题,例如训练不稳定、预训练和微调之间的分辨率差距以及对数据的渴望。我们对三个代表性任务进行了实验:JPEG 压缩伪影去除、图像超分辨率(经典和轻量级)和压缩图像超分辨率。实验结果表明,我们的方法 Swin2SR 可以提高 SwinIR 的训练收敛性和性能,并且是"AIM 2022 压缩图像和视频超分辨率挑战赛"中的前 5 名解决方案。 https://github.com/mv-lab/swin2sr


[1] @halomaster • 26 Mar 2023, 08:23 GMT 
压缩在通过流媒体服务、虚拟现实、图像云存储、视频会议或视频游戏等带宽受限系统高效传输和存储图像和视频方面发挥着重要作用。然而,压缩会导致伪影和原始信息的丢失,这可能会严重降低图像的视觉质量。由于这些原因,压缩图像的质量增强和恢复已成为热门的研究课题。图像恢复技术,例如图像超分辨率 (SR) 和 JPEG 压缩伪影减少,旨在从其低质量退化(或压缩)对应物重建高质量的干净图像。


[2] @halomaster • 26 Mar 2023, 08:25 GMT 
图像恢复分为大量子问题,例如图像去噪、图像去模糊、超分辨率和压缩伪影去除等。传统的基于模型的图像恢复方法通常由手工制作的先验定义,这些先验通过减少合理解决方案的集合来缩小问题的不适定性质 。基于CNN 的基于学习的方法最近在图像恢复方面大受欢迎,它们代表了大多数低级视觉任务(即去噪、去模糊、压缩伪影去除)中的最新技术水平。第一个使用深度学习去噪的杰出工作可能是 DnCNN。用于图像超分辨率的 SRCNN和用于 JPEG 压缩伪影去除的 ARCNN 。由于研究已经转向深度学习,已经提出了多种基于 CNN的方法来使用更复杂的神经网络架构,例如残差块、密集残差块和拉普拉斯算子。其他解决方案试图利用 CNN 中的注意力机制,例如通道注意力和空间注意力。


[3] @halomaster • 26 Mar 2023, 08:29 GMT 
SwinV2 架构修改了移位窗口自注意力模块,以更好地缩放模型容量和窗口分辨率。使用后归一化而不是预归一化可以减少更深层的平均特征方差并增加训练期间的数值稳定性。这允许将 SwinV2 Transformer扩展到多达 30 亿个参数,而不会出现训练不稳定性 。在查询和键之间使用缩放余弦注意力而不是点积减少了一些注意力头对少数像素对的支配。在某些任务中,我们的 Swin2SR 模型取得了与 SwinIR相同的结果,但训练的迭代次数减少了 33%。最后,使用对数间隔的连续相对位置偏差使我们能够在推理时推广到更高的输入分辨率。


1 of 1 pages  3 replies