当前位置:首页 期刊杂志

基于深度学习的超分辨率图像重建研究综述*

时间:2024-05-04

郑 璐 王保云 杨 昆 孔 艳 张祝鸿 张玲莉

(1.云南师范大学信息学院 昆明 650500)(2.云南师范大学信息学院数据科学实验室 昆明 650500)

1 引言

在这个信息大爆炸的时代,人类通过各种各样的信息感知世界,其中图像是人类获取信息、表达信息和传递信息的重要手段[1]。近年来,利用某些技术手段对低质量图像进行超分辨率重建引起了研究者的广泛关注。超分辨率图像重建(Super Resolution,SR)是指利用相关的图像处理和算法模型,从观测到的低分辨率图像中重建高分辨率图像的技术[2]。高分辨率图像包含了更多的纹理特征和细节信息,因此在监控设备、卫星图像和医学影像领域都有重要的应用价值。

传统的超分辨率重建算法通常分为基于重建的方法和基于学习的(非深度学习)方法。Stark等人提出的凸集投影[3]使用迭代投影得到高分辨率图像的估计;随后,Irani和Peleg提出了迭代反投影的方法,成为超分辨率图像重建中非常有代表性的方法[4];最大后验概率法是Schultz和Stevenson提出的一种典型的概率方法[5],最终保持图像的局部特征平滑和边缘信息,获得了比较好的效果;Nguyen等提出的正则化方法[6],利用恒定正则化算子和最优正则化参数构造图像模糊参数、正则化参数以及高分辨率图像的最小能量函数,从而形成规则的超分辨率重建模型。传统的基于学习的方法主要涉及机器学习领域,通常采用机器学习技术来局部估计输出图像的高分辨率细节信息。基于实例的方法是一种早期的基于学习的超分辨率图像重建方法[7],在4倍放大因子的条件下,获得了较高的图像质量;Chang等首次提出了一种基于邻域嵌入的超分辨率图像重建方法;Karl和Nguyen等利用支持向量回归实现了超分辨率图像重建[8];Yang等提出了利用稀疏表示来实现超分辨率[9],对每一个测试补丁,用线性规划的方法得到这个超完整字典下测试补丁的稀疏表示。最后,通过加权系数对高分辨率图像进行重建。

随着深度学习的迅速发展,一些研究者将注意力转移到了深度学习领域,尝试构建深度学习网络模型来处理超分辨率图像重建问题。本文通过卷积神经网络、残差网络、递归神经网络、密集卷积网络、生成对抗网络五种不同的深度网络模型,对基于深度学习的超分辨率方法进行分析概括,并对不同方法获得的超分辨率图像质量的评价结果进行阐述。最后比较各个模型方法的实验结果和定量评价指标,提出超分辨率研究领域问题和进一步的研究方向。

2 基于深度学习的超分辨率图像重建

深度学习是机器学习的一个分支,在过去十年左右的时间里发展飞速,引起了国内外研究者的广泛关注。目前,深度学习已成功应用于计算机视觉、语音识别、记忆网络、自然语言处理等研究领域[10]。

2.1 SRCNN

超分辨率卷积神经网络(Super-Resolution Convolutional Neural Network,SRCNN)是深度学习用在超分辨率重建领域的一项前沿性研究。它的网络结构非常简单,首先,利用双三次插值对图像进行预处理,将低分辨率图像放大到目标尺寸。然后输入低分辨率图像,通过三层卷积网络拟合非线性映射,输出高分辨率图像结果。SRCNN的网络结构如图1所示,第一层,图像块提取和特征表示;第二层,是特征的非线性映射;第三层,最终的重建[11]。

图1 SRCNN网络模型

SRCNN在ILR和IHR之间建立了端到端(end-to-end)映射的SR模型,相较于传统的超分辨率算法在相同的数据结构上以及放大相同倍数的情况下,在峰值信噪比(PSNR)和运算速度上都有了一定程度的提升。

2.2 VDSR

VDSR(Very Deep Convolutional Networks)是基于SRCNN的改进网络。其最大特点是具有多层性,最终效果精度高,训练速度比较快。究其原因是因为作者发现输入的低分辨率图像和输出的高分辨率图像非常相似,即低分辨率图像携带的低频信息和高分辨率信息具有很强的相似性[12],所以只需要学习高分辨率图像和低分辨率图像之间的高频残差部分即可。因此,在提高网络深度的基础上,将残差网络引入到重建模型中,可以提高网络性能和最终重建结果的准确性。

如图2所示,插值后得到的目标尺寸的低分辨率图像作为VDSR网络的输入,再将图像和网络学习到的残差相加,得到最终的网络输出[13]。VDSR具有以下优点:深化了网络结构,扩大了感受野,充分利用分布在超大图像区域的上下文信息,避免图像信息的丢失,重建图像细节;对残差图像进行建模,学习高分辨率和低分辨率图像之间的差异,提高学习速度,同时采用极高的学习速率,加快收敛速度;VDSR还应用了自适应梯度裁剪,使用可调节的梯度来最大限度地提高速度,同时抑制梯度爆炸[14]。VDSR将不同倍数的图像混合在一起训练,解决了不同倍数的超分辨率问题[15]。

图2 VDSR网络模型

2.3 DRCN

DRCN(Deeply-Recursive Convolutional Network for Image Super-Resolution)第一次将已有的递归神经网络结构应用在超分辨率问题上,同时利用残差网络的思想,加深了网络结构,增加了网络感受野,提升了性能。其网络结构如图3所示分为三个模块:第一个相当于特征提取的嵌入网络,第二个相当于特征非线性映射的推断网络,第三个相当于重建网络,即从特征图像恢复最后的重建结果[16]。其中,Inferencenet work网络是一种递归神经网络,通过它可以使数据反复循环。其中,H1到Hd是D个共享参数的卷积层,通过同一重构网络对D个卷积层的每一层结果进行处理,并在重构网络中添加输入图像,获得D个重建结果输出。

图3 DRCN网络模型

DRCN最大的特点在于多次应用相同的卷积层,重复执行多次递归而不会增加参数数量。在这个过程中,该方法加入了递归监督,为了解决梯度和最优递归的问题,监督所有递归,减轻了梯度消失或爆炸的影响。

2.4 SRDenseNet

DenseNet是一个具有密集连接的卷积神经网络。网络各层的输入是所有前一层的输出,该层学习到的图像特征作为输入直接传输到该层后面的所有层。如图4是DenseNet的一个密连接块,块体结构如下:BN-RELU-Conv。

图4 DenseNet网络结构

DenseNet在密连接块后将每个层的特性输入到所有层中,这样所有层都是串联的,而不是像残差网络一样简单相加。这种结构可以缓解整个网络中梯度消失的问题,具有增强特征传播、支持特征重用、减少参数个数等优点。SRDenseNet结构分为四部分,首先用一个卷积层学习低阶图像特征,然后用几个密连接块学习高阶图像特征,接着用几个反卷积层学习上采样的滤波参数,最后用一个卷积层生成高分辨率图像输出。SRDenseNet在超分辨率的深层网络中引入密集跳跃连接,通过密集跳跃连接在不同级别上的特征融合,进一步提高图像超分辨率的重建性能。

2.5 SRGAN

生成对抗网络(Generative Adversarial Network,GAN)由Goodfellow等提出,它启发自博弈论中的二人零和博弈[20]。GAN具有强大的图片生成能力,使其在图片合成、图像修补、超分辨率、草稿图复原等方面都有广泛的应用[17]。Ledig等首次将生成对抗网络(Generative Adversarial Network,GAN)应用到超分辨率图像重建中,提出了基于生成对抗网络的超分辨率(Super-Resolution using a Generative Adversarial Network,SRGAN)算法[18],该算法将低分辨率图片样本输入到生成器网络训练学习,来生成高分辨率图片,再用判别器网络辨别其输入的高分辨率图片是来自原始真实的高分辨率图片还是生成的高分辨率图片,当判别器无法辨别出图片的真伪时,说明生成器网络生成了高质量的高分辨率图片。实验结果表明相比以往的深度学习方法生成的图片效果在视觉上更逼真。之前的基于深度学习的超分辨率方法虽然能够获得很高的峰值信噪比,但恢复出来的图像通常会丢失高频细节,使人难以有好的主观感受效果。SRGAN主要利用感知损失和对抗损失来改善图像恢复的真实性。感知损失是利用卷积神经网络提取出来的特征,通过比较卷积后的生成图像与卷积后原始图像的特征,使生成的图像尽可能地接近原始目标图像。SRGAN的生成网络使用了SRResNet作为网络模型[19],并通过均方误差来优化。通过计算训练后的VGG模型的高级特征上的感知损失,对SRGAN进行了优化。结合SRGAN的判别网络,可以得到峰值信噪比不是最高,但具有真实视觉效果的超分辨重建结果。其网络结构如图5所示。

图5 SRGAN网络模型

3 实验结果与分析

表1列出了文中所述的五种基于深度学习网络模型的超分辨率图像重建方法的PSNR和SSIM值。这些方法在set5、set14、B100、Urban100数据集下 完 成 测 试,对 比SRCNN、VDSR、DRCN、SRDenseNet、SRGAN方法,由作者所公布的实验结果整理得到表中数据。通过观察实验数据发现SRDenseNet在四个数据集下的测试结果中,4倍放大因子下,得到的PSNR和SSIM值最高。通过对比整体的结果,VDSR和DRCN都获得了比较好的PSNR和SSIM值,这两种方法在SRCNN的基础上,都加深了网络层次,扩大了感受野范围,并运用了残差网络的思想提高了运行速度。

表1 五种SR算法重建效果对比

4 结语

超分辨率图像重建旨在提高图像质量,便于获取更多关于图像的细节信息,是计算机视觉领域一项重要的研究工作。本节对五种典型的基于深度学习的超分辨率重建方法进行讨论总结,从中可以得出以下问题。

1)深度网络类型和结构构建。通过对五种不同深度学习网络模型分析发现,网络结构层次越深,感受野越大,越能够充分利用图像的上下文信息,减少图像细节丢失的可能性。但同时越深的网络模型,意味着难以收敛的训练过程,因此,在加深网络模型层次的同时,结合残差网络、自适应梯度裁剪等能够避免深层网络梯度爆炸/消失的优化算法训练是非常必要的。

2)算法优化。文中所列的五种超分辨率图像重建方法都得到了较好质量的重建图像,与传统方法相比,也提升了PSNR和SSIM值。但是其训练速度和可视化效果并未达到人们的预期,还具有较大的改进空间。

3)评价机制。经过30多年的研究和开发,超分辨率图像重建技术取得了长足的进步。如何构建合理的评价机制,评价超分辨率图像的质量,进而评价不同超分辨率算法的优劣,也一直是超分辨率研究领域十分热门的问题。犹如SRGAN,在视觉效果上SRGAN很好地重建了图像的细节信息,主观感受最好。但是由于其不高的PSNR和SSIM值,自然让我们想到另一个问题,建立能够反映主观感受效果的评价机制。通过量化主观人眼评价效果,结合客观评价指标,构建有效的评价机制也是值得研究的问题。

4)GAN模型。生成对抗网络因其具有很好的图像生成功能,在超分辨率图像重建方法中崭露头角,获得了最好的视觉效果。因此在未来工作中,着重考虑在当前SRGAN网络模型的基础上结合当下各类优化算法和成熟的网络结构,进一步提高重建图像的质量和训练结果的定量评价指标。

深度学习在超分辨率图像重建中具有广阔的应用前景。本文总结了现有的超分辨率图像重建的深度网络模型,对比不同网络模型的特点和训练方法,总结分析了现有模型存在的问题以及模型构建的新思路,提出生成对抗网络在超分辨率问题中的优化策略和应用方法,并将在下一阶段详细展开研究与讨论。文末简述了超分辨率重建问题的其他相关研究方向——对于图像质量的评价机制,提出图像质量评价机制的不足和现存问题,对以后建立反映主观感受效果的评价机制提出具有实际参考价值的建议。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!