单幅图像超分辨率重建技术研究进展

时间：2024-05-22

张芳赵东旭肖志涛耿磊吴骏,3刘彦北

图像分辨率指的是图像所包含的细节量,体现成像系统对物体实际细节的反映能力.超分辨率(Super-resolution,SR)技术起初指的是可以提高光学成像系统分辨率的技术,现在常指可以将单幅或多幅低分辨率图像经过处理转换成高分辨率图像的方法[1].超分辨重建技术是信息光学、数字图像处理与模式识别、计算机视觉、机器学习等多领域结合的学科,在医学成像[2]、生物信息识别[3-4]、智能交通、安防监控等领域受到了广泛关注.

1964 年和1968 年,Harris[5]和Goodman[6]分别发表文章提出SR 重建的概念,但当时并未得到广泛认可.直到20 世纪80 年代,特别是1984 年Tsai等[7]提出频域中基于图像序列的方法之后,SR 重建技术才取得了突破性进展.之后国内外众多研究者对SR 问题进行深入研究,一些权威期刊,如Transactions on Pattern Analysis and Machine Intelligence、International Journal of Computer Vision、Pattern Recognition、Signal Processing和Image Communication等都刊登SR重建领域文章.除此之外,几个计算机视觉领域的重要国际会议也收录此类文章,如Computer Vision and Pattern Recognition、International Conference on Computer Vision、European Conference on Computer Vision、英国机器视觉会议、国际信息处理会议和人工智能国际联合大会等.2016 年以来,有一项专门针对SR 技术的国际比赛New Trends in Image Restoration and Enhancement(NTIRE),之后NTIRE 逐渐被全球学者关注.这些会议和比赛大大推动了图像SR 重建技术的发展.

近年来,各大研究机构和相关技术人员已经开放SR 重建技术的数据库,极大地推动了SR 重建研究工作的进一步开展,涌现了大量研究成果.国外伊利诺伊大学厄巴纳香槟分校的Yang等[8-9]、加州大学圣克鲁兹分校的Nguyan等[10]、法国科学院的Yu等[11]、以色列理工学院的Elad等[12]和苏黎世联邦理工学院的Timofte等[13]等;国内中国科学院的Cui等[14]、中国科学技术大学的Song等[15]、香港理工大学的Wang等[16]、香港中文大学的Dong等[17]、西北工业大学的Zhu等[18]、西安电子科技大学的Gao等[19]和Dong等[20]等,在SR 研究中都取得了显著的进展[21].

鉴于国内外SR 图像重建领域取得的丰富成果,近年来陆续有学者对这些研究成果进行了归纳和分析,形成了一些优秀的综述文章.文献[22]按照不同的低分辨率(Low-resolution,LR)输入和SR 输出情况对传统SR 重建方法进行分类整理,文献[23]与文献[24]介绍了基于深度学习的图像SR复原方法的研究进展.本文以单幅图像作为研究对象,对基于传统方法和深度学习的SR 重建方法进行归纳与分析,从基于插值和基于学习两方面对单幅图像SR 方法进行综述,对目前各种SR 方法按网络结构进行划分,在此基础上按不同应用场景和不同降质方式进行分类讨论,并对传统方法和深度学习方法之间的联系进行了介绍,总结了传统理念在深度学习方法中的延续与应用.文章最后结合数据集对方法的性能和鲁棒性进行了比较,并展望了该领域未来的发展方向,以供相关领域的研究者参考.

1 图像SR 重建概述

1.1 图像质量退化模型及SR 重建思路

成像过程中,由于设备本身存在缺陷并且受采集环境影响,会导致得到的图像模糊、关键信息不详细等问题.设低分辨率图像y是由高分辨率图像x经过一系列变换得到的,退化过程如下:

式中,D为亚采样矩阵,B为光学模糊矩阵,W为几何运动模糊矩阵,n为加性高斯白噪声.由于从硬件方面改善上述不足所需要的成本较高,因此,通过软件完成后期图像处理来弥补设备采集的缺陷,不仅可以降低成本,还能满足学者们的需求.图像SR 重建是一种软件图像处理技术,SR 重建为上述图像退化的逆过程,旨在已知输入的低分辨率图像y的情况下,通过不断优化SR 重建模型,获取更接近于高分辨率 (High-resolution,HR)图像x的SR 图像xsr.由于上述SR 重建自身的病态性[25]和较高的实用价值,使其在计算机视觉领域具有很大的理论研究空间和应用空间,因而受到长期关注.

1.2 SR 重建技术的发展及分类

起初在图像复原和图像增强技术中,为了恢复单幅图像因超出光学系统传递函数极限而缺失的信息,需要估计该图像上的频谱信息进行频谱外推[26-27]从而提高图像分辨率,因而产生了一系列频域SR方法,包括基于傅里叶变换的SR 方法和基于小波变换的SR 方法等.后来,由于空域法能够建立全面的观测模型,还具有包含空域先验信息的能力,所以众多学者针对空域法进行了大量研究.

本文主要论述基于单幅图像的空域SR 重建(Single image super resolution,SISR),将从基于插值和基于学习两方面介绍单幅图像SR 重建技术,方法分类如图1 所示.本文第2 节介绍基于插值的SR 方法,第3 节阐述基于学习的SR 方法.鉴于基于学习的SR 方法是目前的研究热点,内容较多,本文在第3～4 节由浅入深地进行重点阐述与分析.第3 节分析基于传统浅层学习的SR 方法,第4 节对基于深度学习的SR 方法展开探讨,第5 节阐述深度学习SR 方法与传统SR 方法的联系与区别,第6 节介绍图像SR 重建数据集以及SR 重建图像评价方法,第7 节进行总结和展望.

2 基于插值的图像SR 重建

基于插值的重建方法是根据放大因子在已有像素之间插入一定数量的新像素补充HR 图像缺失的像素,并且将插值后的图像像素数据与插值卷积核进行卷积,相当于对图像进行平滑处理.在传统插值方法中,根据插值实现方式可分为最近邻插值[28]、双线性插值[29]、双三次插值(Bicubic interpolation,BI)[30]等.基于插值的SR 包括以下3 个步骤:

1)上采样.获得HR 图像中与LR 图像某些位置对应的已知像素;

2)插值.补充HR 图像中缺失的像素;

3)去模糊.增强重建图像质量.

其中,最近邻插值最简单,每一个缺失的像素都采用与其最相邻像素相等的强度值,但锯齿现象明显,放大效果不理想.双线性插值方法利用缺失像素点周围4 个最邻近已知像素点的像素值,采用水平和竖直两个方向上的线性插值结果补充缺失的像素,放大的图像锯齿现象有改善,但边缘模糊.双三次插值利用待求像素点周围4 × 4 邻域内的16个己知像素点的值加权内插得到待求点像素值,其插值过程如图2 所示.由图2 可以看出,要想求得HR 像素点 (i+u,j+v)的像素值,需要用(i+u,j+v)点4 × 4 邻域内的16 个己知LR 像素点的值进行加权运算.

图2 双三次插值过程示意图Fig.2 Schematic diagram of the bicubic interpolation

双三次插值方法是用一个三次多项式S(x)来逼近理论上的最佳插值函数 s in(x)/x,其数学表达式为:

式中,a为自由变量,其取值范围为 [-1,-1/2],一般取a为-1,将a=-1 代入式(2),得到:

双三次插值方法的基本公式为:

相对最近邻插值和双线性插值方法,双三次插值能够利用图像中更多细节信息,有效地抑制图像的块儿效应和边缘阶梯失真现象,但运算复杂度较高,当输出图像不连续时会导致输出图像出现振铃噪声和边缘模糊现象,需要通过图像恢复进行修复.

为了克服以上传统插值方法中的振铃模糊问题,研究者们提出了一些针对图像边缘增强的非线性插值方法,包括基于边缘的插值方法和基于小波变换的插值方法(见第5.1 节).基于边缘的方法指的是利用图像中像素的边缘方向来控制插值方向对图像进行插值.Kwok等[31]通过定向插值改善了锯齿伪影现象,插值的方向由边缘方向决定.Li等[32]提出了一种基于边缘指导的图像插值(New edge directed interpolation,NEDI)算法,该方法假设LR 和HR 图像在边缘处具有相同的边缘信息,从而通过计算LR 图像边缘的局部协方差来推导出最佳线性超分辨映射的预测系数.虽然上述方法可以实现图像边缘处的锐化,但其算法复杂度高,为此,Chen等[33]对NEDI 算法进行了相应的改进,提出了一种快速边缘导向的插值算法.针对NEDI 算法只是单独针对LR 图像中某一个像素值进行预测的缺陷,Zhang等[34]提出用图像的局部方差对插值函数进行优化得到更好的插值结果,采用软判决自适应插值算法来分析LR 图像中相邻像素之间的结构,从而实现一次性估计一组缺失像素的值,其中像素预测是由一个自适应不可分的2D 滤波器滤波实现的.这些方法可以得到较为完整的局部结构和比较锐利的边缘.

基于插值方法属于无样本的单图像超分方法,本质上属于一种图像增强.

3 基于传统浅层学习的图像SR 重建

为了解决SISR 重建这类欠定性问题,一个有效策略是在求解过程中引入图像的先验信息来正则解空间,更好地逼近真实解,从而获得理想的HR图像.基于正则化约束的SR 方法将先验信息作为正则化约束项加入到图像重构过程中,将图像重构问题转换为寻求满足特定限制条件解的最优化问题,在求解方程中引入代价函数,然后迭代求解得到重建图像,其求解表达式为:

式中,R(X)是正则化项,λ是决定正则化约束强度的参数.

正则化思想作为超分目标函数项,在基于样例的方法和基于稀疏编码的方法等基于浅层学习的SR 重建方法中均有大量的使用.常用的正则项包括2 范数形式的Tikhonov 正则项[35]、1 范数形式的全变差正则项[36]以及双边全变差正则项[37]等.Tikhonov 代价函数是单位矩阵或有限差分矩阵,对重建图像中的高频部分进行约束,从而减少重建过程中可能引入的高频噪声,但会使重建图像变得光滑,趋向模糊.基于全变分模型的SR 方法将图像梯度的范数作为正则化约束项[36,38],其正则化式为R(X)=‖∇X‖1,其中∇是梯度算子.正则化方法能直接加入先验约束,有唯一解,收敛稳定性高,且具有较强的去噪能力.

基于学习的SR 方法通过机器学习算法从大量训练样本中获得LR 图像和HR 图像之间的对应关系,并把这种关系运用到重建过程中,实现图像的SR 重建,因此这类方法往往需要一个样本库来提供相应信息以供重建方法充分学习先验知识.从解决此类基于样本库训练问题的角度出发,本文将传统SR 重建方法划分为三类进行阐述:第1 类方法是基于样例学习的方法,采用马尔科夫随机场和流形学习中局部线性嵌入的思想完成重建;第2 类方法是基于稀疏表示的方法,结合图像稀疏编码、字典学习以及图像相似性的思想完成重建;第3 类是基于回归的方法,建立高斯回归、岭回归、随机森林与卷积神经网络等回归模型的方法完成重建.

3.1 基于样例学习的SR 重建方法

基于样例学习的方法主要包括建立样本库和构建高频子带(重建)两个独立步骤.主要思想是:首先通过样本学习建立LR 与HR 图像之间的关系,然后利用此关系实现LR 图像的SR 重建.此类方法最早源于Freeman等[39]提出基于马尔科夫网络的SR 重建方法,即利用马尔科夫网络最优化求解相关示例样本.首先将HR 图像块与其对应的LR图像块作为样本,通过马尔科夫网络模型建立原始图像与样本块之间的关系,然后采用置信传播算法对候选样本进行近似求解完成学习过程,最后通过样本中的高频信息实现图像的SR 重建.

将输入的LR 图像与目标HR 图像都分割成小块,每个图像块用一个马尔科夫网络节点表示,每个HR 节点与其对应的LR 节点相连,也与其相邻的HR 节点相连,这两类节点的联合概率分别用Φ(xk,yk)和 Ψ (xk,yk)表示.这样就把HR 重建的问题变成求解后验概率的局部最大值,公式如下:

式中,N为相邻域的大小.将马尔科夫网络中的每个LR 图像块 Φ (xk,yk)作为索引,在样本库中搜索最佳匹配样本中对应的H R 图像块,记为Ψ(xk,yk).根据样本库采用置信传播算法对其进行近似求解.在重建时,利用马尔科夫网络最优化求解(最大化马尔科夫网络的概率)找到最优的HR样本块,将高频信息加到插值放大后的图像上,得到重建的HR 图像.

马尔科夫网络中的LR 节点只能从与其相连的一个HR 节点获取到高频信息,因此只能计算图像块局部关系,Wang等[40]使用条件随机场引入多个新的节点,将每一个新的节点作为HR 节点和与其相邻的所有LR 节点的桥梁,加强了节点间的相关性,从而建立高低分辨率样本的全局关系.此外,由于人类视觉对异常的高频信息比较敏感,而马尔科夫网络没有阻止异常候选图像块的能力,所以该算法的重建结果中容易产生噪声.为了解决这个问题,Chang等[41]提出一种利用局部线性嵌入来获取k个近邻点权重的方法,假设训练样本中的HR 图像块集合和与之对应的LR 图像块集合分别构成两个具有相同局部线性结构的流形.根据此假设,HR 图像块便可以被其邻域的相似结构线性表示,且权重系数相同,即求出k个最邻近低分辨图像块的权重,并利用该组权重与对应的HR 图像块相乘求得最终的HR 图像.邻域嵌入方法可以利用较少的样本表示出较多的变化模式,从而大幅降低计算量,但由于k值是固定的,因此会出现欠拟合或过拟合的现象.为此,Chan等[42]通过直方图配准选择相似的训练图像,选择不同特征,并通过边缘检测针对不同类型的图像块选择不同的邻域数目,从而更好地完成图像重建.Gao等[43]提出联合学习的方法,将LR 图像和HR 图像的特征投影到统一空间,提高近邻保持率.

3.2 基于稀疏表示的SR 重建方法

与Chang等[41]的流形假设不同,Yang等[8-9]提出了一种基于稀疏表示的SR 重建方法.该方法对训练样本集的几何特征结构未做出任何假设,而是认为可以从同一场景的HR 图像块集合和与之相对应的LR 图像块集合中分别学习出一组耦合字典,并且任何一个HR 图像块和其对应的LR 图像块在耦合字典下具有近似相同的稀疏表示系数,通过这种思想来建立LR 图像块与HR 图像块之间所对应的一种特定映射关系(成对的字典).根据得到的LR 字典对输入的LR 图像进行稀疏编码(求得输入LR图像的稀疏系数),依据该编码和HR 字典重建出HR 图像.

自然图像在某种字典下具有稀疏性,可以将这种稀疏性作为正则化约束项.稀疏表示是在给定的超完备字典中用尽可能少的原子来表示图像,图像经过稀疏表示后可以获得更为简洁的表示方式,从而更容易获取图像中所蕴含的信息.信号x∈RN的稀疏表示过程可以用一个过完备字典Φ∈RN×M(N≪M)的几个基元的线性组合描述,公式如下:

式中,α是稀疏系数,大部分元素为零或接近零.x的稀疏表示系数正则化形式为:

式中,λ是用来权衡稀疏表示误差和稀疏程度的正则化系数.

基于稀疏表示的图像SR 重建方法包括字典训练和稀疏编码两个重要步骤.字典训练有以下两种方式:1)由已知信号变换构造字典,例如离散余弦变换、离散傅里叶变换、小波变换、Curvelet 变换、Contourlet 变换等,但这种方法字典中的所有原子都是由少量的几个参数决定或由简单的仿射变换形成,因此原子形态不够丰富,不能对图像本身的复杂结构进行最优表示;2)通过对样本集的学习构造字典,即字典学习算法,该方法构造的字典原子数量更多,形态更丰富,能更好地对信号或图像本身的结构进行稀疏表示,其中K 次迭代奇异值分解(K-singular value decomposition,K-SVD)算法[44]和主成分分析算法[45]最为常见.稀疏分解算法主要有正交匹配追踪算法[46]和迭代收缩算法[47].正交匹配追踪算法的求解过程是先对所选原子进行Gram-Schmidt 正交化处理,然后将待求信号投影到正交化后的原子形成的空间上,得到待求信号在各个已选原子上分解的分量和余量,迭代分解使余量最小化,直到满足预先设定的条件为止.正交匹配追踪算法可以保证迭代最优,但其固有的局限性使得算法在K-SVD 字典学习时必须严格限制图像块的稀疏性,导致字典学习的精度降低,文献[48]利用迭代收缩算法取代正交匹配追踪算法构建稀疏表示系数,求解凸优化问题.在后续的研究工作中,此类方法的改进主要在这两方面展开.

1)字典训练优化

Yang等[9]提出的字典训练方法在训练阶段可以在很好地表示LR 和HR 图像空间的同时保证其具有相同的稀疏表示系数,但是由于重建阶段对输入LR 图像稀疏表示系数的求解过程无法施加与训练阶段相同的约束,并不能保证求得稀疏表示系数是LR 和HR 图像共有的系数,导致重建精度降低.为此众多研究者提出一系列的高低分辨率字典训练方法,来缓解LR 和HR 图像空间稀疏表示系数的不一致问题,有效提升了重建的结果.Wang等[16]提出了一种半耦合字典的学习算法,这种算法假设LR 图像块和HR 图像块在相应字典下的稀疏表示系数存在线性关系,该算法放宽了约束条件的同时增强了图像块之间的映射能力,缓解了稀疏表示系数的不一致问题.Zeyde等[49]使用主成分分析算法投射LR 特征向量寻找对应子空间,使得LR 特征能够被LR 字典更加精确地表示,同时,通过采用维度约减预处理和正交匹配追踪算法计算LR 图像块的策略来提高稀疏表示模型的计算效率.Yang等[50]提出一种交错空间的优化方法来训练高低分辨率字典,其核心是把同步的联合字典训练方式变为交错空间优化问题,但是由于该优化问题的高度非线性的非凸函数优化问题,很难找到一个较为理想的局部优化解,算法的时间复杂性也较高.He等[51]提出一种基于Bata 先验的耦合字典训练方式,有效缓解稀疏表示系数的不一致问题,改善了重建HR 图像效果.此外,稀疏编码的优化算法也相继提出,文献[52]针对耦合特征空间的HR 重建,提出了一种基于一致性稀疏编码的SR 重建方法,主要思想是先独立地训练HR 字典和LR 字典,然后分别求得训练HR 和LR 图像的稀疏表示系数,把图像变换到稀疏表示空间,最后再通过最小二乘法建立两个空间稀疏表示系数之间的映射关系.虽然该方法可以提高重建精度,但是独立的稀疏编码方式,增加了其稀疏表示系数映射关系建立的难度.Zhao等[53]提出了一种基于自适应稀疏表示的SR 重建方法,通过产生一个合适的系数来平衡稀疏表示和协同表示之间的关系.Wang等[54]提出从训练样本集中学习到更有效的过完备字典,具有分辨率无关性的图像表达(Resolution-invariant image representation,RIIR),被应用于快速的多级超分辨率图像重建任务中.

2)稀疏编码优化

一些研究工作指出,重建质量很大程度上取决于数据的几何结构[55].因此,重点是探索这些潜在的几何结构以增强现有的稀疏编码稳定性.通过将图像补丁的非局部信息转换成稀疏系数,非局部稀疏编码方法[56-57]被广泛地提出用于图像重建.

与上述通过外部数据集学习字典的方法不同,Glasner等[58]结合自相似思想和样本学习的方法,利用图像块的冗余性和不同尺度的图像块来重建未知的HR 图像块,字典是从输入图像本身及其降质的图像中学习到.需要重建的LR 图像的结构模式没有出现在一般的图像数据集中,那么从这个数据集中学习到的映射关系就不能很好地恢复图像的纹理细节,因此在通过改进高低分辨率字典训练方式来提升重建质量的同时,文献[55-65]也在基于稀疏表示模型的基础上引入图像结构先验约束来有效保持图像的几何结构来有效地避免此问题.Dong等[20]结合自适应稀疏领域选择和自适应正则项重建出清晰的图像边缘,视觉效果良好.文献[59]利用图像的非局部自相似性来获得原始图像的稀疏编码系数的良好估计,然后将观测图像的稀疏编码系数集中到这些估计上.Yang等[60]利用了图像的双重稀疏性和非局部相似性约束,为了自适应地调整并表示HR 图像块的字典.上述常规模型仅考虑列非局部相似稀疏表示系数中的先验,而没有考虑稀疏表示系数的所有条目(或行)中的先验,建模能力会受到限制.实际上,如果在稀疏表示系数空间中将相似表示系数的簇重新排列为矩阵,则列和行之间都存在非局部相似先验.Li等[61]使用行非局部相似性先验,探索具有l1范数约束的行非局部相似性正则化项.通过将引入到常规的列非局部相似性稀疏表示模型,提出了一个双稀疏正则化稀疏表示模型.引入基于代理函数的迭代收缩算法来有效地解决该模型.Shi等[62]提出了一种基于低秩稀疏表示和自相似的SR 重建算法,然而该算法从字典对中学习大量原子的过程需要往往会消耗较长的时间.Li等[63]结合稀疏表示和非局部自相似性,提出了一种自学习的SR 重建算法,将字典学习和迭代过程融合到一起,能够有效地减少训练时间并提高算法的鲁棒性.随后,李进明等[64]通过增加低秩和非局部自相似性来约束LR 和HR 图像的稀疏分解,这保证了稀疏求解的准确性,从而提高了传统稀疏表示方法的重建性能.Lu等[65]引入非局部自相似和流形学习用于约束双字典的几何结构,从而保证图像恢复细节的准确性.但是人为设计图像先验只针对少量特定图像有较好效果,对普通自然复杂背景的图像,重建HR 图像质量显著下降,HR 图像重建模型的鲁棒性较差.

3.3 基于回归的SR 重建方法

使用稀疏字典进行SR 重建可以大幅提高图像重建质量,但存在如下问题:1)稀疏字典在计算稀疏系数时计算量很大;2)不存在能够稀疏表示所有图像块的全局字典,这不仅会使得SR 重建的先验信息不准确,还会带来因图像块过小限制模型感受野的问题.为了解决稀疏系数计算量大的问题,Kim等[66]提出仅训练一个岭回归函数来预测HR特征,结合核匹配追踪和梯度下降的思想来降低核岭回归(Kernel ridge regression,KRR)训练和测试的时间复杂度.对于字典不完备的问题,可以通过建立回归模型把一系列的非线性变换转化成对数据的拟合,学习数据的内在分布.例如,Kim等[67]利用支持向量回归(Support vector regression,SVR)来估计图像的高频细节.Deng等[68]在文献[67]的基础上,提出了基于多输出二次支持向量回归的SR重建算法,这种方法将从低分辨率图像空间到HR图像空间的非线性映射问题转换为线性映射问题,有效地减少了参数的数量,同时能够确保同一图像补丁中各个像素点之间的关联性.He等[69]通过高斯过程回归(Gaussian process regression,GPR),选择一个适当的协方差函数来估计HR 图像的像素值.Wang等[70]在高斯回归的基础上,提出了一种基于字典样本和Student-t 似然高斯过程回归的SR 重建算法.Timofte等[71]将协同表示[72]应用到SR 重建,提出了基于固定邻域回归的SR 重建算法,这种算法通过学习锚定在字典原子上的稀疏表示系数和投影矩阵,实现快速地SR 图像重建.随后,Yang等[73]提出使用多元线性回归从众多图像子空间中学习一组简单映射函数.Zhang等[74]受此启发将多元线性回归的思想与分类相结合,直接使用多元线性回归构建每一组特征子空间之间的映射关系.尽管基于回归的方法与其他基于学习的方法相比,在性能上取得了显著提高,但仍存在特定的线性函数对不同退化情况难以建模的问题.而深度学习技术中的运用激活函数进行非线性特征表示的方法很好地解决了此问题.有效防止数据过拟合.例如Dong等[17]提出基于卷积神经网络的非线性回归SR 重建方法,使得图像的质量得到进一步改善.

3.4 基于传统学习的SR 重建方法的讨论

综合以上分析,基于插值的SR 重建方法利用待重建HR 图像中未知像素和LR 图像中已知像素之间的线性或者非线性关系来估计其像素值,达到分辨率增强的目标.虽算法简单、易于并行计算,执行速度快,但是随着图像放大倍数增加,重建HR图像会出现边缘平滑、模糊及振铃和锯齿效应等缺陷,特别是对于场景复杂的自然图像,重建图像质量较差.因此,基于插值的方法比较适合对实时性要求较高、对于放大倍数要求较小、对重建质量效果要求也较低的简单场景下图像的重建.此类方法属于无样本的单图像超分方法,未利用高低分辨率样本之间的先验信息进行约束.

基于学习的SR 方法是一种有样本的单幅图像SR 方法,通过学习高、低分辨率图像之间的统计关系,并把这种关系运用到重建过程中,实现图像的SR 重建.基于样本学习的SR 重建方法可细分为基于样例学习、基于稀疏表示和基于回归3 种方法.

基于马尔科夫网络的样例学习方法提出了从大量样本中学习LR 和HR 图像之间先验信息并约束HR 重建的思想,采用马尔科夫网络构建图像和场景的局部区域之间的关系模型,为基于学习的SR 重建奠定了理论基础.由于训练样本量较大并且学习模型有限,此类方法的计算量大且泛化性较差.邻域嵌入法从流形学习中引入局部线性嵌入来处理图像SR 任务,虽在计算量和重建性能上较文献[39]方法有所改善,但未解决LR 和HR 图像块的邻域数量和特征表示的问题,导致模型缺乏纹理和细节的先验性.

相比样例学习通过人为设计的基信号(字典原子)表示信号的方法,稀疏表示的字典原子是通过建立稀疏先验约束,由稀疏编码过程中自动学习字典原子.基于稀疏表示的SR 重建认为目标图像可以由过完备稀疏字典中少量原子的线性组合构成,其他原子的系数为零或近似为零.考虑到稀疏表示能够通过基本原子信号结构化来表示原信号,在其表示空间有利于映射关系的学习和建立,并构建先验信息保持图像的边缘和纹理结构.但是由于LR和HR 图像空间映射关系的多样性、复杂性、空间变化性及高度非线性,导致重建结果过分依赖训练图像,对真实自然场景图像的重建效果并不理想.

基于回归的SR 重建方法直接建立高低分辨率图像之间的回归模型,通过回归构建特征子空间之间的非线性映射关系来重建图像.与样例学习、稀疏表示的方法相比,虽然基于回归的方法在性能上有显著提升,但特定的线性回归函数对于非线性数据或者数据特征间具有相关性多项式回归的情况难以建模,并且难以表达图像块间复杂的特征数据,未考虑图像场景的复杂性和多样性,导致映射函数的精度仍然不高,重建HR 图像存在较多的平滑边缘和模糊纹理细节.

4 基于深度学习的图像SR 重建

随着深度学习技术的不断更新,基于深度学习的SR 重建方法在最近几年得到了蓬勃发展.利用深度学习技术,不再需要单独的图像块特征提取等预处理过程和后续的HR 图像块聚合过程,利用非线性变换自动学习多层次特征,更深入地挖掘高、低分辨率图像之间的内在联系.实践证明,深度学习方法可用来解决低层视觉问题,如图像去噪和去模糊[75].对于自然图像SR 重建,深层卷积神经网络可以直接学习LR 图像和HR 图像之间的端到端映射,重建出LR 图像丢失的高频细节信息.本节将对基于深度学习的图像SR 重建的网络模型及其各部分特性进行归纳.

2015 年,Dong等[17]首次将卷积神经网络应用于SR 重建中,提出一种端到端的网络结构--基于CNN的超分辨模型(Super-resolution convolutional neural network,SRCNN),每个卷积层应用多个不同的滤波器,这些滤波器在训练期间会自动提取分层特征.该方法将基于传统的稀疏编码方法与基于深度学习的SR 方法联系在一起,相对于传统稀疏表示的字典学习方法,过程大大简化.利用深度学习的方法对图像进行SR 重建时的基本思路为:首先,将LR 图像作为网络的输入,然后通过卷积层形成特征矩阵,并对其进行卷积滤波处理形成特征图作为下一层的输入层;在此期间,被处理的LR 图像特征矩阵和HR 图像形成的特征矩阵通过激活函数进行非线性映射,这是一个复杂的细节预测过程,将映射后得到的特征矩阵通过重建层获得HR 图像,这属于正向传播过程.通常在输出HR 图像之前还要加入损失函数进行像素比对,通过反向传播算法来优化网络内部参数和节点模型不断减小输出图像和理想图像之间的差距,直至损失函数收敛.近年来出现的深度学习SR 网络包括快速超分辨率(Fast super-resolution by CNN,FSRCNN)[76]、亚像素卷积网络(Efficient sub-pixel convolutional neural network,ESPCN)[77]、非常深度卷积网络(VDSR)[78]、深度递归卷积网络(Deeply recursive convolutional network,DRCN)[79]、拉普拉斯金字塔超分辨网络(Laplacian pyramid super-resolution networks,LapSRN)[80]、非常深的残差编码器-解码器网络(Very deep residual encoder-decoder network,RED-Net)[81]、深度递归残差网络(Deep recursive residual network,DRRN)[82]、密集连接超分辨网络(Super-resolution dense convolutional network,SRDenseNet)[83]、生成对抗超分辨网络(Super-resolution generative adversarial network,SRGAN)[84]、记忆网络(Memory network,Mem-Net)[85]、残差密集网络(Residual dense network,RDN)[86]等.深度学习SR 网络的结构主要由特征提取、细节预测、重建输出等部分组成,如图3 所示.

图3 基于深度学习的SR 方法网络结构图Fig.3 Network structure of SR method based on deep learning

4.1 网络模型

在深度学习方法中,图像的特征提取与表示、信息预测以及信息的传递与重建均在复杂的网络架构展现.与HR 图像相比,其相对应的LR 图像丢失了许多细节.深度卷积神经网络(Convolutional neural network,CNN)采用网络级联的方式来预测LR 图像中丢失的细节并重建相应的HR 图像,但这种方式也存在弊端.如前所述,网络层数的增多势必会增加参数量,网络的性能也会随着参数量的增加而降低.研究表明,在深度CNN 中引入稀疏先验[87]、残差网络(Residual Neural Network,Res-Net)[88]、密集连接卷积网络(Dense convolutional network,DenseNet)[89]、生成对抗网络(Generative adversarial networks,GAN)[90]等各种网络,残差块[91]、密集连接块[92]、跳转连接以及递归单元[79]等多种结构,会使得SR 网络模型更加稳定,性能更加优越.基于深度学习的SR 模型将以上提到的各种网络与结构进行整合,通过联合优化获得更好的重建性能.

1)残差学习在图像SR 中的应用

残差学习的思想是将前一层的信息与当前层的信息相结合,并将它们一起传递到下一层.残差学习是SR 重建中用到的最广泛的连接结构,该结构增强层与层之间学习信息的质量,同时可以确保前期训练层的信息传递到更深层.Kim等[78]第一次将残差学习融入CNN 网络,提出一种深度卷积神经网络,用以学习原始LR 图像的边缘信息.残差块是将卷积层、批归一化层(Batch normalization,BN)和线性整流函数(Rectified linear unit,Re-LU)激活层组合在一起的结构.该网络最早用于分类任务,而将其直接用于SR 效果并不好,因此不断有学者对其内部进行微调改进.增强深度超分辨网络(Enhanced deep super-resolution network,EDSR)对残差块内部结构进行改进,Lim等[91]将其中的BN 层去掉,该操作有两点好处:一是可以减少内存使用量,从而加快运行时间;二是去掉归一化后增加了网络范围灵活性.Yu等[93]提出的WDSR 使用权重归一化层代替BN,该操作不仅在网络尺度范围上没有限制,而且还通过限制权重参数范围有效地减轻了深度SR 网络的训练难度.除了对残差块内部结构进行调整外,还可以对网络的局部结构或整体结构进行调整.文献[94]提出深度平行残差网络(Deep parallel residual network,DPRN)网络,这是一种深度并行残差网络,该网络是将每个残差分支初始特征映射到残差组合中进行并行卷积训练,第一个卷积层将利用此输出进行局部残差学习,每个分支的输出用于全局残差学习达到提升网络速度和精度的目的.

2)递归神经网络在图像SR 中的应用

递归神经网络在SR 重建中是以递归单元形式展现,通过使用递归块来增强输入特征映射的表示,其原理是接受前一部分输出的浅层特征映射,并递归地使用特征映射中的代表特征来挖掘LR 和HR对之间的内在关系.文献[79,92,95]均以递归网络为原型,引用该结构进行重建的最大特点是可以实现信息的跨层传递,减少网络参数.随着网络的加深,添加更多的权重层会引入更多的参数,其模型可能会过度拟合,对此文献[79]通过一个嵌入网络进行特征提取,首次在网络中引入递归单元,当执行更多的递归时,模型参数不会增加.随后出现的DRRN、深度递归上下采样网络(Deep recursive up-down sampling network,DRUDN)均是在递归单元内部进行有效调整后,完成高质量的重建.在DRUDN 中,每个递归块由一对卷积和反卷积层组成,所有展开的块通过权值共享减少参数量.此外,循环神经网络(Recurrent neural network,RNN)是一种以输入数据的演进方向进行递归且所有循环单元按链式连接的递归神经网络.Li等[96]以RNN结构为核心思想提出一种反馈网络(Super-resolution feedback network,SRFBN),以细化具有高级信息的低级表示,该网络结构引入的反馈机制允许该网络携带当前的输出纠正之前的输出状态,同时对每次迭代施加损失函数促使输出的反馈模块学习到HR 图像特征.

3)生成对抗网络在图像SR 中的应用

生成对抗网络(GAN)是由Goodfellow等[90]提出并在计算机视觉任务中逐渐发展起来的网络模型.GAN的原理是生成网络和判别网络之间进行相互博弈,判别器用来区分生成的样本和真实数据,而生成器学习生成新样本并将判别器的错误最大化.2017 年,GAN 网络被应用到SR 重建中,Ledig等[84]提出的超分辨率GAN (Super-resolution GAN,SRGAN)利用感知损失和对抗损失来提升恢复出的图片的真实感.感知损失是利用CNN 提取的特征,通过比较生成图像经过CNN 后的特征和目标图片经过CNN 后的特征的差异,使生成图片和目标图片在语义和风格上更相似.但由于感知质量问题和训练不稳定问题[97]造成输出图片缺乏高频纹理细节,SRGAN 生成的图像存在平滑现象.针对上述问题,文献[98]提出一种多样化的GAN 架构DGAN,包含多个生成器和一个判别器.利用多个生成器共享信息和参数,虽然输入相同,但每个分支生成的图像不同,并且会对生成假样本的生成器进行实时更新以得到更为真实的生成图像.

实际上,为了设计出性能好的SR 网络,将以上提到的网络、单元以及结构相融合是当下一种流行且有效的方式,例如将全局残差学习和递归单元相结合,用于缓解网络加深引起的梯度消失和信息缺失等问题.为了获得更高的重建精度,Tai等[82]设计出52 层DRRN 模型,将递归结构引入到残差分支当中,该模型采用局部和全局残差学习、递归层以及80 层MemNet 模型,其中包含长时间存储单元和多个监督.RDN 网络[86]将残差块和密集块相结合,其原理是通过单元与结构之间形成一种连续记忆机制,首先是局部特征融合,然后通过局部残差学习传递信息,接着网络以一种全局特征融合的方式挖掘分层信息,最后通过全局残差学习将特征映射到高维HR 进行上采样操作,输出重建结果.以上典型网络的内部结构如表1 所示.

表1 典型深度学习网络内部结构Table 1 The internal structure of a typical deep learning network

4.2 特征提取

以上提到的深度学习SR 方法中,按空间分辨率来划分,特征提取分为在LR 空间提取特征和在HR 空间提取特征两种情况.HR 空间特征提取意味着要在HR 空间进行卷积操作,此类方法需要先对LR 图像进行双三次插值BI 得到与期望的HR图像相同大小的图像,再输入到网络中进行特征提取,这种输入与输出相同尺寸的网络结构有利于全局残差结构的构建,但在较高的分辨率上进行卷积操作,计算复杂度会随HR 图像的空间尺度增大而增长.LR 空间特征提取,就是将LR 图像作为网络输入,在未经插值的原始LR 图像上直接提取特征,重建效率提高,但网络的输入特征图较小时,随着网络层数的加深,容易丢失细节信息.在基于深度学习的SR 发展过程中,这两种方法都得到广泛应用.已有的基于深度学习的SR 方法的网络输入如表2 所示.

表2 SR 网络输入及层数对照表Table 2 Comparison of SR network input and layer number

4.3 模型多尺度化

如何使训练模型多尺度化,也是众多研究者们关心的问题.当单尺度模型只可用于与其相对应的比例因子重建HR 图像时(如图4(a)所示),网络训练的参数会随着尺度因子的增多而增多,虽然增强网络性能最直接的方式是增加参数量(特征层数和特征通道数),但特征映射层过多将直接导致计算成本加大,网络性能不稳定.因此,建立一种能适用于多尺度因子的网络模型可以在很大程度上提高网络性能[78,80,91].主要思想是在某一尺度训练模型上测试不同缩放倍数的图像,如图4(b)所示,采用多尺度特征映射和子网络并行策略,使所有预定义的尺度因子共享网络参数.这种特定尺度多路径学习是在网络的开头和结尾附加特定尺度的预处理路径和上采样路径,主要共享特征提取的中间部分.因此,在训练期间,只更新与所需尺度对应的路径,来实现大多数参数在不同尺度上共享.例如受空间金字塔池化[100]方法的启发,LapSRN 采用多尺度权值共享的策略,通过同一个网络处理不同尺度的图像放大问题.文献[101]提出的元学习超分辨(Meta-SR)结构,采用Meta-SR 上采样模块动态预测上采样滤波器权重,以任意上采样因子放大任意LR 图像来实现模型多尺度化.

图4 不同尺度模型SR 结构Fig.4 SR structure with different scales

通过文献[102]单尺度模型和多尺度模型的对比实验发现,单一尺度模型能够很好地恢复具有相应比例因子的HR 图像,多尺度模型实现的结果与相应比例的单尺度模型所获得的结果相当,但比模型尺度与图像尺度不一致时的结果要好很多.所以,用多尺度训练模型来恢复具有不同尺度因子的HR图像,在不影响重建性能的前提下,同时能够节约成本,提高模型稳定性.

4.4 不同应用场景下的SR 重建

以上讨论的图像SR 重建方法中,在构建数据集时因无法直接获取高低分辨率图像对,所采用的做法是在收集HR 图像后,通过双三次下采样人工生成LR 图像.但该下采样方法改变了LR 图像的底层特征.因此,用上述图像对训练出的SR 模型鲁棒性较差,导致提出的SR 方法很难泛化到真实场景中.近两年,图像SR 重建方法主要针对现实场景下未知退化因子的单图像SR,称为真实图像SR.

基于真实图像的SR 重建的关键是数据集,采取的网络模型仍以残差块、密集残差结构以及注意力机制[99]等网络内部结构为基础,如表1 所示,使用多尺度结构对图像特征进行上下采样完成图像SR 重建.Cai等[103]提出了基于拉普拉斯金字塔的核预测网络(Laplacian pyramid based kernel prediction network,LP-KPN),在RealSR 数据集上能够有效地学习像素卷积核的权重用于HR 图像的重建.Wang等[104]将残差学习的思想用于立体声图像SR,提出一个视差注意力立体声SR 网络,该网络采用残差思想以提取丰富的上下文信息,引入视差注意力机制以建立立体图像的对应关系,减小计算和存储成本.Pan等[105]对在实际场景中捕获的LR 图像进行SR 重建,使用基于高斯过程的神经架构搜索(Gaussian process based neural architecture search,GP-NAS)通过异构模型实现真实图像SR,基于现有的密集残差网络,通过改变密集残差块的数量、大小以及特征数量,利用基于高斯过程的神经体系结构搜索方案GP-NAS,使用较大的搜索空间来查找候选网络体系结构.Zhang等[106]构建了的真实图像CUFFED5 数据集,并且提出神经纹理迁移的思想实现真实图像SR 重建,该思想包含局部纹理特征匹配和纹理迁移两个部分,利用参考图像中的纹理以弥补LR 图像的细节信息.Bulat等[107]针对真实的人脸图像进行SR 重建,以生成对抗网络(GAN)为基础提出了一个两阶段的重建过程.同样,针对人脸和通用场景建立了一个标基于归一化流的超分辨率模型,在感知质量指标方面也表现出了良好的性能.

4.5 不同降质方式的SR 重建

图像降质分为已知降质和未知降质两种.已知降质是指对图像进行不同尺度、模糊核以及噪声方面的降质.对于不同降质方式得到的LR 图像建立不同的SR 模型是近几年的一个发展方向.

对于模糊降质,Zhang等[108]通过研究高斯模糊、运动模糊、Disk 模糊,提出可以去任意模糊核的DPSR 模型,在BSD68 数据集上得到了清晰的重建结果.对于下采样降质,除双三次插值下采样降质外,Song等[109]针对带噪声的非线性下采样和间隔下采样方式,提出基于迭代残差学习的框架实现深度图SR 重建,在该框架中,利用通道注意力机制、多阶段融合、权重共享以及深度细化等粗略到精细的方式学习HR 深度图.对于噪声降质,哈尔滨工业大学张凯团队提出的去噪卷积神经网络(Denoising onvolutional neural network,DnCNN)[110]、快速灵活的去噪卷积神经网络(Fast and flexible denoising convolutional neural network,FFDNet)[111]和卷积盲去噪网络(Convolutional blind denoising network,CBDNet)[112]是针对噪声降质图像SR 重建的递进的三种方法,重建对象从均匀的高斯噪声变成更加复杂的真实噪声.DnCNN 利用归一化和残差学习可以有效地去除均匀高斯噪声.然而真实噪声具有信号依赖性、颜色通道相关性以及不均匀性,基于此FFDNet 使用噪声估计作为输入,在抑制均匀分布的噪声的同时保留细节信息,实现更加复杂的真实场景的超分辨重建.在FFDNet的基础上,CBDNet 将噪声水平估计过程也用一个子网络实现,从而使得整个网络实现盲去噪.Zamir等[113]提出的MIRNet,是在非常深的残差通道卷积网络 (Very deep residual channel attention networks,RCAN)的基础上通过整个网络维护空间精确的HR 表示,并从LR 表示接收强大的上下文信息多尺度特征聚合,学习丰富的特征以修复和增强真实图像,同时达到图像去噪的目的.此外,上述的LP-KPN、SRFlow 也可以完成去噪.Zhang等[114]提出的展开超分辨网络(Unfolding super-resolution network,USRNet)可同时解决不同尺度、模糊、噪声等多种降质问题,该方法集成了基于学习与基于建模的方法.通过半二次分裂算法将最大后验概率估计(Maximum a posteriori estimation,MAP)推理展开,采用固定次数的迭代来求解数据子问题与先验子问题,通过神经网络模块进行求解两个子问题,从而得到一个可端到端训练的迭代网络.

5 基于传统与深度学习SR的联系

基于深度学习实现图像SR 重建,之所以能取得良好的效果,一方面是因为深层卷积神经网络能够深入挖掘图像的细节特征,可以直接、自主地学习LR 图像和HR 图像之间的映射关;另一方面是因为深度学习方法在应用于SR的过程中,遵循了图像降质和重建的客观规律,实际上深度学习的很多做法都是传统方法的延伸,与传统SR 方法既有区别又存在很多关联.图5 展示了上述基于插值、基于浅层学习以及基于深度学习的SR 重建方法本质的联系和差异.

图5 SR 重建方法本质的联系和差异Fig.5 Relations and differences of SR reconstruction methods

5.1 小波变换与深度学习的结合

基于离散小波变换(Discrete wavelet transform,DWT)的SR 重建方法基本思想是将信号分解到不同的分辨率上,这样分解可以在不同尺度上独立地对信号进行分析和研究,并且对高频信号采用逐渐精细的频域或时域采样,从而聚焦到对象的任意细节.最初将DWT 与SR 相结合应用的是Ford等[115]提出的基于小波变换的一维信号非均匀采样重建,而后Nguyen等[116]将该方法拓展到二维信号,在多分辨率框架下得到了基于小波变换的SR图像重建算法,取得良好效果并得到了广泛的应用,随后一些国内研究者[117-120]和国外研究者[121-126]进一步完善了基于小波变换的SR 方法.总之,基于DWT的SR 重建方法包括以下4 步:

1)先对原始图像进行降质处理,得到LR 图像.

2)借助小波变换,将图像分解为水平低频垂直低频分量LL 和三个高频分量,分别为水平高频垂直低频分量HL、水平低频垂直高频分量LH、水平高频垂直高频分量HH.如图6 虚线部分所示.

图6 基于传统小波变换和与深度学习相结合的小波变换SR 重建方法流程图Fig.6 SR reconstruction method based on traditional wavelet transform and wavelet transform combined with deep learning

3)借助SR 算法,有针对性地对每个分量进行算法重建.

4)借助逆离散小波变换(Inverse DWT,IDWT)将重建后得到的分量再重构,从而得到HR 图像.

在以上传统的子带插值SR 重建方法的基础上,有些学者将DWT 与深度学习SR 算法相结合,利用小波变换将高低频分离,运用深度学习方法重建小波域子带,完成单幅图像SR 重建,如图6 阴影区域所示.例如,Zhang等[120]实验验证了SRGAN恢复的图像纹理细节鲁棒性较差,为了得到更丰富的高频细节,将小波变换引入以得到具有丰富全局信息和局部纹理细节的HR 图像.张丽[127]将小波变换和VDSR 结合,研究在不同小波域子带进行内插和深度学习的SR 效果,并探讨了两者相结合的五种SR 算法,将所构造的SR 算法应用于一个面向交通监管的SR 重建系统.段立娟等[128]采用多阶段学习策略,首先推理出HR 图像对应的小波系数,然后重建SR 图像,并且网络模型采用结合图像空域与小波域的损失函数进行优化求解.孙超等[129]发现基于深度学习的单图像SR 方法仅研究图像空域,忽略了图像频域中高频信息的重要性,从而导致生成的图像相对平滑,因此,其利用小波变换能够提取图像细节的特性,使用Tai等[82]提出的DRRN 网络模型完成对高频子带的重建,相比于原始DRRN 结构峰值信噪比(Peak signal-to-noise ratio,PSNR)值提高了26.8%.

5.2 稀疏编码与深度学习的联系

自然图像中的稀疏先验以及源于此先验的HR和LR 空间之间的关系被广泛应用于SR 重建中.在传统方法的启发下,深度学习网络对这个关系进行了深度挖掘.以深度学习与传统的稀疏编码之间的关系作为依据,可以将SR 重建过程分为图像块提取、非线性映射、上采样重建三个阶段.在特征提取方面,传统的SR 方法通过邻域嵌入(第4.2 节)和构造字典(第4.3 节)等方法完成人工设计图像块特征提取.深度学习技术可以通过多层卷积操作和网络的反复训练自动提取特征,再结合激活函数层完成对数据的拟合和非线性映射,以实现图像多层次特征的学习和提取.例如Wang等[130]提出基于稀疏编码网络的方法(Sparse coding based network,SCN),借鉴基于稀疏表示SR 重建的思想,将原方法中稀疏表示、映射、重建三个独立优化的模块集成到一个稀疏网络中.网络的训练相当于对三个模块协同优化,因而可得到全局最优解.该方法首先通过特征提取层得到图像的稀疏先验信息;然后,通过基于学习的迭代收缩和阈值算法(Learned iterative shrinkage and thresholding algorithm,LISTA)[131]建立了一个稀疏网络SCN,该网络可实现图像的稀疏编码和解码;最后,采用级联网络完成图像放大,该方法能够在更高放大倍数下提高PSNR 值,且算法运行速度进一步提升.作者进一步推出了使用多个SCN的级联版本[132],在客观评价和主观评价上都得到了改进.因此,SCN实际上可看作通过CNN 实现了基于稀疏编码SR方法,采用LISTA 得到基于神经网络产生稀疏编码的近似估计,解决基于传统稀疏编码SISR的时间消耗推理问题.

5.3 上采样重建方法的发展

通常在SR 网络末端,为了构建HR 图像都会进行解码,即上采样过程.基于传统方法的上采样采用的方法通常为插值法(第2 节),包括最邻近插值、双线性插值和双三次插值,但插值上采样通常信息冗余大,映射能力小.为解决上述问题,SR 领域出现几种可以嵌入到深度学习网络模型中的上采样方法,分别是转置卷积层[76, 82,102]、亚像素卷积层[77, 91,102]、任意尺度缩放(Meta-Upscale)[100]、内容感知特征重组(Content-aware reassembly of features,CAPAFE)[133].1)转置卷积层将被下采样的小尺度抽象信息上采样到原来的分辨率.FSRCNN 首次将转置卷积层引入SR 网络中,提出通过改变反卷积层滤波器的大小将图像上采样到不同的尺度,从而实现输出多尺度.2)ESPCN 中亚像素卷积结构,LR 图像经特征提取后得到一个通道数为、大小和输入图像相同的特征图像,再将将不同通道上同一个位置的r的平方个像素排列成r×r的区域,对应HR的的子块,最终输出HR 图像.3)Meta-SR 中提出的上采样模块可以完成图像任意尺度缩放,动态预测放缩的权值及像素的对应关系,实现较好效果的非整数倍放缩.4)CAPAFE 提出一种内容感知重组模块进行上采样,该模块用于利用计算得到的权重将通道转化成一个的矩阵作为内核,与原本输入的特征图上的对应点及以其为中心点的区域做卷积计算来获得输出,计算速度快.

6 数据集及SR 图像评价方法

6.1 图像SR 重建数据集

目前,已经公布了许多专门用于图像SR 重建的数据集.深度学习出现之前,大部分超分辨重建方法都是采用人工特征,并在小型数据集上验证了方法的性能.文献[134]详细介绍了传统SR 算法中最常用的数据集,本文重点介绍基于深度学习SR算法中常用的9 个数据集及其主要参数.

首先介绍Yang等[9]的数据集、Berkeley Segmentation的数据集[135]和DIV2K 数据集[136],这些是供训练使用的数据集.Yang等[9]的数据集有91幅图像,Berkeley Segmentation 数据集有200 幅SR 重建基准图像,包含一些人像、植物和动物等,这两个数据集使用最为广泛;DIV2K 是近两年SR重建研究中广泛使用的较大型数据集,用于挑战NTIRE 比赛(例如CVPR 2017 和CVPR 2018)和Perceptual Image Restoration and Manipulation (PIRM)比赛(例如ECCV 2018),其中包含1 000幅2K 高清晰度RGB 图像,并提供降尺度因子为2、3 和4的HR 和LR 图像.

除上述三个训练数据集之外,Set5[137]、Set14[49]、BSD100[135]、Urban100[138]、manga109[139]和Sun-80[140]测试集均是供测试使用的数据集.Set5、Set14、BSD100、Urban100 是SR 重建的4 个基准数据集,其中Set5、Set14 分别包含5 幅、14 幅图像,BSD100是来自Berkeley Segmentation 数据集的100 幅自然图像,Urban100 包含100 幅具有挑战性的不同时间段的城市场景图像,Manga109 是日本漫画数据集.Sun80 数据集具有80 幅自然图像,每个图像都带有一系列的网络搜索参考.

近几年,研究者们构建了一些用于SR 重建的真实图像数据集,其中包括CUFED5[106]、RealSR[103]、DRealSR[141]、City100[142]、SR-Row[142]、LOL 数据集[143]和MIT-Adobe FiveK 数据集[144]等.CU-FED5数据集提供了训练和测试集,并在内容、纹理、颜色、照明和视点等方面具有不同相似度的参考.RealSR数据集是在相同场景下通过调整单反相机的焦距获取真实图像数据集,在长焦距下获得HR 图像,在短焦距下获得对应的LR 图像.DRealSR 由5 种不同的单反相机(佳能、索尼、尼康、奥林巴斯和松下)拍摄的室内外广告海报、植物、办公室、建筑物等构成.City100 数据集是在室内环境下拍摄的纸质明信片图像.大型数据集对于提高深度卷积神经网络的性能非常重要,所以在数据集较少的情况下会对数据集进行扩充,一方面可以对数据集中图片进行0.5、0.6、0.7、0.8、0.9 等倍数的缩小;另一方面可对数据集中图像进行不同角度的旋转.

6.2 常用图像SR 重建评价指标和方法

在SR 重建方法不断发展的过程中,研究者们提出了一系列评价指标来评估各种方法对图像进行SR 重建的效果,表3 从方法特点、方法类别以及方法适用场景等多方面对SR 重建质量评价方法进行了多维度的总结.常用评估方法包括:平均主观得分(Mean opinion score,MOS)、平均主观得分差异(Dierential mean opinion score,DMOS)、均方误差(Mean square error,MSE)、结构相似性(Structural similarity index,SSIM)、多尺度结构相似性(Multi-scale structural similarity,MSSSIM)、特征结构相似性(Feature structural similarity,FSIM)、视觉信息保真度(Visual information fidelity,VIF)、信息保真度准则(Information fidelity criterion,IFC)、非对齐参考图像质量评估(Non-aligned reference image quality assessment,NAR-DCNN)[145]、主观感知质量(Perceptual index,PI)[147]、Ma[148]、自然图像质量评估器(Natural image quality evaluator,NIQE)、图像完整性标注器(Image integrity notator using DCT Statistics,BLIINDS)[149]、盲图像质量指标(Blind image quality index,BIQI)[150]、盲/无参考图像空间质量评估器(Blind reference image spatial quality evaluator,BRISQUE)[151]、学习感知图像块相似度(Learned perceptual image patch similarity,LPIPS)[146]、深度双线性CNN 图像质量评价(Deep bilinear CNN,DB-CNN)[152]、基于排名学习的无参考图像质量评估(Rankings image quality assessment,Rank-IQA)[153]、基于深度学习的图像质量指数(Deep learning based Image quality index,DIQI)[154].

表3 SR 重建图像常用质量评价方法Table 3 Common quality evaluation methods for SR reconstructed images

7 结束语

SR 重建是计算机视觉领域中的一个典型问题,SR 重建技术在实际生活中具有良好的应用前景,因此目前SR 图像重建,尤其是结合深度学习技术的SR 图像重建处于深度研究阶段.之前,无论是传统的SR 重建方法还是基于深度学习的SR 重建方法,研究工作均围绕提高图像重建准确性、节约计算成本和提高时间效率等方面展开.近年来,随着真实图像数据集的不断扩大和硬件设备性能的不断提升,基于深度学习的真实图像SR 重建技术获得了良好发展.今后的研究可以从应用场景、降质方式、网络设计和评价指标四个方面展开:

1)针对不同应用场景,设计更具针对性的网络模型.目前SR 重建方法的研究多是基于特定自然图像数据集,与各种各样的深度学习网络模型结合取得了良好效果,例如由于LR 和HR 有非常高的关联度,残差网络的思想在图像SR 中应用效果良好;为了减少参数量,采用递归神经网络;近几年,GAN网络也不断发展并成功应用于SR 重建中.由于不同领域的图像有各自的特点,例如医学图像、SAR图像、交通监控图像、夜视图像等,针对具体应用领域有针对性地选择和设计网络是提高重建性能、提高技术实用性的关键因素.

2)针对不同降质方式建立自适应的退化模型提高SR 网络的针对性,或者建立普适的退化模型提高SR 网络的泛化能力.首先,在建立成像退化模型的过程中,研究者对图像噪声以及图像模糊核的估计鲜有研究和讨论,往往将噪声默认为加性高斯白噪声,并未考虑系统噪声和量化噪声等.所以,在SR 重建研究中,针对不同降质方式建立适合的模型会大大增强重建的针对性与准确性.其次,设计适应性强的模型来处理任意噪声和模糊核是提高SR 网络泛化能力的重要手段.

3)网络模型的设计.SR 重建网络大多由特征提取与重建两部分构成.在后续研究中,对于前者需要探索更多卷积模式和特征提取方法,例如局部、全局与多尺度特征融合,自适应卷积核、通道和空间注意力机制以及空洞卷积的合理使用等;对于后者,在不增添冗余且无效信息的情况下改进上采样层,使其充分利用特征提取部分提取到的特征完成特征图大尺度上采样重建,尽量减少图像特征的损失,提升网络的鲁棒性.

4)图像的盲超分和盲评估.若想应用于实际场景,设计一种对单幅图像进行盲SR 重建的技术是未来的趋势,即一幅低质量图像的重建不依靠高低分辨率图像对的学习,而是通过对不成对图像的学习与表示或者对单幅图像周围像素点的充分学习来训练模型,以供未知降质图像完成重建.对于重建结果的评价指标,全参考评级指标若想保证评价结果公正且合理,后续的设计应权衡主观和客观两方面完成,无参考评价指标(盲评估)是现在和未来用于评估真实图像SR 方法性能的趋势.