基于生成对抗网络的CT 图像无监督超分辨率分析①

时间：2024-05-22

李云鹤陈伦强赵慧岩吴绍华*

(*肇庆学院电子与电气工程学院肇庆 526061)

(**东北石油大学电气信息工程学院大庆 163319)

(***哈尔滨工业大学(深圳)电子与信息工程学院深圳 518055)

0 引言

计算机断层成像(computed tomography,CT)技术是目前被广泛应用的临床诊断技术,能够非接触、无创口地获取患者体内结构信息,是评估患者身体情况的重要资料[1]。高分辨率(high resolution,HR)的医疗影像细节信息更加丰富,可以使医生更精确地识别病变部位,因此它的清晰度直接影响医生对患者诊断的准确度。CT 成像系统受到X 射线焦点尺寸、探测器像元尺寸、图像重建等软、硬件因素的制约,成像分辨率往往低于临床病理早期筛查所需的理想分辨率[2]。CT 成像设备一般都比较昂贵,硬件系统复杂,通过硬件系统升级提升成像分辨率成本较高。考虑到CT 扫描过程中X 射线对患者有辐射,常常采用低剂量CT 扫描以减少对人体的伤害,例如通过改变管电压、管电流、扫描时间等降低对患者的辐射剂量,但这会导致成像分辨率降低[3]。综合考虑诊断的准确性和低剂量辐射的需求,如何从设备生成的低分辨率(low resolution,LR)图像重构高分辨率图像的研究具有重要意义。

过去10 年中,研究人员对高分辨率图像的重构问题开展了大量工作,尤其是超分辨率分析方面。文献[4]提出了基于字典学习的有监督超分辨率分析技术。文献[5,6]提出了基于稀疏感知的超分辨率分析技术。文献[7]提出了基于压缩感知的超分辨率分析技术。文献[8,9]提出使用不同空间特征获取更高性能的超分辨率分析技术。在生成对抗网络(generative adversarial networks,GAN)[10]被提出来以后,很快有学者将生成对抗网络用于超分辨率分析[11],并取得了开创性的成效,进而生成对抗网络更多开始用于超分辨率分析。文献[12]研究了超分辨率分析生成对抗网络(super-resolution generative adversarial networks,SR-GAN)的网络体系结构、对抗性损失和知觉性损失,并对其进行了改进提出了增强型超分辨率生成对抗性网络(enhanced SRGAN,ESRGAN)。ESRGAN 引入了不进行批标准化的多致密残差模块,并通过使用激活之前的特征值来改善感知损失函数,为亮度一致性和纹理恢复提供更强的监督。相同时期,基于残余通道关注网络的残差信道注意力网络(residual channel attention networks,RCAN)[13]和基于加强深度残差网络的单图像超分辨率的增强型深度残差网络(enhanced deep residual networks for single image superresalution,EDSR)等超分辨生成对抗网络也相继被提出,并取得了较好的效果。文献[14,15]采用ESRGAN 的多致密残差块结构,构建CT 图像的超分辨率分析网络,减少了残差单元数量,并在残差块之间建立了紧密的联系,减少了网络冗余。文献[16,17]将EDSR 网络用于CT 图像超分辨率分析,在较好的恢复边缘锐度的情况下,只丢失了部分高频细节。文献[18-20]在CT图像的超分辨率分析中使用了RCAN 网络的残余通道关注网络结构,使用具有多个分支的多尺度注意力块,可以自动生成权重来调整网络,取得了较好的视觉效果。现有典型算法如ESRGAN、RCAN、EDSR,训练网络所用的高-低分辨率图像对数据集,是通过已有的图像作为高分辨率图像,然后通过双三次降采样(BiCubic)[21]生成特定倍数的低分辨率图像所生成,会丢失与频率相关的轨迹细节,导致超分辨率成像过于平滑和模糊。

针对双三次降采样生成图像对的不足,本文首先考虑接近天然高-低分辨率图像对数据集的构造问题。本文设计核估计网络对CT 图像做预处理,包括学习CT 图像内部像素块分布、探寻图像特异性、注入噪声等,用源图像ICT降质生成低分辨率图像ILR;进而构造接近天然图像对的高-低分辨率图像对(IHR,ILR);然后,本文借鉴ESRGAN[12]、Patch-GAN[22]和VGG-19[23]等网络的设计思路,构建了包括超分辨生成器、超分辨鉴别器和超分辨特征提取器的超分辨率生成对抗网络;最后,利用训练所得生成对抗网络的生成器处理CT 图像,以获取4 倍的高分辨率CT 图像。所设计深度学习网络被称为预降质超分辨率生成对抗网络(predegraded super resolution generative adversarial networks,DeSRGAN),其结构和操作流程如图1 所示。

图1 预降质超分辨率分析网络结构流程图

1 高-低分辨率图像对数据预处理

1.1 降质模型

自然的高-低分辨率CT 图像之间的对应关系,可以近似地表示为

其中,DEs和Nin分别表示降质核和注入噪声,s表示缩放因子,↓s表示下采样。寻求贴切于自然图像对的DEs和Nin是获取更真实的高-低分辨率图像对的关键步骤,这决定了超分辨率分析所生成图像的质量。

1.2 注入噪声

虽然噪声是注入在降采样后的图像中,由于降采样会抑制源图像的高频分量,为了让噪声分布更自然,可从源图像ICT(即高分辨率图像IHR)中提取噪声块。在噪声提取过程中,需要关注2 个参数,即噪声块的最小均值mmin和最大方差dmax。这2 个参数的设置,没有固定的选择模式,取决于不同应用场景的图像对的实际情况。本文通过多组测试对比,并基于测试结果选择合适的噪声提取参数。本文从训练数据集(SETtrain)随机选取源图像ICT提取噪声图块,提取一定数量的噪声图块去构建噪声块数据集(SETnoise),噪声注入过程通过从SETnoise数据集随机选取噪声图块并应用于式(1)来执行。

1.3 核估计降质网络

为了更加贴切于自然图像对,本文使用生成对抗网络(称之为核估计网络)训练生成式(1)中所用的降质核DEs。因为没有可用于对照和监督的高-低分辨率图像对数据集(仅有由源图像ICT构成的训练数据集SETtrain),核估计网络使用无监督的生成对抗网络训练降质核DEs。核估计网络的每一次训练仅使用一个图片,训练结束后将核估计生成器提取为1 个降质核DEs。每次训练所用图片均从训练数据集SETtrain随机选取,经过多次训练生成一定数量的降质核,放在一起构成降质核数据集(SETker),降质过程是通过从SETker数据集随机选取降质核DEs应用于式(1)来执行的。

核估计网络的处理流程如图2 所示,随机选取的源图像ICT输入核估计网络后,一方面源图像ICT经由核估计生成器降采样为s倍的图像Ide,另一方面在源图像ICT中随机位置裁切出和Ide相同大小的图像Icr。鉴别器的目标是区分降质图Ide和裁切图Icr的内部像素块在多个尺度上的分布是否一致。核估计网络的目标函数定义为

图2 核估计网络处理流程图

其中G和D表示核估计生成器和核估计鉴别器,其中lK为损失函数,下标K 指代核估计降质,可展开表示为

其中,ki,j表示降质核中每个节点的参数值;mi,j是节点权重的常数掩码,mi,j随着与ki,j中心的距离的增长呈指数增长;(x0,y0) 表示中心的索引。αS、αM、αSQ、αCE为常系数,下标i,j为像素的横纵坐标索引值,对于(256×256)像素的图像而言,i,j的取值范围为[1,256]区间的整数。

本质上,核估计生成器是一个图像降采样模型。为了能确保快速收敛,同时避免生成物理上无意义的优化解,生成器网络全部采用线性激活单元,采用多层线性卷积层结构。核估计生成器的实现结构如图3 所示。训练完成后,将生成器网络中的降质功能层提取出来作为降质核。

图3 多层线性卷积层组成的核估计生成器网络结构

核估计鉴别器的目标是鉴别生成器输出图像与源图裁切图像的像素分布是否一致。核估计鉴别器采用多层非池化卷积层结构,网路结构如图4 所示,同时搭配谱归一化、批归一化以及ReLU 激活函数。鉴别器的输出为一个热图,热图中的点代表像素从原始像素块分布中提取周围的像素块的可能性,鉴别器的损失函数定义为热图和标签图之间的逐像素均方误差。

图4 多层无池化卷积层组成的鉴别器网络结构

2 超分辨网络

本文采用生成对抗网络实现由低分辨率至4 倍的高分辨率图像的超分辨率分析,将该网络称为超分辨网络。通过高-低分辨率图像对数据预处理,得到相对更接近天然的图像对,并以此为数据集训练超分辨网络。超分辨网络采用生成对抗网络结构,与常见的生成对抗网络不同,本文在生成器、鉴别器的基础上增加了特征提取器,以便于引入感知损失函数以增强图像的低频特征的视觉效果。超分辨特征提取器的结构参考VGG-19 模型,超分辨生成器的结构参考ESRGAN 模型,超分辨鉴别器参考PatchGAN 模型。

超分辨网络的损失函数由逐像素损失函数lX[26]、感知损失函数lC和对抗损失函数lA等3 个分量组成,可表示为

其中,αX、αC、αA为常系数。逐像素损失函数lX使用L1 距离,评估生成图像G(ILR) 与真实图像IHR之间的逐像素内容损失:

感知损失函数lC评估图像之间的内容和样式上的感知差异,感知损失函数lC由内容相关的特征重构损失函数lF和样式重构损失函数lT组成:

其中,λF、λT为常系数,φk(I) 表示图像I输入感知特征提取器后,在第k层卷积层所得到的特征图。假设该特征图的形状为Ck×Hk×Wk(通道数×高×宽),表示平方Frobenius 范数,式中h、w、c分别代表像素点在特征图中的高、宽、通道数的索引值,其取值取决于特征图的形状。对抗损失函数lA用于增强生成图像的纹理细节,使其看起来更逼真:

参考ESRGAN 模型,超分辨生成器采用如图5所示的RRDB(residual-in-residual dense block)结构,在预处理的高-低分辨率图像对数据集上训练它,可将CT 图像最大放大至4 倍。图6 中Conv 表示卷积层,搭配Leacky-ReLU 激活函数,Upsample 表示2 倍插值上采样,β和θ为常数系数。

图5 超分辨生成器的结构

图6 超分辨生成器(SR-GAN-D)的结构

本文发现使用ESRGAN 处理CT 图像时有几方面的不足,包括产生较多的伪影,对局部特征的支持较弱以及训练所支持的图像尺寸受限。经过分析与测试,将ESRGAN 的鉴别器更换为PatchGAN 的鉴别器结构可以解决上述问题。参考PatchGAN 模型,采用如图7所示结构的超分辨鉴别器。超分辨鉴别器中的所有卷积层使用相同的接收域,确保每一层的输出值仅与局部固定区域的像素块相关,这样可以强化网络对局部特征的感知。图中Conv 表示卷积层,同时搭配批归一化和Leacky-ReLU 激活函数。

图7 超分辨特征提取器(SR-GAN-F)的结构

引入感知损失函数lc可以增强生成图像的低频特征,进而令生成的图像看起来更真实。为此本文在生成对抗网络中增加超分辨特征提取器。参考VGG-19模型,超分辨特征提取器的结构如图7所示。图中Conv 表示卷积层,同时搭配最大池化操作和Re-LU 激活函数。

3 实验与结果

本文所提出方法面向CT 医学图像,使用QIN LUNG CT[24]数据集来训练和测试模型,该数据集扫描来自于接受癌症手术的术前诊断患者,包含47 个病人的3954 张512×512 分辨率图像和基于此构建训练集(DS_TR)和验证集(DS_VA)的高分辨率图像部分。QIN LUNG CT 数据集采用由文献[25,26]收集的数据,为保护患者隐私已删除所有个人识别信息。虽然天然的图像对的获取非常的困难,难以找到具有足够数量的图像的训练数据集,但为了可以通过峰值信噪比(peak signal-to-noise ratio,PSNR)、结构相似性(structural similarity,SSIM)等指标评价超分辨率分析方法的优劣,找到了一组具有60 对(512×512,128×128)高低分辨率图像对的数据集作为测试集(DS_TE)。测试时将128×128 分辨率图像放大4 倍,与对应的512×512 分辨率图像评测PSNR、SSIM 等指标。另外,本文更关心的是无高分辨率参照图像的场景,将测试集中的512×512 分辨率图像放大4 倍,采用无参考图像质量评估(IQA)指标来评测生成图像的质量。本文采用的无参考图像质量评估(IQA)指标包括无参考图像评价指标(natural image quality evaluator,NIQE),无参考的空间域图像质量评估算法(blind/reference less image spatial quality evaluator,BRISQUE)和无参考图像质量评价(blind image quality evaluation using perception based features,PIQE)。评价值可通过Matlab 中的相应函数niqe、brisque 和piqe 计算,评价指标采用[0,100]的正实数,低分值表示高感知质量。

在训练前的数据预处理阶段,对比方法RCAN、EDSR、ESRGAN 均通过BiCubic 方法生成特定倍数的训练集(DS_TR)和验证集(DS_VA)的低分辨率图像,DeSRGAN 方法如前文所述通过核估计网络和噪声注入生成相应的低分辨率图像。对比方法BiCubic 不需要训练,可直接插值放大图像,不需要数据预处理操作。

文中所涉及的算法实现的硬件环境包括Intel i7-6700 CPU,64 GB 内存,和NVDIA GeForce RTX2080S显卡。BiCubic 方法通过Matlab 函数直接插值放大图像,DeSRGAN、RCAN、EDSR、ESRGAN 方法在Pytorch 环境下实现,均使用了github 库中“xinntao/BasicSR”项目所提供的模块,DeSRGAN 方法还使用了github 库中“sefibk/KernelGAN”项目中的的模块。

DeSRGAN 方法中的核估计网络和超分辨网络的网络结构的设定如前文所述,网络中所涉及的卷积层的参数设置如表1 所示。表中in_channels 代表输入通道数,out_channels 代表输出通道数,kernel_size 代表卷积核的尺寸,stride 代表步长,padding 代表输入数据各维度各边上要补齐0 的层数。

表1 DeSRGAN 方法中卷积层的参数设置

核估计网络的损失函数的常系数设定为αs=0.5、αm=0.5、αsq=5、αce=1,生成器和鉴别器采用相同的Adam 优化器,参数设定为β1=0.5、β2=0.999,网络迭代训练3000 代次,学习速率设定为0.002,并且每750 次迭代缩减10 倍。超分辨网络的损失函数的常系数设定为αx=0.01、αc=1、αa=0.005,生成器和鉴别器采用相同的Adam 优化器,参数设定为β1=0.9,β2=0.999,网络迭代训练90 000 代次,学习速率设定为0.0001。在图像对预处理的噪声提取过程中,噪声块的最小均值和最大方差2 个参数的设置选用mmin=12 和dmax=96。

RCAN 方法采用文献[18]的设定方案,生成器采用Adam 优化器,参数设定为β1=0.9、β2=0.99,网络迭代训练300 000 代次,学习速率设定为0.0001;EDSR 方法采用文献[15]的设定方案,生成器采用Adam 优化器,参数设定为β1=0.9、β2=0.99,网络迭代训练400 000 代次,学习速率设定为0.0001;ESRGAN 方法采用文献[14]的设定方案,生成器和鉴别器采用相同的Adam 优化器,参数设定为β1=0.9、β2=0.99,网络迭代训练300 000代次,学习速率设定为0.0001。

实际应用中,更多的场景是提升现有的高分辨率的图像的分辨率,超分辨率分析生成的图像不存在对比参照的原图像。因为没有参照的原图像,超分辨率分析生成的图像的质量的评测,需要借助无参考图像质量评估(IQA)指标,例如NIQE、BRISQUE 和PIQE。除BiCubic 方法不需要训练,RCAN、EDSR、ESRGAN 和DeSRGAN 等方法在前述参数设定条件下,分别训练网络。训练完成后,分别将测试集(DS_TE)中的512×512 分辨率图像超分辨率分析至2048×2048 分辨率图像。表2 中记录了各方法所生成图像的NIQE、BRISQUE 和PIQE 等指标的最小值和平均值。图8、9 和10 给出了所有生成图的无参考图像质量评估指标的分布情况。

表2 NIQE、BRISQUE 和PIQE 等指标的最小值和平均值

图8 生成图的NIQE 评估指标的分布

表2 和图8～10 中的NIQE、BRISQUE 和PIQE等指标通过Matlab 软件评测,评估值区间为[0,100]的正实数,越低的分值表示越高的感知质量。从表2 和图8中的NIQE 指标的分布情况可以看出,在空间域自然场景统计模型的统计规律性测量上,DeSRGAN 方法在大部分测试图片的评估中具有最好的得分,只有少部分测试图的得分近似于RCAN和EDSR 方法。从表2 和图9 中的BRISQUE 指标的分布情况可以看出,在局部归一化亮度系数的场景统计方面,DeSRGAN 方法在评估中几乎全部测试图都具有最好的得分,ESRGAN 在个别测试图上具有近似的得分,但ESRGAN 的分布稳定,在大部分测试图上的得分差于其他方法。从表2 和图10 中的PIQE 指标的分布情况可以看出,在局部特征的图像质量评估方面,BiCubi、EDSR、RCAN 方法得分情况近似,ESRGAN 方法较优,DeSRGAN 方法得分最优。综合来看,DeSRGAN 方法在无参考图像质量评估指标的评测中具有最好的表现。另外,图11 给出了各个方法生成图的视觉对比,从直观的视觉感官上可以看出,BiCubi、EDSR、RCAN 方法偏向于模糊和平滑,ESRGAN 和DeSRGAN 更清晰的同时也生成了更多的细节,EDSR、RCAN、ESRGAN 在高光边缘部分具有较多的毛刺伪影。综合来看,DeSRGAN 方法在视觉效果上也具有明显优势。

图9 生成图的BRISQUE 评估指标的分布

图10 生成图的PIQE 评估指标的分布

图11 生成图的视觉直观对比

4 结论

本文面向计算机断层成像技术,研究了从CT设备生成的低分辨率图像重构高分辨率图像的方法。相较于新近提出的RCAN、EDSR、ESRGAN 等方法,本文采用不同的高-低分辨率图像对生成办法,通过降质网络和注入噪声获得与真实图像同域的低分辨率图像,进而构造接近天然图像对的训练数据集。本文借鉴ESRGAN、PatchGAN 和VGG-19等深度学习网络的设计思路,构建包括了超分辨生成器、超分辨鉴别器和超分辨特征提取器的超分辨率生成对抗网络(DeSRGAN)。本文提出的DeSRGAN 方法,通过无参考图像质量评估,在空间域自然场景统计模型的统计规律性测量、局部归一化亮度系数的场景统计以及局部特征等方面均优于传统的BiCubic 方法和新近提出的RCAN、EDSR、ESRGAN 等方法。同时,在直观的视觉对比上,DeSRGAN 方法也具有更清晰的细节和更好感知效果。所以,本文提出的DeSRGAN 方法利用现有的高分辨率CT 图像数据集,通过自我降质构建训练数据集完成训练,将高分辨率CT 图像进一步生成扩大4倍的图像,更高的清晰度将直接提升医生对患者诊断的准确度,具有重要的临床意义。