基于PRU-Net的皮肤癌分割方法研究

时间：2024-05-04

李玉莲，田军，陈东祥，邓盈，曾维鑫，曾悦琪

（电子科技大学成都学院，四川成都 611731）

0 引言

皮肤癌是一种常见的恶性肿瘤，严重影响到人类健康和生命。皮肤癌有黑色素瘤和非黑色素瘤皮肤癌这两大类，其中黑色素瘤的治疗效果最好，但非黑色素瘤皮肤癌的治疗难度较大。随着计算机技术的发展和深度学习的崛起，基于深度学习的皮肤癌图像分割的研究变得更加精准和自动化，而图像分割技术作为图像处理的关键技术之一，早已应用于医学领域。如朱长明等人[1]采用谱聚类集成的超声图像分割算法对低信噪比的淋巴结超声图像进行分割。刘辰等人[2]采用医学图像分割技术保留和去除关键的区域和组织。廖林峰等人[3]将模糊C-均值聚类算法运用于医学图像，针对模糊C-均值聚类算法容易受到聚类中心初始值和噪声的影响，采用粒子群算法和遗传算法的结合，以迭代的方式来获取分割结果。Ronneberger 等人[4]提出了一种对称的全卷积神经网络UNet，通过跳跃连接，融合了浅层和深层的图像特征信息，提升了医学图像分割任务的性能。近年来，已有研究对使用U-Net 模型在医学领域进行图像分割做了深入探索。如：脑肿瘤[5]、肝肿瘤[6]、视网膜[7]、肺[8]等典型医学图像上取得了很好的结果。然而，由于UNet 本质上是一种经过改造的全卷积神经网络模型，它会出现建模局部-整体关系欠缺、持续采样次数过多会造成精度损失、占用大量的计算资源进行训练和推理产生过拟合现象等等问题。

综合上述进展，本文提出了一种新的皮肤癌分割模型PRU-Net，首先采用U-Net 网络和密集链接结构作为分割网络模型，以此增强皮肤癌全局信息的传播和重复利用；其次通过添加通道注意力机制提升边缘图像的分割准确率；再加入ResNet中的残差模块和空洞金字塔池化模块,提高网络模型的分割性能。

1 算法研究

1.1 语义分割网络

在图像处理领域，卷积神经网络通常适用于细节敏感度较低的图像检测和分类，因为卷积神经网络具有感受野较小的浅层卷积,可以局部感知到部分区域的基本特征信息，当网络层数越多，卷积层的感受野越大，性能越好，可以关注到图像更为抽象和丰富的整体特征信息。卷积神经网络通过池化层和卷积层使得学习到的抽象特征具有平移不变性，因此卷积神经网络可以有效地处理大样本数据集。由于卷积神经网络具有较深的网络结构，可能会导致在提取特征时，损失图像的纹理边缘、目标轮廓等细节信息，所以卷积神经网络无法有效地实现图像的语义分割任务。

在语义分割领域中对特征信息及背景区域进行准确、高效地分类成为一大难点，而全卷积神经网络的诞生则有效地解决了这个问题，其分割结果可精确到像素级别。Long等人在2015年联合提出了一种无全连接层的卷积神经网络（Fully Convolutional Networks，FCN）。FCN 对比以图像分类为目的的传统卷积神经网络不同，主要用于图像分割任务，它可以准确识别图像中每个特征像素的类别，并可以对像素进行准确定位，实现像素级别的语义分割。FCN与经典的卷积神经网络的不同之处在于：它可以接受任意尺寸大小的输入图像，FCN网络通过反卷积（Deconvolution）对最后一个卷积层处理之后的特征图像进行上采样操作，使得输出图像维持原始尺寸大小。FCN网络通过卷积层提取图像的特征，在网络进行上采样操作时，对特征图像进行像素级的分类，逐个计算像素分类的损失，其网络结构如图1所示。

图1 FCN结构

FCN虽然在图像分割领域得到了广泛应用，但它也存在一些缺点和不足之处：1）网络运算量大，导致模型运算速度变慢，训练和测试所需时间大大增加；2）分割精度有限，FCN 各个层之间缺乏上下文信息，导致分割结果不能充分考虑整个图像的语义信息；3）模型可解释性差，一些像素可能被独立分割，使得分割结果难以与初始图像相匹配。

1.2 基于U-Net网络分割模型

U-Net 是一种基于FCN 网络的改进图像语义分割算法，可以广泛应用于不同类型的图像分割问题。U-Net 的网络结构如图2 所示，由图2 可知，U-Net 将网络结构划分为两部分：编码器和解码器，同时编码器部分又称为下采样过程，解码器部分又称为上采样过程。

图2 U-Net网络结构

在医学图像分割任务中，U-Net 网络具有优异的表现，医学影像和普通图像相比较为复杂，并且轮廓特征不清晰、灰度范围偏大，但分割的目标特征在人体图像中结构固定并呈规律分布，语义特征也简单明确，U-Net 网络通过结合浅层特征信息和深层语义信息可以对医学图像提供精确的分割定位。此外，医学影像样本集数量偏少，对模型结构复杂的网络可能会产生大量的参数，从而导致模型出现过拟合现象。UNet 作为轻量级的网络，对数据集规模较小的医学影像有着较好的分割效果，即使在网络训练过程中图像数据量不足，依旧可以通过镜像、平移及旋转等图像增广操作来扩充数据集，防止网络过拟合。此外，UNet 网络可以通过改进或优化网络结构的单元模块来增加模型的泛化能力，使网络模型具有较好的分割性能。

1.3 算法改进

1）密集链接结构

卷积神经网络通过提高网络深度来提取高维特征。网络越深，越容易造成梯度消失，会通过加入残差网络（Residual Network，ResNet）来避免梯度消失问题，加入多尺度特征采样来提高网络宽度。但是随着神经网络层数增多，输入输出路径变得更长，将存在梯度反向传播进入输入路径时特征信息丢失的情况，且网络对特征向量进行恒等映射时反复学习，易导致参数冗余。为了更好地解决上述问题，Huang G[9]提出了密集链接卷积网络（Densely Connected Convolutional Network，DenseNet），其由多个密集连接的卷积层组成，这使得每一层的输出都成为后续所有层的输入，从而提高了信息流通的效率和共享率。DenseNet能够增强特征信息的重复利用，同时降低参数的数量，网络结构如图3所示。

图3 DenseNet网络结构

密集链接模块的主要思想是在每一层的输出上堆叠前面所有层的输出特征图。这种密集链接的方式可以将信息从前面层传递到后面层，避免了深度神经网络中梯度消失的问题。DenseNet 将每个卷积层的输出与该层之前所有卷积层的输出拼接在一起传递给下一层，褶皱连接方式可以将前面层的特征直接传递给后面层，避免了深度神经网络中梯度消失和梯度爆炸的问题。同时，密集链接可以增加网络中特征的重用，提高网络的参数利用。

2）金字塔型空洞卷积模块

空洞卷积（Dilated Convolution）也被称为空间扩张卷积或膨胀卷积，其主要目的是通过增加卷积核的感受野来提取更广泛的上下文信息，从而提升模型的表现。空洞卷积的实现方式是在卷积核内部插入一定数量的间隔，从而使得卷积核的有效感受野得到扩大，也就是更多的上下文信息可以被获取。如图4所示，标准卷积是扩张率等于1的特例。卷积核大小为k，扩张率为r的空洞卷积在连续的滤波器值之间引入r-1个零，接受野K的大小为：

图4 普通卷积和空洞卷积

与普通卷积相比，空洞卷积在不损失特征图分辨率的情况下扩大感受野，同时也不会增加参数数量，故可以很好地应用空洞卷积获取图像全局信息。

皮肤癌分割任务中，池化过程通常会造成空间分辨率降低，多次池化操作会损失图像特征信息。为扩大皮肤癌图像特征映射的感受野，使卷积层可以接收任意尺寸的特征图像，并融合图像多尺度特征信息，本文模型将用空洞金字塔池化模块(Atrous Spatial Pyramid Pooling，ASPP)替换原始网络底部的卷积层，网络从不同空洞率下卷积的输出结果进行特征融合，得到多尺度的特征来辅助语义分割任务，避免了语义分割中因感受野过小而导致精度不足的问题。

ASPP采用了金字塔式的多尺度信息聚合策略,先采用不同空洞率的卷积对输入图片进行特征提取，再将这些特征进行上采样和汇聚，最后得到全局上下文信息和语义信息，在分类和分割任务中发挥重要作用。如图5空洞金字塔型池化模块示意图。

图5 空洞金字塔池化模块

空洞卷积可以通过获得不同膨胀率的膨胀卷积进行多尺度语义融合，改进后的空洞金字塔池化模块，既可以使用膨胀系数小的卷积层增大皮肤癌图像病变区域的细节特征信息，又可以使用膨胀系数大的卷积层增大图像特征映射的感受野。在本文改进的网络模型中，将U-Net 底部的卷积层使用带有空洞卷积的金字塔池化模块代替，使网络模型可以提升皮肤癌图像特征信息分割的准确率，解决图像特征区域与背景区域对比度低而导致的分割模糊等问题。

3）PRU-Net网络模型设计

在U-Net 网络分割过程中，会存在图像边缘模糊等问题。因此，针对皮肤癌语义分割算法的难点及U-Net 网络在分割领域的不足之处，本文提出了一种新的分割算法PRU-Net。PRU-Net 是由密集链接模块和金字塔型空洞卷积模块组合而成，加上残差模块，该网络分别从以下三方面对皮肤癌模型结构进行优化与改进：

①为了避免网络欠拟合，通过增加ResNet网络的层次结构，使网络模型拟合程度更好，更加符合皮肤癌图像的特征信息；

②采用密集连接和ResNet 残差网络相结合的模型结构，在ResNet 原始网络的编码器-解码器结构之间添加密集链接结构，通过对网络层与层之间建立短连接的方法，增加皮肤癌的特征复用，减少冗余特征的参数量；

③将传统ResNet 底层的卷积操作改为空洞金字塔池化模块，使其通过逐层解码方式提取皮肤癌图像的特征信息，保证模型既可以充分利用图像的低维和高维特征信息，又可以提升网络模型的训练能力和分割效果。

PRU-Net 模型的核心由编码器、空洞金字塔池化、残差模块以及解码器四个模块共同构成，PRUNet网络结构如图6所示。

图6 PRU-Net网络模型

2 实验

2.1 数据集与预处理

本文所使用的数据集来自国际皮肤成像合作组织(The International Skin Imaging Collaboration，ISCI)，该数据集包括2 594张图像和12 970张标签图像。其中收录了大量高质量皮肤病变的皮肤镜图像，这些图像都来自于临床数据，实际价值较好,并且图像是皮肤癌专家进行的注释与标注，如图7所示。

图7 ISCI数据集

本文对数据集做了以下处理：

1)为确保输入数据具有一致的大小，将图像和标签压缩至256×256像素。

2）为使数据落在一个较小的范围内，避免权重更新过程中出现梯度爆炸或梯度消失的问题，加速网络的收敛速度，对压缩后的数据进行了标准化。

3）医学数据集涉及患者隐私、医学伦理等现实问题，大量数据不易被获取，故医学图像领域中高质量大规模数据集的匮乏，而提高深度学习模型的泛化能力需要依赖于大量的数据集进行模型训练。

为解决此问题，对输入的图像进行了数据增强，包括几何变换、颜色变换、增加随机噪声。

图8 中（a）是原图，（b）、（c）、（d）分别是对原图进行逆时针旋转90 度、水平翻转和垂直翻转。图9 中（a）是原始图像，（b）、（c）、（d）分别是对原图的亮度、饱和度、对比度调节。图10中是本研究中添加的两种随机噪声，（a）是原图，（b）是高斯噪声，（c）是椒盐噪声。

图8 几何变换类

图9 颜色变换类

图10 随机噪声

2.2 评价指标

为了能够定量地评价各个网络模型对数据集的分割效果，本文选用医学图像分割中最常见的评价指标Dice 相似系数（Dice Similarity Coefficient，DSC）和交并比（Intersection over Union，IoU）进行模型评估。DSC 用于评估真实分割区域与预测分割区域之间的相似程度，其值越大表示预测值与真实值之间的相似度越高，分割的结果越好。IoU 是预测分割区域和真实分割区域之间交集与并集的比值，同样也是指标越高，分割效果越好。DSC 和IoU 的表达式依次如下：

其中，A和B分别代表真实和预测的分割结果。

2.3 实验设置

实验环境搭建在Python3.6 下，使用Keras 构建网络框架，实验环境在Intel(R)Core(TM)i7-7700HQ CPU及显卡GTX1050 进行，运行内存8GB，显存4GB。网络训练参数设置如下：采用Adam 优化器更新参数模型，学习率为0.5e-3，网络迭代训练次数设置为50 个周期，卷积时填充padding 均设置为SAME 模式，训练时批大小batch size设置为2，随机丢弃率Dropout设置为0.5。

2.4 实验结果分析

本文将PRU-Net 网络模型与其他模型应用于ISCI数据集，分别展示了网络分割模型训练loss对比图如图11。

图11 loss对比图

根据图11，可以看出PDU-Net相较于另外两个模型，训练的效果较好，随着训练轮次的增加，PDU-Net的loss值在不断下降并在下降到最小值后稳定。

图12 展示了不同网络模型对部分测试图片的分割效果。

图12 网络模型分割结果对比

图12 (c)、图12(f)分别是U-Net 网络、ResNet 网络对图片的分割结果，可以看出分割的结果较差，并带有毛刺。图12(i)是PRU-Net网络对图片的分割结果，可以看出该结果实现了准确的分割。

本文进一步将PRU-Net 网络与其他医学图像分割模型在分割准确率（Dice 系数和IoU）上进行了对比，如表1所示。

表1 不同网络模型在ISCI数据集上的分割准确率

由表1可知，PRU-Net模型仍然表现出色，其平均Dice 系数达到了0.906，IoU 值达到了0.830。这些实验结果进一步表明了本文所提出的PRU-Net 网络具有更好的分割性能。

3 结论

本文通过实验分析了几种常用深度神经网络模型在皮肤癌分割的效果以及它们之间的差异性。针对目前皮肤癌分割流程及相关技术，展开深入的研究，本文提出了一种新的模型结构PRU-Net，加深网络深度的同时引入空洞金字塔模块（ASPP）和残差模块，在U-Net“上采样+下采样”的过程中添加具有BN层及ReLU 激活函数的密集链接结构，并联不同膨胀率的空洞卷积，使模型可以融合皮肤癌图像的多尺度信息。本文所提出的网络模型已取得较好的成果，但是仍需进一步改进。下一步将会采集更多分布均衡的数据，探索如何利用半监督和无监督算法有效地进行皮肤癌分割，同时确保辅助诊断的准确性，并且加大神经网络的广度与深度以增强其表达能力，使深度学习算法在各个领域得到快速发展。