时间:2024-05-04
杜佳成,余艳梅,汪恩惠,陶青川
(四川大学电子信息学院,成都 610065)
肺癌是我国第一大癌症,发病率较高[1]。研究发现,及时诊断和治疗能够减少肺癌病人的死亡率[2]。相比X 射线,CT 能准确观察到病灶位置,为早期肺癌诊断提供准确的诊断依据[3]。然而每次CT 断层扫描都会生成几百帧肺CT 图像,给医生诊断带来挑战。准确分割肺实质能帮助医生快速定位病灶,为后续肺结节检测、肺功能评估创造条件,辅助医生快速诊断病情。
基于深度学习的肺实质分割算法速度更快,精度更高,是目前研究的热点。Ronneberger等[4]提出一种对称的编解码模型U-Net,编码器利用下采样缩小特征图分辨率,捕获上下文信息,解码器利用上采样恢复图像分辨率,二者用跳跃连接相连,保证解码器在上采样时能够融合更多高层特征图包含的高分辨率细节信息,目前已成为医学图像分割的主流结构。Alom等[5]提出了一种基于U-Net 模型的递归卷积神经网络RU-Net 和一种基于U-Net 模型的递归残差卷积神经网络R2U-Net,利用递归残差卷积层增强网络提取特征的能力,增加网络深度。Asadi-Aghbolaghi 等[6]提出一种具有密集连接卷积和双向卷积LSTM(long short-term memory)[7]分割模型MCGU-Net,双向卷积LSTM 以非线性的方式将上采样后的特征图与相应编码器输出的特征图相结合,同时使用密集连接卷积加强特征传播。
注意力机制已被广泛应用于提高网络模型性能[8],其基本思想是让网络像人一样聚焦于重点信息,即把注意力放在感兴趣区域上。Oktay等[9]提出的Attention U-Net,利用注意力机制让U-Net 模型更集中于前景像素,提高了模型的分割性能。然而现有的注意力机制通常采用平均池化或最大池化来处理通道,计算量大且会丢失空间信息。协调注意力机制[10]避免既考虑通道之间的关系,也考虑特征空间中的位置信息,能够有效加强对前景信息的特征表示。
密集连接卷积[11]能帮助网络学习一组不同的特征图,允许信息在网络中流动以提高网络的表示能力。空洞卷积能够在扩大感受野的同时保持较高分辨率[12],帮助模型精确定位前景像素。Gu 等[13]提出的密集空洞卷积模块,利用多尺度空洞卷积提取丰富的特征表示。
目前MGCU-Net[6]模型在LUNA16 数据集和Kaggle 肺分割数据集取得了较优的结果,但其在边缘细节上的分割效果不太理想,存在以下问题:①未充分利用上下文信息,连续经过4次下采样容易丢失特征信息,影响分割效果。②肺部CT 图像背景信息复杂导致模型容易混淆前景和背景像素,降低边缘分割精度。针对以上问题,本文提出了一种基于MGCU-Net改进的肺实质分割网络CAMCGU-Net。主要有以下两方面的贡献:
(1)在上采样层后加入协调注意力模块,增强模型对于特征信息的学习能力,帮助网络更好地定位感兴趣区域,减少背景区域,提高模型的分割精度。
(2)在密集连接卷积层的基础上增加空洞卷积,编码器输出后连接4个密集连接的空洞卷积块,帮助模型获取多尺度特征信息。
本文基于MCGU-Net 改进的CAMCGU-Net 网络模型如图1 所示,其中在MCGU-Net 框架上新增的协调注意力模块和密集连接的空洞卷积块用虚线框框出。整个模型包含编码器和解码器,二者中间使用4 个密集连接的空洞卷积块连接,帮助网络提取丰富多尺度特征信息,避免梯度爆炸。编码器主要从输入图像中提取特征信息,它由卷积层和最大池化层组成,通过不断缩小特征图的空间尺寸来学习细节特征信息。解码器将编码器输出的特征信息进行进一步的优化,它由上采样层和协调注意力模块组成,上采样层将经过编码器后缩小的特征图恢复到原来的尺寸,以便于进一步的分割计算。协调注意力模块能够帮助解码器更好地定位到感兴趣区域,增强网络学习特征的表达能力。CAMCGU-Net模型中使用双向卷积LSTM 加权融合相应编码器和解码器的特征图,更好地平衡来自不同尺度的特征,以提升分割精度。
图1 CAMCGU-Net网络模型
本文提出的肺实质分割网络CAMCGU-Net的主要改进如下:在上采样后引入了协调注意力模块,以帮助模型聚焦于前景像素;同时在原密集连接卷积块中引入了空洞卷积,以帮助模型捕获多尺度特征信息。下面将分别介绍协调注意力模块和空洞卷积模块。
协调注意力模块的示意图如图2所示,它能高效整合空间坐标信息,分别获取图像在高度和宽度上的注意力并对准确位置信息进行编码,能对网络中的任意中间特征张量进行转换并输出相同尺寸的张量。
图2 协调注意力模块示意图[10]
本文在密集连接卷积的基础上增加空洞卷积,来帮助模型获取多尺度特征信息。具体来说,本文将两个空洞卷积层作为一个密集连接的空洞卷积块,在编码器的最后一个卷积层中,连接4 个密集连接的空洞卷积块,如图3 所示。帮助模型获取丰富多尺度特征的同时,避免梯度爆炸。第i个密集空洞卷积块的输入如公式(1)所示:
图3 CAMCGU-Net中的密集空洞卷积模块
式中为第j个密集空洞卷积块的输出。
本文实验采用的硬件设备和软件环境如表1所示。
表1 实验环境
本次实验训练和验证的batch size 均为4,总共训练200 个批次。实验中使用早停法(Early Stopping)来避免训练批次过多导致出现模型过拟合。具体做法是在每个批次结束后,在验证集上进行测试,如果验证精度连续10 个训练批次均无增加,则停止训练,避免模型因训练过多导致过拟合。
合适的学习率能够帮助模型在较短时间内收敛到局部最小值,本文使用Keras 库中ReduceLROnPlateau 方法配合早停法一起使用,避免因初始学习率过大导致训练后期模型性能不再提升。具体来说,如果验证损失在5个训练批次都没有下降,模型会自动降低学习率继续训练,从而继续提升模型性能。通过两种方法的配合使用,可以快速精确地获得最优模型。
本次实验采用2017 年Kaggle 数据科学碗中提供的肺分割数据集,该数据集内同时包含二维和三维肺分割CT 图像,且均带有手动标注,专门用于肺实质分割。图4 为Kaggle 肺数据集中的示例,左边是原始肺CT 图像,右边是手工标注的肺实质图像。我们将70%的数据用于训练集,剩下30%的数据用于测试集,每张图片的尺寸为512×512。
图4 Kaggle lung数据集示例
本次实验采用3个常用的图像分割评估指标用于评估模型的分割效果:准确率(ACC)、特异性(SP)和F1 分数。ACC表示模型预测正确的样本占总样本的比例,SP表示正确预测为背景的样本占总背景的比例,F1 分数是精确率和召回率的调和平均。
为了充分检验本文提出的CAMCGU-Net 模型的有效性,我们将CAMCGU-Net 和一些主流的肺实质分割模型,如U-Net、RU-Net、R2U-Net、MCGU-Net 进行了比较,实验结果如表2所示。
表2 实验结果
实验结果表明,本文提出的CAMCGU-Net模型在F1分数,SP和ACC上均取得了更好的效果,相比于性能次之的MCGU-Net模型,F1分数提升了0.25个百分点,SP提升了0.22个百分点,ACC提升了0.11 个百分点,说明本文提出的CAMCGU-Net模型在肺实质的分割上性能更优。
本文提出一种基于MCGU-Net的肺实质分割模型CAMCGU-Net,在Kaggle 肺分割数据集上进行了对比实验。实验结果表明,本文提出的模型在评估指标上均取得了更好的性能。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!