融合滤波增强和反转注意力网络用于息肉分割

时间：2024-05-04

林荐壮，杨文忠*，谭思翔，周乐鑫，陈丹妮

（1.新疆大学信息科学与工程学院，乌鲁木齐 830046；2.新疆大学软件学院，乌鲁木齐 830091）

0 引言

息肉是由局部粘膜表面突出的异常生长的组织，可以在结肠、直肠、胃甚至喉咙中发现。在大多数情况下，息肉是良性的；然而，息肉具有潜在癌变的可能，所以需要进行长期的诊断，包括息肉的增长情况、位置以及是否变成恶性。

当结直肠息肉持续恶化，就有可能会慢慢演化成结直肠癌。结直肠癌是世界上六种最常见的癌症之一，也是消化道最常见的恶性肿瘤之一，在所有癌症中，死亡率排在前10位［1］。自20 世纪90 年代初以来，结肠镜检查的引入使得结直肠癌总体发病率降低，是结直肠癌筛查的主要方式，可以在结肠息肉发展为癌症之前检测和清除结肠息肉［2］。结直肠息肉的检测和分割是医生诊断结直肠癌的重要依据；因此，准确分割结直肠息肉对于降低结直肠癌的发病率具有重要意义。

传统的息肉分割算法主要通过研究人员手动设计息肉特征来实现分割任务，根据息肉和背景的不同，从灰度值、对比度信息和纹理信息三个方面进行设计。传统的分割算法包括基于阈值的分割算法［3］、基于边界的分割算法［4］和基于区域生长的分割算法［5］。由于同一类型的息肉的外观可能不同（如大小、纹理和颜色），在结肠镜检查图像中，息肉与周围粘膜的边界通常非常模糊，无法达到传统分割算法所要求的对比度。使用传统的分割算法分割息肉需要耗费大量的人力，效率低，且分割不完整。

随着计算机技术和人工智能的飞速发展，出现了许多深度神经网络，如全卷积网络（Fully Convolutional Network，FCN）［6］、U-Net［7］、SegNet（Segmentation Network）［8］、DenseNet（Dense convolutional Network）［9］等，能够帮助处理大容量的结肠镜检查图片和视频数据，协助临床医生对结肠镜检测结肠息肉是否存在和息肉分类作出决定［10］。由于深度学习的通用性和高效性，其分割效果优于传统的分割算法，已被应用于医学图像分割等多个领域。随着对神经网络研究的不断深入，注意力机制也逐渐得到广泛的应用，通过计算注意力权重和对特征进行加权可强化有效特征，抑制无效特征［11］。分析结肠镜检查获得的图像可以发现，大部分图像中息肉区域与周围粘膜的边界通常非常模糊，缺乏对比度。由于前景和背景之间的对比度较低，在下采样过程中容易造成病灶区域结构信息丢失以及现有方法过度分割和欠分割问题。为了解决以上问题，本文提出了融合滤波增强和反转注意力分割网络（Fusing Filter enhancement and Reverse attention segmentation Network，FFRNet）。

1 相关工作

随着基于卷积神经网络（Convolutional Neural Network，CNN）的发展，涌现了许多优秀的方法，它们在医学图像领域取得了不错的效果。典型的工作有：

1）嵌套式U 型网络（nested U-Net，UNet++）［12］。Zhou等［12］在U-Net［7］的基础上提出了UNet++。该网络中，编码器和解码器通过一系列嵌套的密集跳过路径连接，缩小了编码器和解码器的特征映射之间的语义差距；网络中增加了深度监督，实现更准确的分割，特别是对于出现在多个尺度上的病变，如结肠镜检查视频中的息肉，深度监督能提高网络对于息肉分割的能力。

2）选择性特征聚合（Selective Feature Aggregation，SFA）网络［13］。Fang 等［13］提出一种具有面积和边界约束的选择性特征聚合网络用于息肉分割。具体地，上联和选择性核模块（Selective Kernel Module，SKM）被用来选择息肉图像的多尺度和多接受场表示；并且提出了一种新的损失，该损失考虑了区域和边界分支之间的相关性，使两个分支之间可以相互影响，从而实现更准确的预测。

3）并行反转注意力网络（Parallel reverse attention Network，PraNet）［14］。Fan 等［14］提出使用并行的部分解码器（Partial Decoder，PD）［15］组件获取全局特征图和递归反向注意模块。首先，使用并行连接聚合高级特征；然后，使用PD计算全局特征映射；最后，通过全局地图和反向注意机制建立区域与边界的关系，能实现对息肉区域的准确分割。

4）不确定性增强上下文注意力网络（Uncertainty Augmented Context Attention Network，UACANet）［16］。Kim等［16］提出通过获取未识别的区域信息来增强上下文信息。具体地，通过计算具有模糊显着性区域的分数，结合前景和背景区域用于上下文注意模块，并且提出了用于主干特征编码器和初始显着图解码器的平行轴注意力。该网络在未可见数据集上取得了较好的效果。

5）基于多尺度感知和语义适配的医学图像分割算法［17］。王雪等［17］提出多尺度上下文感知模块和多层语义适配模块，通过多尺度上下文感知模块，采用不同感受野获取丰富的特征信息，并根据目标区域大小动态分配权重；通过多层语义适配模块聚合多级语义特征和空间细节信息。该网络在可见数据集上的分割效果较好。

6）基于阶梯结构的U-Net 结肠息肉分割算法［18］。时永刚等［18］采用克罗内克（Kronecker）乘积，扩展标准空洞卷积核，弥补传统空间卷积丢失的相关细节特征；应用具有阶梯结构的融合模块，获取上下文信息和多尺度聚合特征。该算法在部分基准数据集上取得了不错的效果。

7）全局和局部交互式注意力网络［19］。任莉莉等［19］在U-Net［7］的基础上加入了全局和局部交互式注意力融合模块。其中：全局注意力通过线性层和归一化层实现，以加强空间维度的特征提取能力；局部注意力采用了局部跨通道交互策略。该网络能够分割出大部分息肉区域，但存在分割不完整问题。

本文提出的FFRNet 使用Res2Net［20］作为主干网络，对图像进行下采样并建立多级跳级连接。在连接过程中，加入滤波增强模块（Filter Enhancement Module，FEM）来获取前景和背景的变化强度，并添加到原始特征中，从而提高目标与其他区域的对比度，增强息肉结构信息。采用多尺度反转注意力融合机制（Multiscale reverse Attention Fusion Mechanism，MAFM），结合全局特征和上采样特征获得反向注意力权重，并通过多层反向注意力模块和多尺度权重叠加，建立和加强息肉区域与边界之间的关系。

2 FFRNet

输入图像x∈RH×W×C及其灰度图像g∈RH×W×C，空间分辨率为H×W，通道数为C。通过FFRNet，输出大小为H×W× 1 的相应像素级标签图。图1 为FFRNet 的网络结构，其中包含卷积（Convolution，Conv）、正则化（Batch Normalization，BN）、线性整流函数（Rectified Linear Unit，ReLU）等。首先，通过编码器获得图像的高级特征表示；接着，在解码器部分引入FEM 和MAFM，提取目标区域。

图1 FFRNet的网络结构Fig.1 Network structure of FFRNet

2.1 滤波增强模块

如图2（c）所示，通过观察结肠镜下的息肉图像，可以发现息肉与其周围黏膜的边界十分模糊，前景与背景的对比度非常低，对其分割具有一定难度。当对输入图像进行下采样时，目标结构信息丢失严重，无法有效提取息肉特征。

受到Liu 等［21］提出的图像金字塔引导网络（Image Pyramid Guidance Network，IPG-Net）和Yin 等［22］提出的深度引导网络（Deep Guidance Network，DGNet）的启发，本文在网络中增加了FEM，使用原图与其相对应的灰度图作为输入，用来补偿在下采样过程中的结构和细节损失并提高前景的对比度。具体地，将大小为x∈RH×W×C的图像作为输入，通过主干网络获得特征fi(i=1，2，3，4)；接着，将fi和下采样得到相同大小的灰度图像输入FEM。

FEM 对输入特征图f、相应灰度图g和正则化系数ε进行如下操作：

其中：mean为通过均值滤波输出的特征图；f ′为包含变化强度信息的特征图；fμ(*，r)为以r为窗口大小计算特征均值图；corr表示相关性；var表示方差；cov表示协方差；f″为通过FEM 输出特征；a、b为线性处理的参数。

通过均值滤波和线性变换对输入特征fi和灰度图像g进行处理，最后输出f″；通过FEM 获取目标区域与边界之间变化强度并保留到特征图中，使得特征f″获得更多的息肉特征信息，弥补部分由于下采样造成的结构信息丢失。图2（c）～（d）直观地展示了FEM 处理前后的效果。

图2 滤波增强模块的实验结果对比Fig.2 Experimental results comparison of filter enhancement module

通过分析研究和实验验证，在网络的前两层加入滤波增强模块，可使网络在训练和测试中取得不错的效果。

2.2 多尺度反转注意力融合机制

为了解决网络对于息肉区域分割不足的问题，受文献［14，23-24］启发，本文在上采样过程中引入了反转注意力模块。与文献［14］不同的是，本文通过结合多尺度融合的全局权重和上采样生成的初步权重，细化注意力权重；接着，通过反转注意力擦除前景对象的方式逐步挖掘有区别的目标区域，提升模型的分割效果。

2.2.1 全局图模块

如图3 所示，将编码层的fi(i=1，2，3)进行元素相乘聚合（Aggregation），并在输出过程中加入通道注意力和空间注意力［25-26］，按顺序推导出沿通道和空间两个独立维度的注意力图；然后将注意力图相乘到输入特征图进行自适应特征细化，得到最终的全局映射图。特别地，在聚合特征的同时串联两个注意力，细化特征，使网络能更准确地聚焦于目标区域，得到精细的全局映射图。

图3 全局图模块处理流程Fig.3 Processing flow of global map module

2.2.2 反转注意力模块

反转注意力模块的详细处理过程如图4 所示。fup-sampling是上采样过程中的输出，特征f″由2.1 节中FEM 获得。首先，通过fup-sampling获得初步权重Ap，并将2.2.1 节中的全局映射图作为全局权重Ag，通过元素相加，得到复合权重Ai：

图4 反转注意力模块处理流程Fig.4 Processing flow of reverse attention module

然后，通过多尺度权重叠加策略对深层权重进行上采样（这里采用双线性插值的方法），将其叠加至当前权重。通过这种方式，提高反转注意力模块对于目标区域提取的完整性，并补充部分丢失的细节信息。

通过结合全局权重和初步权重，使得复合权重能更加有效地挖掘特征图中前景区域的结构信息。通过这种自下而上的多尺度反向注意机制擦除方式，FFRNet 最终可以将粗略和低分辨率的预测图细化为一个完整的包含探索目标区域和细节高分辨率显著图。

2.3 感受野块

在跳级连接的过程中，为了保留特征中更多有用信息的同时减少通道数，使用了感受野块（Receptive Field Block，RFB）［27］。它是一种多分支卷积，使用不同大小的卷积核来获取具有不同感受野的特征，如图5 所示。

图5 感受野块处理流程Fig.5 Processing flow of receptive field block

2.4 损失函数

FFRNet 使用了二进制交叉熵（Binary Cross Entropy，BCE）损失和加权交并比（weighted Intersection over Union，wIoU）损失。可以表示为：

损失函数的定义与文献［14，28-29］中的定义相同。通过ℓwIoU增加困难样本的权重以突出其重要性，并使用ℓBCE使网络在训练过程中更加关注困难样本。

3 实验与结果分析

3.1 数据集

实验中采用的训练数据集来自Kvasir［30］和CVCClinicDB［31］中随机选择的图像。为了与现有方法公平比较，提取与文献［14］相同的训练数据进行模型训练。其中900张图像来自Kvasir，550 张来自CVC-ClinicDB。

以下为用于对模型进行最终测试的5 个基准数据集，：

1）Kvasir。该数据集包含1 000 张息肉图像，其中900 张用于模型训练，100 张用于模型测试。与其他数据集的区别在于Kvasir 中图像大小各不相同，其范围在332×487 到1 920×1 072；并且图像中息肉区域的大小和形状也各不相同。所以，使用该数据集进行测试具有一定的挑战性。

2）CVC-ColonDB［32］。该数据集由结肠镜检查的15 个不同序列中采样的380 张图像组成，图像大小均为574×500。

3）CVC-ClinicDB［31］。该数据集由从25 个结肠镜检查视频中提取的612 张图像组成，图像大小均为384×288。其中550 张图像用于模型训练，62 张图像用于模型测试。

4）EndoScene［33］。该数据集由从36 名患者的44 个结肠镜检测序列中提取的912 张图像组成。由于EndoScene 是由CVC-ClinicDB 和CVC-300 结合而成的，所以使用CVC-300 作为模型的测试数据集，共60 张息肉样本图像，大小为574×500。

5）ETIS［34］。该数据集是从34 个结肠镜检查视频中提取的196 张图像，图像大小均为1 225×966。通过观察该数据集中的图像可以发现其目标区域很小，实验中先对图像输入大小进行调整，将目标区域等比例缩小。同样地，使用模型对其进行分割具有很大的挑战性。

其中：将可见数据集（Kvasir 和CVC-ClinicDB）划分为训练集和测试集，使用训练集对模型训练；未可见数据集（CVC-ColonDB、EndoScene 和ETIS）只作为测试集，未划分数据参与模型训练，用于测试模型泛化能力。

3.2 评价指标

为了更好地与现有方法作对比，采用与文献［14，16］相同的评价指标。包括：

1）Dice 相似系数（Dice Similarity Coefficient，DSC），用于计算预测目标区域与实际目标区域的相似性。本文对测试集中所有测试结果的相似系数总和取平均值，记作mDice。相似系数的计算公式如下：

其中：真阳性TP（True Positive）为预测目标区域与实际图像相同的像素值；假阳性FP（False Positive）为预测将实际背景区域预测成目标区域的像素值；假阴性FN（False Negative）为预测将实际目标区域预测成背景区域的像素值。

2）交并比（Intersection-over-Union，IoU）系数，用于计算预测值和实际值两个集合的交集与并集的比值。本文对测试集中所有测试结果的交并比系数总和取平均值，记作mIoU。交并比系数的计算公式如下：

3）平均绝对值误差（Mean Absolute Error，MAE），用于比较预测值y与实际值之间的逐像素绝对值差异。

4）结构相似性度量Sα（Structure-measure）［35］，用于衡量预测图像和实际图像的结构相似性。

5）增强对齐度量（Enhanced-alignment measure）［36］。

6）加权相似度量系数（Weighted similarity measure coefficient）［37］，用于修正相似系数中的“同等重要的缺陷”问题。

其中：β为1；Precision为加权精度值；Recall为加权召回值。

3.3 实验环境参数与数据预处理

本文模型使用PyTorch 1.10.2 框架实现，由TITAN RTX GPU 进行加速。在训练阶段，对图像进行归一化、旋转、水平翻转等预处理操作，输入到模型的图像大小统一调整为352×352。设置16 个批次batch_size，使用预热学习速率，设定为0.000 1，且使用Adam 优化器对模型进行了200 个周期的训练，并使用多尺度训练策略｛0.75，1，1.25｝。

3.4 不同网络模型对比实验

Kvasir［30］是近期发布的最大的数据集，其中的图像的大小各不相同，并且息肉区域的外观和纹理也有很大的不同，所以分割这个数据集具有很大的挑战性。对比网络模型包括：U-Net［7］、U-Net++［12］、SFA［13］、PraNet［14］、UACANet（S）［16］和UACANet（L）［16］，其中S、L 代表网络中采用的卷积通道数大小，结果如表1 所示。

表1 在可见和未可见数据集上不同网络的结果对比Tab.1 Comparison results of different networks on visible and invisible datasets

如表1 所示，其中加粗值为最优值，下划线为次优值。FFRNet 在Kvaisr 上的平均相似系数为91.4%，其他指标也超过了其他对比网络，取得了不错的结果，尤其是与UACANet（L）相比，相似系数提升了0.2 个百分点。因此，本文提出的FFRNet 可以在许多具有挑战性和复杂的场景中准确定位和分割息肉区域。在CVC-ClinicDB 上，FFRNet 相较于UACANet（L）提升了0.5 个百分点。

图6 展示了FFRNet 和其他方法在5 个不同基准数据集上的部分分割结果，可以直观看出FFRNet 对不同大小息肉区域的分割结果接近实际标签结果，效果最好。

图6 5个不同基准数据集上不同网络的部分分割结果对比Fig.6 Comparison of partial segmentation results of different networks on five different benchmark datasets

使用未可见的数据集（CVC-ColonDB、EndoScene、ETIS）测试模型的泛化能力（模型训练数据仅来自Kvasir 和CVCClinicDB），实验结果如表1 所示。FFRNet 在这些数据集上均取得了不错的结果。当将图像调整到352×352 后，在ETIS中，大部分图像中息肉目标区域的占比非常低，因此，预测时对息肉区域进行分割非常困难且具有很大的挑战性。此时，FFRNet 在ETIS 上mDice 为76.2%，与UACANet（L）［16］相当，与UACANet（S）［16］相比，提升了6.8 个百分点。综上所述，本文提出的FFRNet 具有较好的泛化能力。

3.5 消融实验

对FFRNet 进行消融实验，在可见和未可见数据集上测试FFRNet 的各个组件，结果如表2 所示，其中，Backbone 模块为使用骨干网络进行训练（不包含任何组件）。

如表2 所示，可以发现在Kvasir 和EndoScene 上，主干网络在加入FEM 后，mDice 和mIoU 等评价指标有着小幅提升。由此可知，FEM 发挥了一定的作用，恢复部分下采样造成的结构损失，提高了网络的分割能力。加入MAFM 后，mDice和mIoU 等评价指标有着明显提升。因此，使用MAFM 可以提高网络挖掘边界信息的能力，准确分割息肉区域。而FEM和MAFM 两者结合的实验结果取得了91.4%和90.2%的mDice，所有评价指标明显高于其他的实验结果。由此可知，两个模块结合能够更加有效地提高网络的性能。本文提出的FFRNet 对肠道息肉具有良好的分割性能。

表2 不同模块的消融实验结果Tab.2 Ablation experimental results of different modules

4 结语

本文针对目前现有方法在肠道息肉分割中存在息肉区域分割不全等问题，提出了一个融合滤波增强模块和多尺度反转注意力融合机制分割网络FFRNet 用于结直肠道息肉分割。首先，在编码层输出时，加入滤波增强模块，用于解决下采样过程中目标区域结构信息缺失问题；然后，在解码层，结合全局特征和上采样输出的初步特征生成反转注意力权重，用于挖掘特征图中息肉区域，区别其他区域，提高网络对于息肉边界的分割能力，解决对息肉区域过度分割和欠分割问题。为了与现有方法作对比，网络模型的输入图像采用了相同的固定大小；然而，不同数据集图像大小各异，固定大小会明显影响最终的分割结果，尤其是在对于有些息肉小目标区域的分割效果不是特别理想。未来将针对小目标问题，对网络作进一步改进。