轻型多尺度黑色素瘤目标检测网络模型的建立：基于注意力机制调控

时间：2024-07-28

钟友闻，车文刚，高盛祥

1昆明理工大学信息工程与自动化学院，云南昆明 650500；2昆明理工大学云南省计算机技术应用重点实验室，云南昆明 650500；3昆明理工大学云南省人工智能重点实验室，云南昆明 650500

黑色素瘤是由黑色素细胞高度恶变而来的，是一类恶性程度高，侵袭性强的皮肤恶性肿瘤［1］。根据我国的数据显示，我国每年黑色素瘤新发病例将近2万人，发病率呈现逐年上升的趋势［2］。黑色素瘤多发生于皮肤表层，也可能发生于眼，内脏粘膜等部位，而且极易发生早期转移，非常容易被忽略或误诊为其他疾病［3］。因此，黑色素瘤的早发现和早诊断能够更及时的为患者治疗，有效提升患者的治愈率。为此，对黑色素瘤的目标检测十分关键。

近年来，随着深度学习算法的兴起。目标检测作为计算机视觉领域最重要的分支之一［4］，在监控，识别等领域发挥着重要作用。相对于传统机器学习算法通过手工提取特征而言，通过深度学习的目标检测算法训练出来的模型泛化能力更好，精度更高［5］。将深度学习算法应用到黑色素瘤目标的检测上，能够更好的辅助医生诊断［6］。就目前发展的情况来说，计算机视觉的目标检测算法主要分为One-Stage 结构和Two-Stage 结构这两类［7］。Two-Stage模型算法是将目标检测划分为两个阶段，第一个阶段先产生候选区域，第二阶段对候选区域分类并对位置修正，代表的模型有SPP-Net［5］，Fast-RCNN［8］，R-FCN［9］等。由于Two-Stage模型计算量较大，难以实时检测，考虑到Two-Stage模型检测的实用性问题。以One-Stage结构的模型算法在不需要生成候选区域的情况下［10］，直接对每个目标类别进行回归预测，极大的降低网络模型的算法时间复杂度，提升了检测速度，代表的模型有SSD［11］，EfficientDet［12］，YOLO［13］系列等。

目前，YOLO系列是目标检测算法广泛应用的模型之一，YOLO是You Only Look Once的英文缩写。在2016年由Redmon提出的YOLOv1［14］模型开始，经过不断的迭代升级，推出了YOLOv2［15］模型，YOLOv3［16］模型，YOLOv4［17］模型，直至目前最新的YOLOv5［18］模型，以及YOLOX［19］，YOLOR［20］等衍生模型，其中YOLOv5模型的综合性能最佳，适用于实际的工程项目应用。

在此之前，有许多学者将YOLO系列的模型应用于黑色素瘤目标检测，其中Nie 等［21］提出了基于YOLOv3算法的黑色素瘤目标检测，在对早期黑色素瘤和晚期黑色素瘤的检测中，精确率分别达到了79%和75%。Bisla等［22］使用YOLOv3算法并通过图像分割技术来检测皮肤病变，但是YOLOv3算法模型对检测小目标定位精度较差，且模型权重较大，召回率较低。

因此，为了更好地解决提升对黑色素瘤的识别精度和降低模型复杂度的问题，本文提出了采用YOLO系列最新的轻量化模型YOLOv5s，模型大小为14MB。通过改进YOLOv5s骨干网络的空间金字塔池化层，并且在YOLOv5s的C3模块里融入坐标注意力机制和在骨干网络中融入高效通道注意力机制。使得模型在不带来额外计算开销的情况下，降低了模型的总体参数量，同时在跨信道交互过程中嵌入特征的坐标信息，并且在确保模型不降维的同时让轻量化网络模型能够捕获更大区域的位置信息，提升了对黑色素瘤的识别率。采用开源数据集和运用两种不同的图像增强方案，对改进后的模型进行对比实验分析，然后对模型关键指标进行评估［23］。实验结果表明，本文改进后的模型能够更有效的识别黑色素瘤。

1 方法

1.1 YOLOv5 模型简介

YOLOv5根据Bottleneck残差结构个数以及卷积核数量划分网络结构的深度与宽度，将其分为YOLOv5s，YOLOv5m，YOLOv5l，YOLOv5x 4 种主要模型。其中YOLOv5s的网络深度为0.33，网络宽度为0.50，其余3个主要模型均在该网络深度与宽度的基础上不断加深与加宽。YOLOv5的结构主要包含输入端,骨干网络,颈部网络以及预测头。YOLOv5s模型随着结构内部所含的残差结构个数的依次增多，网络特征提取与融合能力得到不断加强，同时检测精度得到提高，但是相应运行速度就会变慢，模型所花费的时间也会相应增加。YOLOv5s网络结构如图1所示。

图1 YOLOv5s网络模型结构图Fig.1 Structure diagram of YOLOv5s network model.

1.1.1 Input输入端在YOLOv5s的输入端部分通过自动设定初始锚框的大小自适应缩放图片。同时，还可以采用图像增强的方法对图像数据进行预处理。并且在每次训练时，对标注样本的锚框尺寸采用聚类算法确定最合适的锚框尺寸。

1.1.2 Backbone骨干网络 Backbone骨干网络作用是提取数据集中的指定特征，特征提取能力越强，模型对目标的识别精度就越高。为此，Backbone骨干网络由多种模块构成，包含Conv，C3，SPP这3个组件。

Conv模块是一个标准的卷积模块，是整个骨干网络中最基础的组件，由卷积层，BN层，Activate激活函数组成。而C3模块是CSPBottleneck的改进版本，结构的基本功能均与CSPBottleneck相同，C3模块通过精简只保留了三个CBL。因此，C3模块起到精简模型的网络结构，减少模型的总体参数和降低模型的计算量以及模型推理时间的效果。

为了解决输入图像尺寸不统一的问题，在骨干网络中引入空间金字塔池化层（SPP）。SPP能够对输入到骨干网络中的图像进行卷积运算，然后输出特征映射，再将得到的特征映射分成若干等分用来进行最大池化操作，最后送入到全连接层。SPP对不同大小特征的融合，实现了多重融合感受野，解决了黑色素瘤目标特征大小差异较大的问题。

1.1.3 Neck network颈部网络颈部网络是由特征金字塔（PAN）组成。通过FPN结构进行上采样，使得底层特征图包含更强的黑色素瘤语义信息。再由PAN进行下采样，加强顶层特征图中黑色素瘤的位置信息。最后将FPN和PAN进行融合，使得特征图中有效包含黑色素瘤的语义信息和特征信息，确保对不同尺寸的黑色素瘤图像能够做到有效识别。

1.1.4 Predict head 预测头为了能够快速检测跨尺度目标，YOLOv5 针对不同尺度的特征图采用anchorbased的方法，通过不同尺度的anchor一次性输出预测框的位置和类别置信度。因此，在Predict head中会有20×20，40×40，80×80这3种尺度的输出。其中，20×20尺度代表深层特征图，用于大目标的检测；80×80尺度代表浅层特征图，用于小目标的检测。

在实现了跨尺度目标检测的同时，考虑到预测框与真实框的长宽比例问题。为此，YOLOv5使用CIOU loss函数来衡量锚框的损失。CIOU loss通过对预测框与真实框的距离，长宽比例，重叠率以及尺度参数地计算，使得预测框的回归更加稳定。CIOU计算公式如（1）式所示：

其中，P2(b,bgt)代表预测框与真实框中心点之间的欧式距离，c代表预测框与真实框的最小包围矩形的对角线长。

1.2 注意力机制

计算机视觉领域的注意力机制是为了在原有的数据上找到数据之间的关系，从而突出数据上的某种重要特征，现以广泛应用到目标检测和图像分割上。目前，注意力机制主要划分为通道注意力机制和空间注意力机制以及两者相结合的混合型注意力机制。一般来讲，虽然混合型注意力机制能够提高模型的精确率，但是不可避免的增加了模型的参数量与计算量。

1.2.1 CoordAtt注意力机制由新加坡国立大学的Hou等［24］提出了一种专门为轻量级网络设计的注意力机制，称为坐标注意力机制。该注意力机制将空间信息编码成两个并行的一维特征编码,利用两个一维特征编码插入坐标信息来避免二维全局池化所造成的位置信息损失。CoordAtt注意力机制不仅能够捕获跨通道信息,还嵌入了空间信息。因此，使得模型能够更准确的定位目标区域，并且抑制了非重要信息的计算，坐标注意力机制具体结构如图2所示。

图2 坐标注意力机制结构图Fig.2 Structure of the coordinate attention module.The coordinate attention module can accurately capture the coordinate information of hyperspectral images.

根据图2所示，坐标注意力机制模块首先编码高度H和宽度W。在特征图像中，给定位置（i,j），通道C上的像素值为xc(i,j)。

宽度W平均池化的输出定义如（2）式所示：

高度H平均池化的输出定义如（3）式所示：

坐标注意力机制完成连接，卷积和激活函数操作定义如(4)式所示：

（4）式中F 代表1×1 卷积运算，δ为ReLU 激活函数。y是ReLU层的输出特征图。

经过拆分操作后，y分解为yi和yj。yi与yj通过2D卷积和Sigmod激活函数分别完成对宽度W与高度H平均池化的加权。相关定义如（5）式与（6）式所示：

（5）式中，wi是特征图像数据H 方向的自适应加权。Fi代表对H的卷积运算，输入值是yi。（6）式中，wj是特征图像数据W方向的自适应加权。Fj代表对W的卷积运算，输入值是yj。σ代表的是Sigmoid激活函数。

因此，坐标注意力机制的特征图像输出定义如（7）式所示：

（7）式中，通过给定(i,j)坐标位置，确定xc(i,j)特征图像输入的值与fc(i,j)特征图像输出的值。

1.2.2 ECA注意力机制为了增强网络模型提取跨信道特征的效率，提升黑色素瘤的检测精度。通过改进传统的SE注意力机制（SE）［25］，从而得到一种轻量型的高效通道注意力机制（ECA）［26］。ECA注意力机制在给定全局平均池化（GAP）之后，使用1×1卷积层来完成跨通道间的信息交互。同时去除全连接层，避免了权重分配过程中的维度缩减操作。ECA注意力机制旨在跨通道信息交互的覆盖范围内获取通道间的依赖关系，增强目标特征的表达能力。ECA注意力机制具体结构如图3所示。

图3 ECA注意力机制结构图Fig.3 Structure diagram of the efficient channel attention mechanism.

1.3 改进方法

1.3.1 改进空间金字塔池化层为了进一步加快网络模型的训练收敛速度，输出同一长度的池化特征。通过将SPP模块的最大池化层替换成二维最大池化层,使得模型可以加快提取黑色素瘤的显著特征，剔除目标特征的冗余信息。将改进后的空间金字塔池化层称为SPPFast，SPP-Fast模块结构如图4所示。

图4 SPP-Fast模块结构图Fig.4 Struture of SPP-Fast module.

1.3.2 融入注意力机制首先在YOLOv5s的C3模块中调控嵌入CoordAtt注意力机制，并将改进后的C3模块调控融入到模型的骨干网络与颈部网络。通过将CoordAtt注意力机制与模型的主要核心模块进行深度调控绑定，确保网络模型能够更加准确地定位感兴趣的目标位置信息。其次，在YOLOv5s骨干网络的中间结构层上调控引入ECA注意力机制，使得模型在提取跨通道的交互信息过程中，提升了由CoordAtt注意力机制所捕获的坐标信息的传递效率，并在骨干网络的深度调控结构中起到承上启下的作用。最后，将改进后的YOLOv5s模型命名为基于注意力机制调控的YOLO网络模型（AM-YOLO）。AM-YOLO的网络模型结构如图5所示。

图5 AM-YOLO网络模型结构图Fig.5 Structure diagram of theAM-YOLO network model.

1.3.3 图像增强为了弥补训练样本不足和解决图像特征差异不明显的问题，采用Mosaic图像增强方案［27］。Mosaic图像增强能够随机提取黑色素瘤训练集中的四张图片进行拼接，每一张图片都有其对应的预锚框，将四张图片随机裁剪拼接之后便可获得一张新的图片以及图像所对应的预锚框，极大的丰富了训练数据。Mosaic图像增强实例如图6所示。

图6 Mosaic图像增强实例Fig.6 Examples of mosaic image enhancement.

于此同时，在Mosaic 图像增强的基础上，采用MixUp［28］增强方式对数据集进行混类增强，进一步提升模型的泛化能力，加快了模型的训练速度［29］。除此之外，还对数据集中的图像色调，旋转角度，饱和度，翻转程度以及缩放比例等参数进行改进，以防止模型在训练过程中出现过拟合现象［30］。

1.4 实验数据集与实验环境

1.4.1 实验数据集的收集与构建本文采用的图像数据均来自ISIC Archive，ISIC是国际皮肤成像合作组织的简称，ISIC 由斯隆凯特琳癌症中心的资助下运行。ISIC Archive的皮肤图像病变类型出自医学专家的判断，因此能够确保数据的真实性。本实验从ISIC Archive上提取3297张图片，包括早期黑色素瘤图像1800张，晚期黑色素瘤图像1497张，并对该图像数据集严格按照9∶1的比例划分训练集与验证集。然后，使用LabelImg数据标注软件对指定目标进行数据标注［31］。

1.4.2 实验环境的配置实验的硬件配置与开发环境均在云服务器上成功部署，主要实验环境配置如表1所示：

表1 实验环境Tab.1 Platform for the experiments

1.4.3 实验参数的设置在实验参数的设置上，模型参数选取主要包括批量大小为16，学习率为0.01，100轮次，动量常数为0.937，权值衰减系数0.0005。

1.5 算法指标

本文实验选用准确率（P），召回率（R），以及平均精度均值（mAP)作为模型的评价指标。准确率P是评估模型识别的准确程度，R是评估模型对数据集的训练是否全面。其P和R的定义如（8）式与（9）式所示:

为此，以P为纵坐标，R为横坐标可以绘制成P-R曲线。通过P-R曲线下方的面积可以计算出单个种类的平均精度（AP），其定义如（10）式所示：

通过对数据集中所有类别AP求和并且除以总的类别数量便可以得到平均精度均值（mAP）。mAP是评估模型在所有类别上训练出来的好坏程度，即mAP就是取所有类别上AP的平均值。AP与mAP的数值越大，表明模型的识别精度越高，检测效果更好，其定义如（11）式所示：

（11）式中：n代表训练数据集中的检测种类中的总数，i代表当前检测种类的编号。

另外，本文还比较了实验训练之后，网络模型的权重大小。通过模型权重大小的对比，来验证模型改进之后的效果。模型权重越小，模型参数量就越少，模型复杂度就越低，因此说明该模型越轻量。

1.6 实验所选取的网络模型

为了能够验证本文研究中所提出的AM-YOLO网络模型性能，本文选取Nie等［21］所采用的YOLOv3模型，以及YOLOv3-tiny模型［32］，YOLOv3-SPP模型［33］和未改进的YOLOv5s模型进行各项实验，并且通过相关算法指标对综合性能进行对比。

2 结果

2.1 YOLOv5s基础模型的实验结果

根据实验参数的设置，首先采用未改进的YOLOv5s模型对黑色素瘤数据集进行训练。在迭代训练100次后，未改进的YOLOv5s模型对黑色素瘤的识别精确率达到83.4%，召回率在81%左右，具体实验结果如图7所示。

图7 YOLOv5s基础模型的各项实验结果Fig.7 Experimental results of the YOLOv5s base model.

2.2 AM-YOLO模型的对比实验与结果

YOLOv5s模型在完成100次训练之后，早期黑色素瘤的AP为90.3%，晚期黑色素瘤的AP为76.4%，黑色素瘤的mAP为83.4%。在实验环境与参数保持一致的情况下，AM-YOLO模型在迭代训练100次之后，早期黑色素瘤的AP达到92.8%，晚期黑色素瘤的AP达到87.1%。黑色素瘤的mAP达到90.0%。实验的对比结果如图8所示。

图8 YOLOv5s 与AM-YOLO结果对比Fig.8 Comparison of the experimental results with the YOLOv5s(A)andAM-YOLO(B)models.

2.3 综合性能对比实验

在同样的数据集和统一的环境配置以及相同的实验训练参数下根据本文实验方法中选取的五种网络模型进行模型训练，并且采用Matplotlib数据可视化绘制相关的曲线图与柱状图。实验中五种网络模型的mAP训练曲线结果如图9所示。

图9 平均精度均值曲线图Fig.9 Mean Average Precision graph.The yellow curve represents AM-YOLO,the red curve represents YOLOv5s,the purple curve represents YOLOv3-SPP,the blue curve represents YOLOv3,and the green curve represents YOLOv3-tiny.

根据实验所得到的数据，早期黑色素瘤和晚期黑色素瘤的AP、mAP以及各实验模型权重大小如图10所示。AM-YOLO模型权重大小为10.5 MB，比未改进的模型权重减小4.0 MB。

图10 指标对比Fig.10 Metric comparison of the models.A: Performance comparison.B: Weight size comparison.

2.4 验证模型改进后的效果

为了更加直观地检验本文改进后网络模型的实际效果，通过选取能够代表模型改进后的效果图像进行展示和对比分析，如图11 依次显示YOLOv5s 和AMYOLO验证集图像可视化的检测结果。图11A中的第1行第3张图片，YOLOv5s并未识别出黑色素瘤目标。图11A中的第2行第2张图片，存在多个黑色素瘤目标叠加的情况下，YOLOv5s算法模型存在漏检与错检。图11A中的第2行第4张图片，在有毛发遮挡物的情况下，虽然能够对早期黑色素瘤进行正确识别，但是受遮挡物的影响，对黑色素瘤的识别精度明显降低。

图11 验证结果Fig.11 Results of verification of the models.A:YOLOv5s;B:AM-YOLO.

3 讨论

如何提升对黑色素瘤的识别精度以及降低模型的复杂度，是本文研究的重点与难点。首先，本文通过两种不同的图像增强方案对黑色素瘤数据集进行预处理。其次，采用轻量化的目标检测模型YOLOv5s，通过对该模型的空间金字塔池化层进行改进，加快模型的收敛速度。再次，将CoordAtt注意力机制与模型的基础模块深度调控绑定；同时也将ECA注意力机制调控融入到模型的骨干网络中，增强了模型对于目标的兴趣表示，使得模型能在保持精度不下降的情况下减少模型的总体参数量。最后，将改进后的YOLOv5s模型命名为AM-YOLO。

AM-YOLO 模型对早期黑色素瘤以及晚期黑色素瘤的AP相较于YOLOv5s模型分别提升了2.5%和10.7%，mAP提升了6.6%。相较于Yali等［9］提出的基于YOLOv3 对早期和晚期黑色素瘤的检测也显著提升了4.5%和20%，mAP 也提升了12.3%。与此同时，AM-YOLO模型的权重大小为10.5 MB，比未改进的模型权重减小了4.0 MB。因此，可以说明调控CoordAtt注意力机制与ECA注意力机制对实验的各项指标有较为明显的提升，并且模型的总体参数量有所下降。

YOLOv5s存在着部分漏检的情况。对于部分晚期黑色素瘤的检测中，虽然能够对晚期黑色素瘤进行正确的目标识别，但是对晚期黑色素瘤识别不够准确。通过AM-YOLO检测的结果来看，对于早期和晚期的黑色素瘤都能够正确识别，不存在漏检的情况。对于有毛发遮挡的情况下，AM-YOLO识别率为70%～80%之间，相较于YOLOv5s有较大的提升［34］。

综合图片检测结果可知，AM-YOLO能够正确识别和区分早期黑色素瘤和晚期黑色素瘤，对于多个黑色素瘤目标在正确识别的情况下，有较高的检测准确率。因此，本文提出的基于注意力机制调控的轻型黑色素瘤目标检测网络适合对黑色素瘤目标检测任务。

本文通过改进算法模型，降低模型的权重大小。在真实场景中，如移动端设备或者是嵌入式设备，这些边缘平台普遍存在内存资源少，处理器性能不高，功耗受限等缺点，这使得模型权重较大的算法无法正常进行部署和实时运行。因此，轻量化的网络模型在保持精度不变的情况下，通过精简模型结构以及减少模型参数，将模型转化部署到边缘设备上，从而辅助缺乏经验的医疗人员鉴别黑色素瘤以及提升医生诊断效率［35］。

本次实验虽然说明了AM-YOLO模型能够很好的识别黑色素瘤，但是仍然存在一些需要改进的地方。本文构建的数据集图片数量不多，部分的黑色素瘤特征过于相似，而且受限于当前的硬件环境。对于小目标以及多个特征目标的叠加的情况，未进行实际测试。因此，在后续的工作中通过在线收集或者图像增广的方式逐渐扩充数据集，尝试引入全新的激活函数，增加一个预测头来处理小尺寸目标，进一步提升模型的识别检测能力。