基于轻量化HPG-YOLOX-S 模型的煤矸石图像精准识别

时间：2024-07-28

陈彪，卢兆林，代伟，，邵明，于大伟，董良

（1. 中国矿业大学信息与控制工程学院，江苏徐州 221000；2. 中国矿业大学人工智能研究院，江苏徐州221000；3. 大地工程开发（集团）有限公司，天津 300000；4. 国电建投内蒙古能源有限公司,内蒙古鄂尔多斯 017209）

0 引言

大块煤矸石精确快速分离是选煤工业的重要环节，高精度的识别是有效分离煤和矸石的前提，将会进一步推动煤矿智能化的发展[1-2]。

传统的煤矸石分选方法主要包括基于 γ（X）射线[3-4]的煤矸石分选方法、重介法[5]、干法重介[6]、复合式干法分选法[7]等，上述方法存在安全性不足、环境污染、成本高昂等问题。近年来，随着图像处理技术的迅速发展，许多学者采用计算机视觉技术对煤矸石识别进行研究[8]。何敏等[9]基于支持向量机（Support Vector Machine, SVM）与煤矸石纹理及灰度特征，选取二阶矩、对比度、灰度均值等参数作为训练特征，对煤矸石进行高精度识别。陈立等[10]用小波分析法对采集的煤矸石图像进行降噪处理，通过构造小波矩对煤和矸石进行特征提取分析，利用分类器根据特征参数对煤和矸石进行分选，提高了煤矸石自动分选效率。王家臣等[11]研究证明了基于多特征多光照融合的SVM 分类器识别煤矸石效果显著。何江等[12]提出机器视觉的AlexNet 网络煤矸石检测系统，预先通过高斯滤波抑制图像噪声，获取辨识度较高的图像，最终经AlexNet网络实现煤矸石的识别与定位。徐志强等[13]基于ResNet 与SqueezeNet等轻量级网络建立了煤矸石图像识别模型，以识别精度和模型运算复杂度为评价指标，衡量了压缩前后各模型的测试性能。来文豪等[14]利用多光谱系统采集3 个波段并构建伪RGB图像数据集，再利用改进后的YOLOv4[15]模型进行煤矸目标检测，检测煤和矸石的平均精度均值为98.26%。但上述研究都没有考虑到模型的主干网络、特征提取模块及参数量对识别精度的影响。

为克服煤矸石识别过程中模型存在的参数量大、特征提取能力差、识别精度低等问题，本文在YOLOX-S 模型基础上，添加混合并联注意力模块（Hybrid Parallel Attention Module， HPAM），结合Ghost-S 网络改进YOLOX-S模型的主干网络，能够减小网络模型参数量，采用SIOU 损失函数替换原有损失函数，提高对目标物的提取能力，自行构建大块煤矸石图像数据集，实现煤矸石图像精准识别。

1 改进的HPG-YOLOX-S 模型

1.1 YOLOX-S 模型结构

YOLOX-S 模型是对YOLOv3 主干网络进行改进，通过各种trick 优化而得到的模型，其网络结构由输入端、主干网络、颈部网络层、预测层4 个部分构成，该模型框架由CBS（标准卷积（Conv）、批量标准化（Batch Normalization， BN）和激活函数Silu）、SPP（Spatial Pyramid Pooling，空间金字塔池化）、CSP构成，如图1 所示。输入端采用Mosaic 与Mixup 增强方法对数据进行预处理，主干网络采用Darknet53网络结构，颈部网络层利用特征金字塔网络模块将高层特征信息通过上采样方式进行特征融合，预测层通过解耦头将特征融合后输出分为位置、类别概率、置信度3 个部分，分别进行计算后得到预测结果，最终将3 个不同尺度预测结果输出。

1.2 模型改进

1.2.1 增加HPAM

YOLOX-S 在计算输入图像各个通道重要性时，无法依据关键信息比例对不同通道进行不同程度的关注。因此在YOLOX-S 模型主干网络中添加HPAM，以增强模型对于重要数据的特征提取与推理能力，增强图像中重要信息且抑制次要信息，并加强主干网络特征提取能力。HPAM 由自注意力模块、交叉注意力机制及通道注意力模块构成。自注意力模块是注意力机制的一种变形，旨在减少对外部信息的依赖，尽可能利用特征本身所存在信息进行注意力交互。通过自注意模块对全局上下文信息建模，能够有效捕获长距离上的特征。自注意力模块是将原始特征图映射为查询、键和值3 个向量分支。首先计算查询和键的相关性权重矩阵系数，然后利用软操作对权重矩阵进行归一化，最终实现全局上下文信息搜索。交叉注意力机制在图像块内交替注意以捕获局部信息，并应用注意力于单通道特征图所划分的图像块中，依此捕获全局信息。通道注意力模块具有充分利用全局信息能力，该模块自适应的特征选择机制实现不同时段的特征倾向，既避免了通道降维的影响，又大幅降低模型参数量。

图 1 YOLOX-S 模型结构Fig. 1 YOLOX-S model architecture

1.2.2 改进的轻量化Ghost-S 网络架构

针对原卷积核难训练的问题，观察到解耦头模块中3 个分支特征向量都具有高维度特征，因此利用1×1 小卷积将输入特征分为并行结构，从而将串行传输的CBS 结构设计为并行传输，最终提升模型的推理速度。改进后的CBS 模块由Conv、BN 和激活函数SIOU 组成，替换了原CBS 模块中的Silu。

为减小模型主干网络的残差块中前后通道之间的差异并增强对特征的提取能力，对主干网络中的残差块进行改进，改进后的结构如图2 所示。

YOLOX-S 模型主干网络结构构建了自上而下和自底向上的双向结构，但存在网络层级间特征利用率低的问题，易产生大量冗余信息，从而导致模型特征融合不足。因此，将YOLOX-S 模型主干网络替换为轻量化Ghost-S 网络架构，提高特征融合能力与利用率，减少冗余信息，如图3 所示。Ghost-S 网络结构与HPAM 组合为HPG（Hybrid Parallel Ghost-S）。

图 2 改进的残差块结构Fig. 2 Improved residual block structure

图 3 Ghost-S 网络结构Fig. 3 Ghost-S network structure

1.2.3 改进的损失函数

因胶带煤矸石类别目标图像与背景相似，当多目标运动时会存在重叠和遮挡问题，使得二者难以区分。在模型训练过程中，存在背景负样本数量过多的问题，导致模型对前景正样本目标学习不足。为解决YOLOX-S 模型检测与定位精度低的问题，本文在预测层解耦头中引入激活函数SIOU 替换原有损失函数，以改善所需真实框与预测框之间不匹配情况，提升检测与定位精度。SIOU 损失函数包含框损失与分类损失2 个部分。

式中：L为SIOU 损失函数；Wbox,Wcls分别为框损失、分类损失权重；Lbox，Lcls分别为框损失函数、分类损失函数；I为交并比；Δ为距离损失；Ω为形状损失；B为预测候选框；BGT为真实边框。

2 基于HPG-YOLOX-S 模型的煤矸石检测

2.1 试验数据采集

生产现场因灯光等外部因素导致采集的图像中存在高斯、泊松等噪声。本次试验搭建暗箱模拟仿真平台，利用图像采集软件i-SPEED Suite 通过USB3.0 接口控制Olympus 高动态相机，将设备参数调试至最佳，然后开始采集数据。在采集数据时，调节补光灯至适宜的角度与亮度，以提升图像中煤矸石对比度，抑制胶带背景干扰的影响。试验仿真硬件平台为服务器，处理器为Intel（R） Xeon（R） Silver 4214，固态硬盘容量为1 TB，机械硬盘容量为2 TB，显卡为4 张Quadro RTX6000，共计96 GB 显存。编程语言为Python，深度学习框架为Pytorch1.8，CUDA版本为10.2，CUDNN 版本为7.6.5。试验煤样粒度为50～180 mm。

2.2 数据预处理

所拍摄煤矸石视频内存约为20 GB，通过Python 脚本从视频中固定帧数截取图像，得到静态图像2 000 张。目标总数为8 482，其中标签为煤的数量为7 842，标签为矸石的数量为1 640。将自建数据集按8∶1∶1 划分为训练集、测试集、验证集。通过分析发现煤矸石数据样本少、类别不平衡，难以满足需求，导致过拟合风险，因此通过采用水平翻转、随机旋转90°及HSV 变换操作对数据集进行扩充，统一处理为960×960 图像输入至模型。

2.3 HPG-YOLOX-S 模型训练

在模型训练过程中，采用冻结训练方式可提高训练效率，还能防止权值损坏。在冻结阶段，模型主干网络被冻结，而特征提取模块不变。在解冻阶段，模型主干网络不被冻结，特征提取模块与网络所有参数发生改变。试验中优化器选用AdaBound，训练集图像1 个训练批次包含16 张图像，1 个训练周期包含80 个训练批次，设学习率为0.002，动量值为0.88，总共训练300 个周期。

采用精确率、准确率、召回率、F1值、模型参数量作为评价指标。在统计学中F1值是用来衡量二分类模型精确度的指标。

式中：P为精确率；NTP为被预测为正样本的正样本数量；NFP为被预测为正样本的负样本数量；A为准确率；NTN为被预测为负样本的负样本数量；NFN为被预测为负样本的正样本数量；R为召回率。精确率P越高，则检测的准确度越高；召回率R越高，则漏检率越低；F1值越高，则检测效果越好。

利用浮点运算数（Float Operation Per Second，FLOPs）来衡量算法或模型复杂度。

式中：F，f分别为卷积层. 全连接层浮点运算数；h，w分别为输入特征图的高度、宽度；Cin，Cout分别为输入、输出特征图通道数；K为卷积核大小；M为输入的维度数量；D为输出的维度数量；S为在不考虑偏置条件下模型的参数量。

3 试验结果分析

为验证本文所提方法对大块煤矸石的检测效果，将HPG-YOLOX-S 模型与YOLOX-S 模型进行对比，结果见表1。可看出HPG-YOLOX-S 模型对大块煤识别准确率为99.53%，对矸石识别准确率为99.60%，较YOLOX-S 模型分别提高了2.51%，1.27%。

表 1 表1 对大块煤矸石的检测效果Table 1 Detection effect of bulk coal-gangue

为验证本文所提方法的有效性，将HPG-YOLOXS 模型与YOLOX-S，YOLOX-M，YOLOX-L 模型作对比，试验结果见表2。可看出HPG-YOLOX-S 模型精确率达 96.8%，较 YOLOX-S， YOLOX-M，YOLOX-L 模型分别提高了5.68%，9.75%，8.16%；HPG-YOLOX-S 模型召回率达94.5%，较YOLOX-S，YOLOX-M，YOLOX-L 模型分别提高了3.51%，14.5%，11.1%， HPG-YOLOX-S 模型的F1值达95.8%，较YOLOX-S，YOLOX-M，YOLOX-L 模型分别提高了2.91%，0.95%，10.75%。这是因为HPG-YOLOX-S 模型在一定程度上改善了原模型特征融合不充分的问题，增强图像中重要信息且抑制次要信息，并加强主干网络的特征提取能力。HPG-YOLOX-S 模型参数为量7.8 MB，较YOLOX-S，YOLOX-M，YOLOX-L模型分别降低了1.2，4.5，6.7 MB。

表 2 模型性能参数对比结果Table 2 Comparison results of the model performance parameters

为进一步验证本文所提方法的可行性，分别采用不同改进策略模块进行消融试验，结果见表3。可看出在YOLOX-S 模型中添加HPAM 后，平均精度均值（mean Average Precision， mAP）为93.6%，较YOLOX-S 模型提高了3.43%，说明引入HPAM 可有效增强模型对煤矸石目标重要信息的提取。在YOLOX-S 模型中增加 HPAM，利用轻量化Ghost-S 网络替换原模型主干网络后，mAP 为94.2%，较YOLOX-S 模型提高了4.09%，说明在一定程度上改善了YOLOX-S 模型特征融合不充分的问题。在YOLOX-S 模型中增加HPAM，利用轻量化Ghost-S 网络替换原模型主干网络，将SIOU损失函数替换原有损失函数后，mAP 为98.8%，较YOLOX-S 模型的mAP 提高了9.17%，说明HPGYOLOX-S 模型可有效提升模型整体性能。

表 3 消融试验结果Table 3 Ablation test results

为直观验证HPG-YOLOX-S 模型的有效性，挑选测试集中具有代表性的图像来进行测试，测试结果如图4 所示。可看出HPG-YOLOX-S 模型能精确识别出对应的煤与矸石，总体煤矸石识别精度较YOLOX-S 模型提高了2.3%，更符合实际工业生产应用需求。

图 4 模型改进前后煤矸识别对比Fig. 4 Comparison of coal-gangue identified before and after model improvement

为更加深入地认识神经网络训练过程机理，采用热力图可视化策略，更加清晰地展现学习过程。Grad-CAM 是一种基于梯度定位的可视化策略，是以热力图的形式阐释深度模型黑箱的分类原理，通过计算模型最终的卷积层中特征图类别权重，得到所有特征图的加权和，将加权和的特征图映射到原始图像中并依据图像的像素做最终类别判断。

通过全局平均池化层获得煤矸石类别对最后卷积层输出每个特征图通道权重，进而计算出CAM 类激活热力图，显示原始图像中指定类别重点关注特征区域。分析Grad-CAM 对煤矸石图像自动提取的特征，有利于更深入了解网络对被识别类别关注区域的作用机制，从而得到反馈，进一步优化模型。

根据热力图的可视化策略，对改进前后模型检测过程进行可视化处理，结果如图5 所示。可看出HPG-YOLOX-S 模型较YOLOX-S 模型覆盖面更广，更关注煤与矸石的纹理与轮廓等表面差异，对煤矸石目标的全局关注度更加显著。

图 5 煤矸石热力图的可视化结果Fig. 5 Visualization results of coal gangue heat map

4 结论

（1） HPG-YOLOX-S 模型对大块煤的识别准确率为99.53%，对矸石的识别准确率为99.60%，较YOLOX-S 模型分别提高了2.51%、1.27%。

（2） HPG-YOLOX-S 模型的精确率、召回率和F1值均在94%以上，较YOLOX-S 模型分别提高了5.68%，3.51%，2.91%。这是因为HPG-YOLOX-S模型在一定程度上改善了原模型特征融合不充分的问题，增强图像中重要信息且抑制次要信息，并加强主干网络的特征提取能力。HPG-YOLOX-S 模型的参数量为7.8 MB，较YOLOX-S 模型降低了1.2 MB。

（3） HPG-YOLOX-S 模型的mAP 为98.8%，较YOLOX-S 模型提高了9.17%，说明HPG-YOLOX-S模型可有效提升模型的整体性能。

（4） HPG-YOLOX-S 模型较YOLOX-S 模型的总体煤矸石识别精度提高了2.3%，更符合实际工业生产需求。

（5）基于热力图可视化试验结果，HPG-YOLOX-S模型关注煤与矸石的纹理和轮廓等表面差异，对煤矸石目标的全局关注度更加显著。