当前位置:首页 期刊杂志

基于稠密连接卷积神经网络与混合注意力的烟叶图像分级方法

时间:2024-05-04

江 浩,罗瑞林,金雪松,陈载清,云利军

(1.云南师范大学 信息学院,云南 昆明 650500;2.云南省烟草烟叶公司 设备信息科,云南 昆明 650218;3.玉溪市第二人民医院 信息网络中心,云南 玉溪 653100)

0 引言

随着烤烟收购工作规范化提升,烟叶质量要求不断提高,但在实际烟叶收购过程中仍存在烟叶质量不达标等情况[1]。影响烟叶质量不达标的因素多种多样,其中在人为划分烟叶等级过程中,会因环境因素或员工精神状态不好等原因导致烟叶等级分类不准确,分类精度降低。

随着科技进步,烟叶种植、烘烤、收购等环节不断引入许多信息化手段提升效率、产量、质量[2]。为此,本文通过深度学习方法实现在烟叶收购过程中识别、划分不同等级烟叶,以减少人为误差造成的损失。

目前,在烟叶自动化分级方面的研究主要分为两条思路。第一种是按照烟叶的着生部位、颜色、光谱、气味及其他与总体质量相关的主要特征将烟叶划分为若干等级[3],通过人为提取的特征采用机器学习算法进行识别。例如,赵世民等[4]提出基于图像特征的烟叶分级方法,将采集的烟叶图像灰度化处理以减少后续图像处理的工作量,提高模型检测效率,再提取颜色、形状、纹理等烟叶图片特征对烟叶进行分级。袁奎[5]在RGB 与HSV 颜色空间下提取颜色分量特征信息,采用灰度系统理论对烟叶的各种特征进行定量化研究,再通过一种基于烟叶特征视觉信息的机器学习算法实现烟叶分级。李胜[6]通过烟叶长度、宽度等特征信息提取烟叶纹理参数,并将提取的参数作为BP 神经网络的输入实现烟叶分级,但这种先提取烟叶特征进行分析,再使用机器学习分级的方法不仅需要人工手动操作,而且通常情况下分级的准确率不高。

第二种则是通过深度学习方法采集不同等级烟叶图像进行特征提取与识别,相较于第一种方法更具有实际操作性,且分级准确率更高。例如,王士鑫等[7]提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)的烟叶分级处理算法,使用CNN 神经网络结合Inception V3分支结构并行处理特征信息得到分级结果,但该方法并未使用经典的分类网络进行比较实验,无法判断相同数据及环境情况下经典卷积神经网络是否具有更优的分类结果。鲁梦瑶等[8]在原有传统分支卷积网络基础上,采用特征金字塔、残差网络结构,并引入基于注意力机制的缩聚激发模块获得更多尺度特征,实验表明该方法相较于经典卷积神经网络在烟叶分级方面提升5.1%,虽然该方法在残差网络结构基础上引入了注意力机制,但并未考虑模型推理时间及模型参数量对工程应用的重要性。

在实际烟叶采购过程中,不仅需要保证识别烟叶等级的精确性,还需保证模型在硬件设备上的可用性。在使用各种神经网络进行烟叶等级分类实验过程中,残差注意力网络(Residual Attention Network,RAN)[9]对纹路、形状等烟叶特征表现出更优的提取能力,同时网络运算量与参数量方面相较于其他主流分级网络更优。RAN 主要通过堆叠注意力结构模块构建网络,但直接堆叠注意力模块会导致模型性能下降,因此在原网络中使用残差学习机制在增加网络层数时不会丢失太多信息。同时,每个注意力模块分为mask、trunk 分支,mask 分支中通过先连续下采样再连续上采样的结构获得特征权重,trunk分支负责特征处理功能。此外,注意力机制的重要性在以往文献中已被广泛研究[10-15],但实际测试过程中会发生训练速度较慢、识别准确率较低等问题。研究发现,稠密连接卷积模块能让每层网络特征图均能影响后面的所有层,既能让特征在整个网络中复用,还缓解了梯度消失问题,降低了网络参数量[16]。研究表明,结合通道注意力[17]与空间注意力[18]也能增强特征信息,提升识别准确率。

为此,本文结合稠密连接卷积神经网络与混合注意力机制,提出一种改进的RAN,以达到提升精度的同时有效降低网络参数量,并且运算量较低。

1 实验数据集

本文实验为云南某烟叶收集站实地采集的烟叶图像数据集,包括10 种等级烟叶,3 个不同品质。其中,上等烟叶品质B1F、B2F、C3F,中等烟叶品质C4F、B3F、X2F、X3F,下等烟叶品质B1K、CX2K、X4F。每种等级烟叶图片500张,图片大小为224×224,将每种等级烟叶数据按4∶1 划分,即4 000 张图片用于训练,1 000 张图片用于测试,部分烟叶数据如图1所示。

Fig.1 Image data of tobacco leaf图 1 烟叶图像数据

2 改进RAN模型

本文所提改进RAN 的具体思路与方法包括以下3 个步骤:

步骤1:ResNet 中拥有两种模式的卷积块,分别为3 层的1×1 卷积、3×3 卷积、1×1 卷积和2 层的2 个3×3 卷积[19],56 层残差注意力网络中只使用3 层卷积结构。在网络层数相对较小的网络中,使用2 层结构卷积往往能取得更好的效果,通过比较不同模式卷积块对网络特征提取的影响,发现采用2 层卷积和3 层卷积的混合结构,效果相较于仅使用3层卷积策略更好。

步骤2:改进原残差注意力56 层网络的3 个注意力模块与网络输出阶段的残差块,其中注意力模块中的trunk分支为残差模块堆叠而成。为此,本文将残差模块替换为稠密连接模块,以叠加不同层的特征图。由于网络输出阶段堆叠了多个残差块,网络深度较深,为避免丢失上层信息使用稠密连接模块保留更好的特征。由于在扩张特征通道时,不断使用稠密连接模块会出现内存占用过高的情况,因此将稠密连接放入trunk 分支,而mask 分支作为特征选择器来提升trunk 分支中的有用特征,并抑制噪声特征。在处理过程中,trunk 分支需要与mask 的输出特征图、输出通道保持一致。为此,本文提出一种用于压缩特征通道的预稠密连接模块,将通道通过卷积操作压缩为原有输入通道数,再通过稠密连接卷积模块扩张通道,具体公式为:

式中,IC、OC表示输入输出通道数,ICE表示压缩后的通道数,N表示该分支稠密连接模块数量,ICk表示第k个稠密连接模块输入通道数,当k=N时满足式(1)。

步骤3:将RAN 中间的残差注意力模块替换为空间注意力模块,由于先进行通道注意力再进行空间注意力的效果更好[20],且优于仅使用通道注意力的缩聚激发网络(Squeeze-and-Excitation Networks,SENet)。其中,通道注意力模块使用步骤2改进后的模块,具体公式为:

式中,σ表示Sigmoid 函数,F代表特征图,MLP为多层感知机(Multilayer Perceptron,MLP)获取AvgPool均值池化下采样与通道累加的稠密连接模块不同空间通道上的特征。使用两种不同空间通道元素的乘积来突出注意力mask。同时,为强调主分支稠密连接模块提取的全局特征,通过主分支与mask 相加的方式输出通道注意力图Mc(F)。空间注意力与通道注意力不同,空间注意力更关注特征图的特征信息位置,具体公式为:

式中,f1×1,3×3,1×1代表1×1、3×3、1×1的3层卷积结构。

为了计算空间注意力,本文在通道轴使用均值池化与最大值池化,并连接它们的特征图使用卷积层生成空间注意力图Ms(F)。然后,使用通道注意力模块进一步提取特征。实验表明,稠密连接卷积结构相较于原模型的残差卷积结构参数量更少,更加有效利用了通道特征图,加强了传递不同通道特征。

网络沿着通道—空间—通道两种维度3 个注意力模块依次进行训练,使用稠密连接的trunk 分支与混合注意力提取烟叶特征。实验表明,所提模型相较于原模型性能更优,特征提取结果如图2所示。

Fig.2 Comparison of characteristic maps图 2 特征图比较

由图2 可见,稠密连接在提取特征过程中保留了较多颜色信息,混合注意力相较于通道注意力提取的烟叶形状、纹路特征更明显,改进后的网络结构图如图3所示。

由图3 可见,与残差注意力网络结构一样,通过卷积操作将初始的3 通道图扩张至64 通道,mask 分支与原网络结构保持一致,包含前馈扫描与自上而下的反馈步骤。其中,前馈扫描用于快速获取整个图像的全局信息,自上而下的反馈通过在近邻上采样过程中添加前馈扫描权重的方式获得反馈信息,使此过程中不会丢失过多全局信息。注意力模块的trunk 分支则将初始的两个残差结构替换为具有压缩特征通道的预稠密连接模块与3 个稠密连接模块,将第一个通道注意力模块处理后的特征图输入空间注意力机制模块,通过混合注意力广泛捕获各位置和通道的特征,以获得更优的性能,接下来通过第二个通道注意力模块加深网络层数,进一步提取更抽象的特征,最后通过4个稠密连接模块进一步扩张特征通道,压缩特征图,提取特征信息,输出均值池化、全连接层后预测的烟叶图像数据分类。模型部分结构参数如表1所示。

Fig.3 Improved model structure图3 改进后的模型结构

Table 1 Partial parameters of model structure表1 模型部分结构参数

3 实验设置与结果分析

3.1 实验设置

本文实验显卡为GTX1060 6G,处理器为I5-6500,实验数据从10 个样本分类中随机抽取,每种类别随机抽取400 张图片作为训练集,共4 000 张训练样本,剩余样本作为验证集,并确保数据集中的验证集与训练集数据不重复。以相同的数据集、损失函数、训练轮次等为前提,实验主要比较使用两层卷积结构与原网络的3 层卷积结构,主干网络使用稠密连接卷积结构与原网络的残差连接卷积结构,Residual Attention56 与总体改进后的模型及改进后的网络与经典分类网络VGGNet19、ResNet34。

3.2 实验结果分析

首先使用原始Residual Attention56 进行实验,在此基础上将网络输入注意力模块前的3 层残差卷积结构替换为两层残差卷积结构,进行100 轮迭代训练后使用相同测试集进行测试,实验准确率曲线如图4所示。

图4 中上方曲线为更改后的两层卷积结构模型测试结果,下方曲线为原网络测试结果,两层卷积结构改进后的模型测试集准确率接近84%,原网络接近81%,可证明使用两层卷积结构在网络深度较低的情况下能有效提高模型准确率。接下来,使用稠密连接卷积模块替换原始Residual Attention56 主干网络中的残差模块,实验中首先使用预稠密连接,将通道压缩,类似于瓶颈层结构,并将初始的两个残差连接模块替换为3 个稠密连接模块,在特征得到复用的同时进一步加深网络深度。相同测试集下与原版Residual Attention56测试比较结果如图5所示。

Fig.4 Comparison of test accuracy between two-layer convolution residual attention network and 56-layer residual attention network图4 两层卷积残差注意力网络与56层残差注意力网络测试准确率比较

Fig.5 Comparison of test accuracy between two-layer convolution dense attention network and 56-layer residual attention network图5 两层卷积稠密注意力网络与56层残差注意力网络测试准确率比较

图5 中上方曲线为稠密连接卷积模块替换残差连接卷积后的测试结果,下方曲线为原始Residual Attention56测试结果,由此可见使用稠密连接卷积模块后,稠密连接卷积的多特征图特征复用能进一步提升模型准确率,测试集准确率接近89%。为了减少稠密连接卷积主干网络在不断加深过程中运算量与参数量增加所造成的影响,本文将中间通道注意力模块替换为空间注意力模块,使用原始模型与总体改进后的模型进行100 轮迭代训练,实验训练集准确率曲线如图6所示。

Fig.6 Comparison of test accuracy of the overall improved model图6 总体改进后模型的测试准确率比较

由图6 可见,原始网络在第一个训练迭代后准确率为34.47%,改进后的网络第一个训练迭代后准确率达到44.9%,迭代100 次后改进后的网络为99.05%。由此可见,改进后的模型无论在收敛速度还是最后收敛趋于稳定时的准确率上,相较于原始残差注意力网络模型更优。

损失函数的主要作用是衡量当前模型样本的预测值与真实值间的大小,交叉熵损失函数在使用sigmoid 函进行梯度下降时,能有效避免梯度弥散而导致学习速率下降的问题,通过交叉熵损失函数得到原模型与改进模型的损失函数曲线,如图7所示。

Fig.7 Comparison of cross entropy loss function of the overall improved model图7 总体改进后模型的交叉熵损失函数比较

由图7 可见,模型在迭代100 次过程中,改进后的模型始终保持着更低的损失值,且模型训练时间相较于原始模型更少,之后还与ResNet34、VGGNet19 进行比较,发现改进后的网络训练所需时间最少。

混淆矩阵通常用于总结网络分类结果,能可视化记录分类器预测结果的误差,改进残差注意力模型的混淆矩阵如图8 所示。由此可见,实验中使用的10 种等级烟叶,在实际分类标签为C3F、B2F、CX2K、X2F 中误差较高,通过比较其他模型混淆矩阵发现所有测试模型对这4 种分类均存在较大的分类误差,并且错误预测等级种类分布相似,原因可能手工进行烟叶图像分类存在一定的误差。

Fig.8 Confusion matrix of overall improved network图 8 总体改进网络混淆矩阵

通过消融实验总结以上3 种改进策略测试结果与总体改进后的模型测试结果,统计每次改进后的测试集平均准确率、运算量、模型参数,如表2所示。

由表2 可知,两层卷积结构与稠密连接卷积模块能可有效提升模型分类准确率;在相同深度的改进模型结构下,使用稠密卷积模块相较于残差卷积模块能降低参数量,但由于两层卷积模块保留了更多图像信息,较多的稠密连接卷积模块加深了主干网络层数,将显著增加运算量与参数量。

Table 2 Comparison of ablation experimental results of improved network表 2 改进网络的消融实验结果比较

本文将第二个注意力模块替换为空间注意力模块以提升模型准确率,减少网络层数,降低网络运算量与参数量。利用改进后的网络、原残差注意力网络、ResNet34、VGGNet19 对随机抽取的10 个分类(每个分类100 张,共1 000 张)烟叶图像测试集进行测试,并对所有测试集图像重复分类预测100次,结果如图9所示。

Fig.9 Comparison of classification prediction results图9 分类预测结果比较

由图9 可见,改进后的网络与ResNet34 预测准确率相似,相较于RAN 与VGGNet19 预测准确率更高。同时,本文还通过macro-F1 指标评价模型预测结果,具体计算式为:

其中,Ri表示第i种等级烟叶的召回率,Pi表示第i种等级烟叶的预测准确率,n为分级种类数。macro-F1 是对各等级烟叶的F1-score 相加后求均值,通常为多分类任务中的评价指标。通过统计各网络100 次测试的平均准确率、macro-F1、浮点运算数量与参数量分析网络性能,得到各网络分类性能指标如表3所示。

Table 3 Performance indicators of each classification network表 3 各分类网络性能指标

表3 中所选比较模型均属于多分类预测中的经典网络,通过分析平均测试准确率、测试集macro-F1、参数量、运算量可知,改进后的网络与ResNet34 测试平均准确率几乎相同,相较于原测试集预测精度提升8.19%,相较于VGGNet19 提升7.72%。分析macro-F1 值可知,改进后的网络对每个分类进行预测均具有较高的准确率,在FLOPs 运算量上相较于原网络具有明显提升,这是由于在稠密连接卷积过程中多次将不同特征通道进行加操作,提升了模型计算量,参数量方面相较于其他网络最小,因此部署在硬件上会更灵活。此外,改进的模型能在缩减参数量的同时保证准确率,相较于ResNet34 还降低了运算量,提升了模型识别速度。

4 结语

本文提出一种基于稠密连接卷积神经网络与混合注意力的烟叶图像分级方法,模型主要框架来源于残差注意力网络。在对实验室采集的10 种分类烟叶图像数据的测试表明,改进后的网络在所用烟叶数据集上的参数量、精准度较原网络及常用的分级网络均具有较大提升,但本文提出的残差注意力网络修改方法仍存在进一步优化的方面,还需要进一步提升运算量,减少模型参数量。

此外,将所提模型应用于工程实践中还需要研究更多方面,由于数据集较少、采集烟叶图像标准化程度不足等原因会导致模型识别精度降低,后续工作中需要不断扩充数据库并较少采集数据过程中的图像差异,以进一步提升模型识别精度。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!