当前位置:首页 期刊杂志

改进ResNet18网络模型的花卉识别

时间:2024-05-04

赵 洋,梁迎春,许 军,李大舟

(1.沈阳化工大学 计算机科学与技术学院,辽宁 沈阳 110142; 2.辽宁省化工过程工业智能化技术重点实验室,辽宁 沈阳 110142)

0 引 言

目前,花卉识别的方法主要分为两类。一类是基于传统的花卉特征提取的花卉识别方法。Abbass M等人[1]提出基于分割的分形纹理分析算法。首先对花卉区域进行分割,以去除图像数据集中的复杂背景。然后提取花卉图像特征。最后在分类阶段采用支持向量机和随机森林算法对不同种类的花卉进行分类。该方法虽然高度准确地自动识别花名,但在有噪声的背景下,识别效果准确性不高。谢晓东等人[2]提出花卉图像前景分割方法,首先通过基于显著性检测的花卉图像前景分割算法将其中花卉的主体部分分离出来,然后针对多维花卉图像选取具有可以判别力的颜色特征和形状特征,最后通过多特征融合的多维数据层次化分类方法将多维花卉图像进行分类。该方法虽然实现将花卉的多特征高效融合,但是在特征选择过程中需要人工干预。武慧琼等人[3]提出了一种基于三支决策的花卉图像分类方法.,首先把花卉图像通过单一特征进行分类,然后选取合适的阈值定义域的转移规则,最后融合新特征实现花卉。该算法虽然通过获取更多的花卉信息有效地提高了花卉图像的分类精度,但是花卉的识别率不高。王威等人[4]提出了一种基于综合特征的花卉识别方法。首先结合图像显著性分割图像,然后把图像的边缘进行增强和压缩处理。最后使用SVM分类器进行分类识别。该方法虽然使纹理更加清晰,但是计算复杂度高、运行时间较长。

另一类是基于卷积神经网络提取特征的花卉分类方法。随着深度学习的发展,AlexNet[5]、GoogleNet[6]、VGG[7]、ResNet[8]等优秀的模型不断涌现出来。这类方法通过对一个特征层使用不同大小的卷积核进行多次卷积操作,提取丰富的特征信息,取得了令人满意的结果。

传统的花卉识别方法依靠经验人工设计提取特征,特征冗余性较大,泛化能力不强[9]。现有的基于深度学习的花卉分类方法存在参数量众多与网络内存占用大的问题。针对上述问题,该文在ResNet18网络基础模型上,将空洞卷积替换基础卷积,在优化网络结构的基础上引入改进的通道注意力机制。该模型在小规模数据集上能有效地提取更多的特征,加快网络收敛速度,提高模型在精细分类领域的图像识别准确率,得到了较好的识别结果。

1 系统设计

1.1 图像预处理

花卉图像的比例、形态和光照差异较大,存在类间相似度较大、类内姿态多变的问题。针对抽取到的图像分辨率不统一,需要将图像进行归一化处理,裁剪图像为224×224像素。为了防止在样本较小的情况发生过拟合的现象,该文采用了图像旋转、图像翻转、图片缩放、图像平移4种增强方式扩充数据集。花卉图像的随机变换,取得了良好的图像增强效果。花卉示例如图1所示。

图1 花卉示例

1.2 残差网络

为了保持在后面的层次中不会造成精度下降,通过H(x)=F(x)+x捷径连接的方式,直接把输入x作为初始结果,即F(x)=0,输出结果为H(x)=x。捷径连接最大的优点是在不增加网络参数和计算的复杂度的情况下,加强了特征的传递。该文选用ResNet18网络模型在花卉数据集上进行训练,其结构如图2所示。

图2 ResNet18网络结构

1.2.1 特征提取的空洞卷积

残差神经网络中的卷积感受野范围有限,导致网络提取的花卉图像特征不足。Chen[10]提出了空洞卷积结构。在保证一定分辨率的情况下,不需要引入额外的参数,扩大感受野,提取更多特征。

卷积核大小公式如下:

k'=k+(k-1)×(d-1)

(1)

感受野计算公式如下:

RFi+1=RFi+(k'-1)×Si

(2)

其中,空洞卷积的卷积核大小为k,扩张率为d,则其等效卷积核大小为k'。RFi+1表示当前层的感受野,RFi表示上一层的感受野,k'表示卷积核的大小,Si表示之前所有层的步长的乘积。

由公式(1)、(2)可知,当k=3,d=2时,等效卷积核k'=5。基础卷积层感受野RFi=5,当前层感受野RFi+1=7。

ResNet18网络模型都是由残差块搭建而成,每一个残差块都有2个3×3的基础卷积层。图3为残差块的主要结构。

图3 残差块的主要结构

该文将每个残差块中第一层基础卷积替换为空洞率为2的空洞卷积,形成dilatedBlock残差块,构建空洞-残差网络模型。图4为dilatedBlock残差块的主要结构。

图4 dilatedBlock残差块的主要结构

网络的输入为分辨率为224×224的花卉图像,将预处理完的花卉图片输入网络中进行训练,图像转换为一个56×56×64的三维矩阵。编码层的残差模块中使用空洞率为2的卷积核进行卷积操作,解码层通过上采样恢复图像原始尺寸。合并与解码层相映射的编码层特征来补全下采样缺失的信息[11]。基于空洞卷积的改进策略只在网络的编码阶段使用,既可以较好地利用空洞卷积的优点,又不会给网络训练任务增加额外的负担。

1.2.2 注意力机制

在计算机计算能力有限的情况下,注意力机制是一种解决信息超载问题的主要手段[12]。用于卷积网络的注意力机制分为硬注意力和软注意力。(1)硬注意力是一个不可微的注意力,更加关注点。同时硬注意力是一个随机的预测过程,强调动态变化[13]。在图像中的常见应用是图像剪裁。(2)软注意是可微的,神经网络计算得出梯度并且前向传播和反向传播学习得出各个特征的权重。软注意机制包括空间域注意力机制[14]和通道域注意力机制[15]。空间域注意力机制作用于每张特征图内。图片局部的重要信息能够通过变换而被框盒提取出来。该注意力机制适用于图像标注。通道域注意力机制作用于特征图之间。每一张图片初始都会由(R,G,B)三通道表示出来,不同通道代表不同特征的权重,一个通道的信息经过不同的卷积核后会分解成新的信号分量。该注意力机制适用于网络增强辨别学习能力。

通过人为地给每个通道的信息增加权重,可以提升模型的性能。但是通道注意力会忽略卷积核通道中重要的位置信息。该文将位置信息嵌入到通道注意力中,形成改进的通道域注意力机制CO[16]。通过将CO注意力模块引入空洞-残差网络模型中,使得轻量级网络能够在更大的区域上进行注意力。图5为CO注意力模块主要结构。

图5 CO注意力模块主要结构

首先利用两个一维全局池化操作分别将垂直和水平方向的输入特征聚合为两个独立的方向感知特征图。然后两个嵌特定方向信息的特征图分别编码为两个注意力图,每个注意力图都捕获了输入特征图沿着一个空间方向的长程依赖。最后两个注意图被乘到输入特征图上来增强特征图的表示能力。相比于其他的轻量级网络上的注意方法,它不仅能捕获跨通道的信息,还能捕获方向感和位置感知的信息,这就能帮助模型更加精准的定位。

1.3 系统结构

在ResNet18网络模型上,该文先引入空洞卷积,构建了空洞-残差网络模型,获得了花卉更多的细节特征。在空洞-残差网络模型中加入改进通道注意力机制解决信息超载问题,提高了整个模型的效率。改进的ResNet18的网络模型结构如图6所示。虚线块内是使用空洞卷积层的残差块。每个残差块后面都加入了改进的通道注意力机制CO。

图6 改进的ResNet18网络模型

2 实验分析

2.1 实验环境

实验采用的计算机环境是Windows10系统,Intel i5-4200H处理器,NVIDIA GeForce GTX 960显卡,Python版本为3.7.0,Pytorch版本为1.4.0。

2.2 实验数据

采用的公共数据集是Oxford102[17]牛津花卉库。Oxford102牛津花卉库包含17类花卉,每类由40张~258张图片组成。选取了该数据集中的5类花卉,其中daisy633张,dandelion898张,roses667张,sunflowers 699张,tulips 794张。随机分割从各类花中取70%作为训练集,20%作为验证集,10%作为测试集。

2.3 实验结果与分析

在参数设置方面,选择简单且计算高效的Adam优化器,损失函数选择交叉熵损失函数,使用Relu激活函数[18]。学习率为0.000 1,批大小设计为16,迭代次数为200次。

实验一:将ResNet18与AlexNet、VGG-16等成熟网络模型在花卉数据集进行比较。各网络模型结果如表1、图7所示。由图7可知,ResNet18的准确率要明显高于其他的网络。

图7 各模型准确率对比

FPS为每秒钟识别图片的张数,Paras为模型的参数量。由表1可以看出,AlexNet每秒钟处理图片量很多,模型的参数量较少,但是AlexNet网络的准确率很低。VGG-16网络模型较大,参数量较多,准确率比AlexNet网络模型高,但是效果没有ResNet18网络模型效果好。ResNet网络模型参数量最少,准确率最高。综合考虑参数量和准确率两方面,选择ResNet18网络模型进行优化。

表1 各模型对比

实验二:在ResNet18网络中分别引入空洞卷积、通道、空间注意力机制后,同样批大小设计为16,迭代次数为200,将最终结果与原模型进行比较。基于数据集的准确率如图8所示。

图8 ResNet18_kd与ResNet18_kd_co的准确率对比

图8表示的是引入通道、空间注意力机制模型和空洞卷积学习的ResNet18模型与仅使用空洞卷积学习的ResNet18模型在每个epoch的准确率对比。由图可知,在epoch达到100前,三者的准确率相差不多。ResNet18代表基础网络。在epoch达到125时,曲线逐渐平缓,网络模型趋于收敛。ResNet18_kd代表将在ResNet18网络上引入空洞卷积的测试曲线图。在epoch达到188时,曲线逐渐平缓,网络模型趋于收敛,模型的准确率提高。引入空洞卷积有效提取了更多特征,但是增加了计算量,网络模型的收敛速度比原模型的收敛速度降低。ResNet18_kd_co代表在引入空洞卷积的ResNet18模型上引入通道、空间注意力机制的曲线测试图。在epoch达到130时,曲线逐渐平缓,网络模型趋于收敛,模型的准确率最高。引入注意力机制使得模型关注更加重要的特征,增加了网络的收敛速度。

FPS为每秒钟识别图片的张数,Paras为模型的参数量。由表2可以看出,该文在ResNet18基础上分别引入空洞卷积、空间和通道注意力机制,在花卉数据集上迭代训练200次。在参数量和识别速度基本不变的情况下,准确率得到很大的提升。在花卉测试集上,ResNet18准确率为93.33%。ResNet_kd网络模型准确率为94.67%,比原模型提高了1.34个百分点。ResNet_kd_co网络模型准确率为97.78%,比引入空洞卷积模型提高了3.11个百分点,比基础模型提高了4.45个百分点。所以引入注意力机制对于网络学习能力的提升很大。

表2 引入kd和CO的ResNet18的模型与原模型比较

实验三:表3中文献[1-4]都是基于传统的学习算法对花卉图像特征进行特征提取,如颜色、形状等特征,通过对不同特征进行融合最终达到分类的目的。可以看出,采用传统的方法进行分类的准确率有所提升,但该文提出的方法准确率更高。

表3 传统分类方法中的Oxford102分类准确率

实验四:任意平等人[19]提出一种基于优化AlexNet网络的花卉识别方法。首先利用深度可分离卷积减少运算量,然后调整自适应池化层和全连接层减少参数量,最后将低维特征与高维特征相融合提升特征提取能力。该算法虽然减少了模型体积,但是在多尺度特征下对不同大小花卉的识别率不高。吴丽娜等人[20]提出一种基于改进LeNet-5网络的花卉识别方法。首先S4池化层与C5卷积层设置成全连接,然后将S2池化层、S4池化层设置为均值池化、最大池化,最后采用随机梯度下降和Dropout算法进行仿真实验。该算法虽然保留了图像的所有高维特征,但是对图像做了灰度化处理,没有考虑颜色对识别精度的影响。曹晓杰等人[21]提出了基于迁移学习的花卉识别方法。首先对小批次花卉进行数据增强,然后通过微调小批次数据集上的卷积参数进行仿真实验。该算法虽然简化了识别步骤,但是只应用于小样本识别分类。表4中文献[19-21]都是基于卷积神经网络算法对花卉图像进行特征提取。可以看出,基于深度卷积神经网络花卉识别的准确率有了大幅度的提高。该文提出的改进ResNet网络模型在Oxford102花卉数据集上准确率最高。综合传统花卉识别方法和基于卷积神经网络花卉识别算法来看,该文提出的方法优于其他方法,具有更好的分类效果。

表4 卷积神经分类方法中的Oxford102分类准确率

3 结束语

为了提高花卉识别的准确率,综合考虑了分类准确率、模型参数量等因素,在所使用的花卉数据集上,在ResNet18基础模型上进行优化。通过替换模型中基础卷积为空洞卷积提取更多的特征,引入注意力机制优化了网络权重。不仅提高了花卉识别准确率,还降低了网络的参数量,使得网络模型加快收敛。实验验证了该方法在花卉图像分类上具有一定的有效性和可行性。在接下来的研究中,保证精确的识别率和快速的识别能力,使其应用性更强。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!