特征优化Faster R-CNN绝缘子检测与定位

时间：2024-05-04

刘艳琼，张建州

（四川大学计算机学院，成都610065）

0 引言

近年来高铁因高速度和高安全性越来越多投入使用，高铁的牵引动力来自接触网提供的高压交变电。绝缘子在高铁架空输电路中起支撑接触网导线和防止电流回地的作用。在高铁系统中的安全检测中，绝缘子的检测不容轻视[1]。传统的绝缘子检测手段是人工携带检测装置实地检测，检测效率低，成本高且安全性低[2]。

目前较多的绝缘子检测方法有：利用图像处理技术提取绝缘子的边缘纹理信息检测绝缘子[3-8]、使用红外图像检测绝缘子[9-10]、人工设计绝缘子特征，使用SVM分类器检测绝缘子[11-12]。以上方法中，基于图像处理技术检测绝缘子的检测过程复杂，适应性较弱，对于背景复杂的绝缘子检测效果会大打折扣，而基于红外图像或紫外脉冲数据的绝缘子检测手段需要额外的硬件设备，成本较高。基于绝缘子特征，使用SVM分类器检测绝缘子的方法因人工特征泛化能力较弱，特征设计需要依赖设计者的经验，且人工设计特征过程繁琐，特征的通用性较低，在不同场景下的鲁棒性较差。

相比以上几种绝缘子检测方法，文献[13-16]使用深度学习检测与定位绝缘子，检测过程更简单，精确率更高。文献[13]通过辅助技术驱动摄像机转动，使拍摄的绝缘子保持在摄像视野的中心位置，再通过对SSD网络中增加多尺度感兴趣区域池化层，并微调SSD模型参数实现电网巡检图像中的绝缘子定位，最终实现了基于目标图像识别技术的绝缘子前端定位系统。在SSD网络中，其prior box的基础形状需要手工设置，且每一层特征中使用的prior box形状大小不一，调试过程依赖经验。此外，SSD网络对小目标检测精度较低，绝缘子图像中部分绝缘子占比较小，因此较难满足绝缘子的检测要求。文献[14]使用了端到端的神经网络检测框架YOLOv3，通过对输入图像经过候选框提取，目标候选框生成等步骤定位目标候选区域，再通过非极大值抑制得到最终的绝缘子检测框。文献[15]采用Focal Loss函数和均衡交叉熵函数改进YOLOv3算法的损失函数，优化了网络训练的损失值，实现了绝缘子的识别定位。YOLOv3网络在YOLOYOLOv2网络的基础上调整网络结构，利用多尺度特征进行对象检测，并用Logistic取代了Softmax做目标分类，在检测速度和检测精度上有很大提升。但绝缘子检测中存在遮挡、密集小目标的场景，YOLOv3的检测精度相比Faster R-CNN低。文献[16]在对自爆绝缘子定位时，使用Faster R-CNN网络检测并定位绝缘子。Faster R-CNN网络的检测精度高，但检测速度较慢，在绝缘子数量较多时难以满足检测时间要求。

Faster R-CNN的特征提取网络VGG的深度为16层，且在网络的最后有3个全连接层，使用参数较多，计算耗时长，难以满足绝缘子检测的速度要求。为提升Faster R-CNN网络的绝缘子检测速度，本文借鉴Inception网络模型的思想设计特征提取网络替换VGG特征提取网络。相比VGG网络，该特征提取网络中使用卷积核组合和非对称卷积核，使得网络维度增加而深度减小，能更快地提取绝缘子的多维度特征信息。实验在Python环境下训练网络，对比了Faster RCNN、YOLOv3、SSD网络。实验证明，基于本文提出的方法检测绝缘子时间虽然较YOLOv3算法和SSD算法长，但相差较小，而检测精确率和召回率明显优于YOLOv3算法和SSD算法。相比未改进的Faster R-CNN算法，改进后的算法检测时间及检测精度均有提升。

1 基于Faster R-CNN的目标识别与定位

Faster R-CNN[17]网络相比其前身Fast R-CNN[18]网络，改进了候选区域生成方式。其目标识别过程主要分为两部分：特征提取网络（VGG网络）和候选区域生成网络（RPN网络），网络结构如图1所示。特征提取网络负责提取图像的特征信息，RPN网络在提取的特征信息上生成候选区域并作初步筛选，最后经过全连接层对候选区域分类和回归。

1.1 VGG网络

VGG网络由13个卷积层，13个激活函数和4个池化层组成的，卷积层全部采用3×3的尺寸的卷积核[19]，其结构如图2所示。VGG网络通过卷积，激活函数和池化等操作提取原始图像的特征映射，提取的特征映射用于RPN层生成目标候选区域。VGG网络因为层数过深和卷积核单一而引起的特征提取时间过长和识别精度较低不能满足绝缘子识别中的高精度和高速率的要求。

图1 Faster R-CNN网络结构图

图2 VGG网络结构图

1.2 RPN网络

RPN网络结构如图1中的下半部分所示，RPN网络使用“滑动窗口+锚”生成锚框（anchors），通过Softmax对anchors做前景背景分类，利用边框回归修正anchors的位置信息以获取更精确的候选框。RPN层的ROI Pooling对特征映射和候选区域信息做整合提取候选区域的特征映射，对尺寸不一的候选区域归一化为固定尺寸，送入后续全连接层判定目标类别并再次边框回归获取检测框精确位置。

2 特征优化Faster R-CNN的绝缘子识别与定位

2.1 提取绝缘子串的特征映射

本文参考Inception网络的思想所设计的特征提取网络在特征提取的前三层采用对称卷积核提取特征，在后两层使用非对称卷积核组合（3×1+1×3）代替部分3×3的卷积核。此外，相比VGG网络在两层网络之间只采用3×3的卷积核实现特征提取，本文在两层网络之间使用多个不同尺寸的卷积核提取特征。本文提出的特征提取网络如图3所示。

图3 特征提取网络

图3 中输入的原始图像的信息中P和Q分别代表原始输入图像的宽和高，M和N代表重定义大小后的图像的宽和高，3代表彩色图像的RGB三个通道。Conv_n（n=1,2,3,4,5）分别是特征提取网络中的第n个卷积层，每个卷积层中包含一组卷积核组合实现该层的特征提取，每次卷积之后的激活函数都采用线性修正单元（ReLU函数），池化层采用最大池化（MaxPooling），绝缘子特征的维度从初始输入的3依次到64,192,320，最后输入RPN网络的特征的维度为576。

2.2 对称卷积核和非对称卷积核的计算量

非对称卷积核（3×1+1×3）相比3×3的卷积核，在感受野不变的情况下能减小计算量，缩短特征提取时间[20]。3×3卷积核提取特征如图4所示，非对称卷积核（3×1+1×3）提取特征如图5所示。

图4 3×3卷积核提取特征示意图

图5 非对称卷积核提取特征示意图

图4 中的特征图A和特征图B分别是3×3卷积核提取特征前后的特征图，其中特征图B中的每个1×1的区域都感受到了特征图A中的每个3×3区域。图5中的特征图A、特征图B、特征图C分别是原特征图、依次经过3×1卷积核提取的特征图和1×3卷积核提取的特征图。如图所示，最终的特征图C中的每个1×1的区域都感受到了特征图A中的每个3×3的区域。因此，3×3的卷积核相比先使用3×1的核卷积再使用1×3的核卷积，在原特征图中的感受野是一样的。对称卷积核和非对称卷积核的计算量公式如下：

公式（1）和公式（2）中，W，H分别是原特征图的宽和高。公式（1）中C1表示same填充下，尺寸为n×n的卷积核的计算量，公式（2）中C2表示same填充下，尺寸为n×1和1×n的卷积核的总计算量。当n为3时，非对称卷积核能减少1/3的计算量。

3 实验分析

3.1 实验配置

实验配置信息如表1所示。

表1 实验配置信息

3.2 评估指标

绝缘子检测属于单标签分类学习，故本文采用如下四个单标签分类学习评估标准对网络的性能进行评估。

（a）准确度（Accuracy）

其中：Acc表示检测准确度，其中TP、TN、FP和FN的定义参考表2。该指标衡量绝缘子正确分类的概率，包括真实类别为绝缘子，检测结果为绝缘子和真实类别不为绝缘子，检测结果不为绝缘子。

（b）精确度（Precision）

其中：P表示检测精确度，TP和FP的定义参考表2。该指标衡量的是一个分类器对正类分类正确的概率。

（c）召回率（Recall）

其中：R表示召回率，TP和FN的定义参考表2。该指标衡量的是分类器能将所有正类找出来的能力。

（d）平均相对检测时间

其中：T avg表示相对于Faster R-CNN算法的平均相对检测时间，其中Tmax是最长平均检测时间，T是当前算法的平均检测时间，其表达式如公式（7）所示。

其中：T是当前算法的平均检测时间，N是当前算法检测到的绝缘子总数，Ti是每个绝缘子的检测时间。

表2 TP、TN、FP和FN的定义参考表

表2 中：TP表示真实分类为绝缘子，网络判定也为绝缘子、FP表示真实分类不为绝缘子，网络判定为绝缘子、FN表示真实分类为绝缘子，网络判定不为绝缘子、TN表示真实分类不为绝缘子，网络判定也不为绝缘子。

3.3 实验结果与分析

本文分别与Faster R-CNN算法，YOLOv3算法[21]和SSD算法[22]做对比实验。其中，Faster R-CNN算法、YOLOv3算法、SSD算法和本文的改进算法分别在相同绝缘子训练数据集下独立训练。实验分别从定性和定量两个维度对四种算法比较，定性比较侧重于显示绝缘子的检测效果图，定量比较侧重于展示多组图片中4种算法的绝缘子检测性能，其衡量标准已在3.2小节中阐述。

（1）实验结果定性比较

在四种不同场景下比较Faster R-CNN算法、YOLOv3算法、SSD算法和本文算法的绝缘子检测性能。四种不同场景分别是：场景1中绝缘子背景简单、场景2中绝缘子背景复杂、场景3中部分绝缘子显示不全（等同于绝缘子被遮挡）、场景4中绝缘子占比较小，其中绝缘子占比较小定义为相对占比较小，即绝缘子的宽高分别小于等于图像宽高的1/10。图6为绝缘子检测的结果，本文使用准确度作为定性分析的结果，表3为四种场景下绝缘子检测的准确度。

图6 绝缘子检测结果

表3 不同算法检测绝缘子的准确度

在图6中，图片从左到右依次为基于Faster R-CNN算法、YOLOv3算法、SSD算法和本文方法的绝缘子检测结果。从检测结果中可以看出，本文方法正确检测到的绝缘子数目明显多于其他三种算法。表3表明，绝缘子背景简单时（场景1），四种算法的准确度均高于80%，但在复杂场景（场景2、场景3、场景4）中，基于本文方法的绝缘子检测准确度明显高于其他三种算法，表明在复杂环境的绝缘子检测与定位中，本文算法更占有优势。

（2）实验结果定量比较

神经网络的检测性能会因为检测图像的差异性表现各异，本文基于300张绝缘子图像，在四类场景下分别做Faster R-CNN算法、YOLOv3算法、SSD算法和本文方法的绝缘子检测对比实验，并将四种场景下的检测指标做平均值对比，定量检测比较结果见表4。

表4 结果表明，在多种场景中，基于本文方法的绝缘子检测性能优于其他三种算法。从所有场景下绝缘子检测均值来看，在检测时间上，本文提出的改进方法相比原始Faster R-CNN，其检测时间缩短到59%，SSD算法和YOLO算法的平均相对检测时间分别为53%和42%。相对检测时间对比表明本文提出的改进算法的检测时间与YOLOv3算法以及SSD算法相差不大。但是本文算法的检测精确度和召回率分别为98.4%和97.6%，对比Faster R-CNN的精确率和召回率上有所上升，也明显优于YOLOv3和SSD算法。

4 结语

本文提出一种基于Faster R-CNN的改进方法检测绝缘子，实验证明了本文方法检测绝缘子的有效性。相比传统的使用专有设备检测绝缘子、使用数据处理技术与人工特征分类的绝缘子检测方法，本文的方法绝缘子检测过程简单，成本低，且不需要人工设计绝缘子特征，通用性更强。对比目前已有的基于深度学习的绝缘子检测手段，本文的方法在绝缘子检测时间相当的基础上，检测精确度更高，更能符合多种场景下绝缘子检测的高精确度要求。

表4 不同算法检测绝缘子性能