基于显著性和深度卷积神经网络的输送带表面故障定位

时间：2024-07-28

赵燕飞，杨彦利，王丽娟

(天津工业大学天津市光电检测技术与系统重点实验室，天津 300387)

赵燕飞，杨彦利，王丽娟

(天津工业大学天津市光电检测技术与系统重点实验室，天津 300387)

提出了一种基于显著性和深度卷积神经网络的输送带表面故障定位方法。该方法在输送带上、下表面的边缘烙上数字，利用图像处理技术检测输送带图像中的数字来间接定位输送带表面故障。首先，将采集的输送带图像进行高斯滤波、灰度线性变换等预处理，以提高图像质量、增强背景与目标的对比度；然后根据谱残差理论对预处理后的图像进行视觉显著性处理，获取包含数字区域的视觉显著图；最后，运用卷积神经网络对显著图进行分类，以区分出数字区域和非数字区域。实验结果表明，该方法可以很好地检测输送带图像上的数字，进而实现对输送带表面故障的定位。

输送带；故障定位；神经网络；视觉显著性；图像处理

0 引言

输送带是带式输送机的重要工作部件，在众多行业应用广泛。输送带工作过程中容易发生划伤、纵向撕裂、破损等表面故障，输送带的安全可靠运行日益受到重视。随着现代科技的迅猛发展，输送带运行状态监测技术水平得到了快速提升。目前，基于机器视觉的输送带故障检测技术开始受到关注，已经取得一定成果[1-4]。由于输送带首尾相连，循环运行，即使利用机器视觉等技术发现了其划伤等故障，在检修过程中查找故障位置仍需要耗费大量的时间、人力和物力。因此，输送带故障区域定位成为输送带视觉监测的一个重要技术问题。

针对输送带的故障定位问题，崔岩等[5]将实时性好的CAN总线用于带式输送机运行故障定位系统，系统向各分站发送地址并接收分站发回的检测信息。洪留荣等[6]以接头为基准参考点，提出了一种基于图像处理技术的强力输送带接头识别算法，并将其应用于强力输送带X光无损检测系统中。这些方法虽然不是针对输送带视觉检测的表面故障定位问题，但具有一定的借鉴意义。本文提出一种基于机器视觉的输送带表面故障定位方法，利用数字容易被维修人员辨认的特点，以数字为基准点，在输送带上、下表面的边缘烙上数字，采用图像处理技术检测输送带图像上的数字，从而间接定位输送带表面故障区域。

1 输送带图像数字检测流程

在实验室搭建的输送带故障视觉检测平台如图1所示。利用线阵CCD相机实时采集输送带图像，采集到的图像分为带有数字的图像和无数字图像。若在带数字的图像上检测出故障，就可以通过该数字来对故障进行定位。由于数字以一定的间隔烙在输送带上，即使检测到没有数字的输送带图像，也可以根据采集图像的时序性，利用插值方法估计出与当前图像对应的输送带位置，从而减少因排查故障而造成的停机时间。

通过观察输送带的原始图像，发现输送带图像中数字比背景稍暗，且占整个图像的很小一部分。基于此特点，本文设计了基于视觉显著性和卷积神经网络(Convolutional Neural Networks，CNNs)的输送带图像数字检测方法，方法流程如图2所示。该方法包括3个步骤：图像预处理、粗定位和精定位。图像预处理是为了提高图像质量，增强背景与

图1 输送带故障视觉检测平台

图2 输送带图像数字检测的流程

目标的对比度，以便于后续的数字识别。本文采用高斯滤波来消除噪声，平滑图像；对滤波后的图像进行灰度线性变换，以增加目标和背景的对比度。线性灰度变换函数L(·)的定义如下[7]：

(1)

式中：DB表示输出图像的灰度；DA表示输入图像的灰度；fA表示线性函数的斜率；fB表示线性函数在y轴的截距。

当fA>1时，输出图像的对比度将增大；当fA<1时，输出图像的对比度将减小。

粗定位即利用视觉显著性对数字区域进行初步定位。利用谱残差理论对预处理后的图像进行谱残差显著性提取，获取预处理后图像的显著图，进而得到图像的视觉显著性区域。在粗定位过程中获取的显著性区域不仅包含数字，还会有一些特殊的背景。这就需要对粗定位后的图像进行进一步处理，精定位就是为此而设计的。本文运用卷积神经网络来进一步区分粗定位获取的显著性区域，首先设计卷积神经网络结构，用粗定位得到的输送带显著性区域训练卷积神经网络，得到卷积神经网络的参数，并测试网络性能，最终实现输送带数字区域的精确高效识别。

2 粗定位

观察经过预处理的输送带图像，发现数字在整个输送带图像中占很小的区域，可以将具有选择性的视觉注意机制引入输送带数字检测中，提高图像分析的效率，降低运行时间。Itti和Koch[8-9]阐述了视觉显著性功能和原理。他们认为视觉显著性突出了场景中与众不同的位置，用于吸引视觉注意力。其核心是一个自下而上、刺激驱动的信号，通常是通过待识别目标与背景的不同来生成显著图。Barlow[10]的有效编码假说和信息论相关理论表明，图像中包含的信息由特殊部分和冗余部分组成，人类的视觉系统会过滤掉冗余的部分，而剩下的特殊部分就是引起视觉注意的显著部分。Hou等[11]提出了谱残差方法，从分析图像频谱的角度出发，计算图像中的显著性区域。参考文献[12]指出，人类有一种对人脸与文字的定位能力，此能力在某种程度上与图像傅里叶幅度谱中的信息相关，而Hou等提出的谱残差显著性算法恰是基于图像傅里叶幅度谱的。因此，本文采用谱残差显著性算法对输送带数字进行定位。

首先将输送带图像I(x)从空间域转换到频率域，得到输送带图像的幅度谱，然后对输送带图像的幅度谱取对数，得到log谱。获得log谱的过程如下[11]：

(2)

(3)

(4)

式中：A(f)表示傅里叶变换后的幅值；F(·)表示二维离散傅里叶变换；P(f)表示傅里叶变换后的相位；φ(·)表示相位函数；L(f)表示log谱。

大量实验表明，不同图像log谱的曲线分布趋势极其相似，而且曲线满足局部线性条件[11]。因此，用局部平均滤波器hn(f)对log谱进行平滑滤波，可获得log谱的大致形状。将经过平滑滤波的log谱作为图像的冗余信息，其表达式如下[11]：

U(f)=L(f)*hn(f)

(5)

式中：U(f)为均值滤波后的log谱；hn(f)为滤波算子，是n×n的矩阵，定义为

(6)

将谱残差R(f)定义为原log谱减去均值滤波后的log谱，其表达式为

R(f)=L(f)-U(f)

(7)

对频率域的谱残差信息进行傅里叶反变换，得到空间域的显著图S(x)，其表达式为

(8)

最后对S(x)进行高斯模糊滤波就可以得到输送带原始图像的显著图。

利用实验室所采集的图像进行显著性分析，样图如图3所示。第1列为输送带原始图像；第2列是对应的谱残差显著性图像，图像中的亮度表示显著性程度，越亮代表越显著；第3列是对谱残差显著图做二值化后的图像。第1列的第1幅图像在图像的边缘包含2个数字3，第2列第1幅图像中，谱残差视觉显著性算法成功抑制了输送带图像中的非显著区域，并突出了包含数字的显著区域。对谱残差显著图进行二值化处理后，可清楚地看到凸显的数字3的区域。第1列的第2幅图像包含2个数字6，第2列的第2幅图像中不仅包含数字的显著性区域，还同时保留了输送带中其他显著元素，通过精定位可有效抑制干扰元素。

图3 谱残差视觉显著性分析样图

3 精定位

在显著性区域中，可以分为有数字区域和非数字区域，本文采用卷积神经网络对显著性区域进行分类，去除非数字区域。

CNNs是基于深度学习理论的一种人工神经网络，该网络可直接将图像数据作为输入，避免了图像预处理和特征提取等复杂操作[13]，被广泛应用于图像识别领域。它不仅可显著提升识别准确率，而且在特征提取速度方面也优于许多传统方法[14-15]。CNNs是一种多层神经网络，由卷积层和下采样层交替组成，每层又分为多个平面，而每个平面又包含多个独立神经元。关于CNNs的理论推导见参考文献[16]。

本文采用6层网络，CNNs由2个卷积层、2个下采样层交替组成，如图4所示。

图4 CNNs结构

有关检测输送带数字的CNNs框架的详细描述如下。

输入层I：CNNs能够对二维图像的特征进行自主学习，在确保输入图像细节信息的情况下，为减少数据量，将通过显著性得到的区域进行灰度化，通过插值计算变化为28×28大小的图像，将该图像归一化后作为网络的输入数据。

S1层是下采样层，其目的是减小C1层特征图的大小。对C1层中非重叠的2×2大小的区域求和，再乘以一个权重，加上一个偏置，最终获得6个12×12大小的特征图。为防止丢失更多图像细节特征，选用2×2大小的下采样域。每个子采样特征图需要训练2个参数，S1层共有6×2=12个参数需要训练。

C2层也是一个特征提取层，最终获得12个8×8大小的特征图。所用卷积核大小跟C1层相同，但所获的特征图个数不同。C2层需要将S1层的6个特征图进行组合，映射出12个特征图。本文让CNNs网络自己学习组合。

S2层是子采样层，它获得12个4×4大小的特征图，过程类似于S1层。

输出层是一个全连接层。S2层共有12×4×4=192个神经元，输出层共有2个神经元(即输送带数字区域和非数字区域) ，一个神经元与输出的每个神经元相连，所以共有192×2=384个连接。将S2层看作一个192维的线性向量，则S2层到输出层的映射等同于使用该线性向量进行分类，分类器共有384个参数。

4 实验与结果分析

为了验证本文方法的有效性，在Matlab平台上进行实验，所有原始数据均采集于实验室中的输送带。

4.1 粗定位结果与分析

由于参考文献[18]与本文粗定位阶段研究的问题类似，所以采用参考文献[18]提出的评价标准：

(9)

(10)

(11)

式中：RR(Region Recall)为检测到的数字区域召回率；DTB为检测到的数字区域个数；TB为真实数字区域的个数；RP(Region Precision)代表检测到的数字区域准确率；DNB为检测到的特殊背景区域的个数；RF为综合RR和RP的算法整体性能。

[19]比较了4种显著性算法，认为Torralba的显著性算法最适用于文字检测。参考文献[20]将Torralba的显著性算法与谱残差算法比较，综合运行速度等因素，认为谱残差视觉显著性算法更适用于文字检测。本文方法是在参考文献[20]的基础上，结合输送带图像的特点，先对输送带图像进行预处理，再采用谱残差视觉显著性算法得到输送带数字的视觉显著性图。用含有0—9数字的10幅输送带图像进行实验，10幅图像中共有22个数字。按照式(9)—式(11)的评价标准，将本文方法与参考文献[20]中提出的方法进行比较，结果见表1。

表1 显著性算法比较 %

从表1可以看出，本文方法的准确率RP、召回率RR和整体性能RF都要比参考文献[20]中的方法高。召回率RR高表明本文方法检测的数字区域更完整，遗漏的数字区域更少；准确率 RP高意味着检测到的数字区域比背景区域要多；整体性能RF是对上面2个指标的综合，越高越好。

从10幅输送带图中选出3幅图作为例子，对比结果如图5所示。其中第1列是原始图像，第2列是用本文方法得到的显著图，第3列是其二值图；第4列是用参考文献[20]中的方法得到的显著图，第5列是其二值图。

图5 显著结果对比

从图5可以看出，由于本文方法考虑了输送带图像中滤波和数字与背景的对比度，检测出的数字区域更完整，会出现少量的背景区域。参考文献[20]中的方法不仅会出现数字区域不完整的情况，还会出现大量的背景区域。

综上所述，本文方法相比参考文献[20]中的方法具有更好的性能。由于是粗定位，所以需要更高的召回率 RR，以利于后续算法的整体性能提升。本文方法的召回率在只有22个数字区域的情况下达到95.5%，但准确率为46.7%，表明定位结果检测的数字区域很完整，同时检测到的非数字区域也很多。因此，需要对数字区域进一步定位。

4.2 精定位结果与分析

部分输送带图像如图6所示。为了确保实验的准确性和可靠性，本文选择258幅1 024×1 024大小的输送带图像，200幅用于训练集，58幅用于测试集。训练时，首先用谱残差获得视觉显著图，然后定位到原图的显著性区域进行切割，切割出的图像包括数字区域和非数字区域，选择400个正样本数据(数字区域)和800个负样本数据(非数字区域)。由于图4所示的CNNs只接收28×28大小的灰度图像，所以，首先需要对切割的图片进行灰度化处理；然后，对图片尺寸进行缩放。由于实验室采集的输送带图像是在同一光照下，尺度视角基本没有发生变化，所以，先使用简单算法进行归一化，利用双线性插值进行几何缩放，将所有图片调整到28×28之后，再输入到CNNs。测试时的正样本是116个，负样本是234个。

(a) 原始图像

(b) 数字区域(正样本)

在神经网络训练中一个重要的参数是训练的迭代次数。迭代次数过小会导致网络的预测误差过大，对输入无法充分学习，导致最终多层的深度学习算法的分类准确度过低；迭代次数过大会导致计算时间过长，得到的准确率只有微小的提升。表2显示了迭代次数与识别率的关系，识别率是在迭代次数一样的情况下，取5次训练的平均结果。从表2可以看到，随着迭代次数的增加，准确率会趋于稳定，并最终收敛。为了减少实验的计算时间，在实验中取迭代次数为100，此时的准确率较高且计算时间也较短。从表2可看出，神经网络对输送带数字区域检测的正确率可达到99.91%。神经网络能够以较高的可靠性区分出输送带图像的数字区域和非数字区域，平均耗时为0.001 3 s。

表2 迭代次数与识别率的关系

用4.1节中的评价标准，取4.1节中所用的10幅图像来评价显著性+卷积神经网络方法的性能，结果见表3。从表3可以看出，进行视觉显著性提取后再进行卷积神经网络分类，输送带数字区域的识别准确率RP由最初的46.7%增加到100%，充分说明后期的分类效果很好。整体性能RF从62.7%提升到97.7%。准确率RP与综合性能RF 的提升说明本文方法对输送带数字的定位更准确。由于输送带的运行速度较快，留给每帧图像的处理时间较短，用本文方法处理每幅图像的平均时间t为0.271 3 s，可知该方法运行速度快，可以满足实时性要求。

表3 显著性+卷积神经网络方法的性能

5 结语

针对输送带视觉检测的表面故障定位问题，利用数字容易被维修人员辨认的特点，以数字为基准点，提出了一种基于机器视觉的输送带表面故障定位方法。运用谱残差理论对输送带图像进行了处理，理论分析和实验结果表明,视觉显著性可以突出输送带图像中的数字区域，但同时也会将若干非数字区域突出显示。利用CNNs对经过显著性提取后的输送带图像进行分类，以区分出数字区域和非数字区域。实验结果表明，CNNs可以很好地区分数字区域和非数字区域。利用实验室现有的输送带进行测试，发现该方法精度高，定位准确且速度快，满足实时性要求。

参考文献：

[1] 张晞,刘鸿鹏,叶涛.带式输送机纵向撕裂数字图像检测系统设计研究[J].煤炭工程,2011,43(10):16-18.

[2] 唐艳同,乔铁柱,牛犇.输送带纵向撕裂在线监测预警系统的设计[J].煤矿机械,2012,33(5):242-244.

[3] YANG Y,MIAO C,LI X,et al.On-line conveyor belt sinspection based on machine vision[J].Optik-International Journal for Light and Electron Optics,2014,125(19):5803-5807.

[4] 亢伉,苗长云,杨彦利.基于显著性和最大熵的输送带撕裂检测[J].计算机系统应用,2013,22(3):117-120.

[5] 崔岩.基于CAN总线长距离胶带输送机故障定位系统的研究[D].沈阳:沈阳工业大学,2010.

[6] 洪留荣.强力输送带接头识别算法[J].工矿自动化,2012,38(4):9-12.

[7] 张铮,王艳平,薛桂香.数字图像处理与机器视觉:Visual C++与Matlab实现[M].北京:人民邮电出版社,2010.

[8] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.

[9] ITTI L, KOCH C. Computational modelling of visual attention[J].Nat Rev Neurosci,2001,2(3):194-203.

[10] BARLOW H B. Possible principles underlying the transformation of sensory message[M/OL]//ROSENBLITH W A.Sensory communication.MIT Press Scholarship Online: 2013[2016-05-25].DOI:10.7551/mitpress/9780262518420.003.0013.

[11] HOU X D, ZHANG L Q. Saliency detection: a spectral residual approach[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2007: 1-8.

[12] HONEY C, KIRCHNER H, VAN RULLEN R. Faces in the cloud: Fourier power spectrum biases ultrarapid face detection[J]. Journal of Vision, 2008, 8(12): 1-13.

[13] 赵志宏,杨绍普,马增强.基于卷积神经网络LeNet-5的车牌字符识别研究[J].系统仿真学报,2010,22(3):638-641.

[14] 余永维,殷国富,殷鹰,等.基于深度学习网络的射线图像缺陷识别方法[J].仪器仪表学报,2014,35(9):2012-2019.

[15] 高学,王有旺.基于CNN和随机弹性形变的相似手写汉字识别[J].华南理工大学学报(自然科学版),2014,42(1):72-76.

[16] BOUVRIE J. Notes on convolutional neural networks[EB/OL]. (2006-11-22)[2016-06-06].http://cogprints.org/5869/1/cnn_tutorial.pdf.

[17] 龚丁禧,曹长荣.基于卷积神经网络的植物叶片分类[J].计算机与现代化,2014(4):12-15.

[18] SHI C, XIAO B, WANG C, et al. Graph-based background suppression for scene text detection[C]//10th IAPR International Workshop on Document Analysis Systems, Gold Coast,2012: 210-214.

[19] SHAHAB A, SHAFAIT F, DENGEL A. How salient is scene text[C]//10th IAPR International Workshop on Document Analysis Systems, Gold Coast,2012: 317-321.

[20] 姜维,卢朝阳,李静,等.基于视觉显著性与文字置信图的场景文字的背景抑制方法[J].电子学报,2015,43(1):62-68.

Surface fault location of conveyor belt based on saliency and deep convolution neural network

ZHAO Yanfei, YANG Yanli, WANG Lijuan

(Tianjin Key Laboratory of Optoelectronic Detection Technology and Systems, Tianjin Polytechnic University, Tianjin 300387, China)

A surface fault location of conveyor belt based on saliency and deep convolution neural network was proposed. The method imprints figures on the edge of upper and lower surfaces of conveyor belt, and uses image processing technology to detect the number in belt image, so as to indirectly locate surface fault of the conveyor belt. Firstly, the acquired image of the conveyor belt is preprocessed by Gaussian filtering and gray-scale linear transformation to improve image quality and enhance contrast between the background and the target. Then, visual saliency treatment is conducted to the preprocessed image according to spectral residual theory, and a visual saliency map containing numeric regions is obtained. Finally, saliency map is classified by using the convolution neural network to distinguish digital region from non-digital region. The experimental results show that the method can detect number of conveyor belt image and realize surface fault location of conveyor belt.

conveyor belt; fault location; neural network; visual saliency; image processing

2016-07-18；

2016-10-26；责任编辑：胡娴。

国家自然科学基金资助项目(51274150，51504164)；天津市科技支撑计划重点项目(13ZCZDGX01000)。

赵燕飞(1989-),女,山西晋城人,硕士研究生,研究方向为设备状态监测与信号处理,E-mail:zhaoyanfei226@126.com。通信作者:杨彦利(1979-)，男，河北行唐人，副教授，硕士研究生导师，博士，主要研究方向为设备状态监测与信号处理，E-mail:yyl070805@163.com。

1671-251X(2016)12-0072-06

10.13272/j.issn.1671-251x.2016.12.016

TD528.1

时间：2016-12-01 10:51

http://www.cnki.net/kcms/detail/32.1627.TP.20161201.1051.016.html

赵燕飞，杨彦利，王丽娟.基于显著性和深度卷积神经网络的输送带表面故障定位[J].工矿自动化，2016,42(12)：72-77.