当前位置:首页 期刊杂志

基于卷积记忆神经网络的数字表盘读数识别

时间:2024-07-28

熊 勋,陈新度,吴 磊,林旭华

(广东工业大学 计算机集成制造实验室,广州 510006)

0 引言

近年来,集自主巡检、智能监控、数据智能采集分析等功能于一体的智能巡检机器人在电力、大型厂矿、安防等领域得到广泛应用。尤其在电力行业,随着智能电网建设的深入,电力信息标准化、一体化、实时化、互动化的需求变得越来越迫切。由于历史遗留原因,仍有相当一部分的仪表需要人工录入,这需要耗费大量的人力和时间,且有很多地方禁止工人进入。相比之下,根据实时监控捕获仪表图像,再利用字符识别与定位算法读取仪表数值就显得更加便捷。

与传统的OCR服务对象不同,当前的研究更多关注于各种复杂背景下的文字识别。从研究方法来看主要有基于统计特征、决策分类、卷积神经网络、LSTM字符识别等方法。张显明[1]通过统计字符的笔画特征进行字符识别。Wang kai[2]、Yao Cong等[3]通过提取字符的结构和纹理特征进行决策分类。通过聚类图像块来学习中层笔画特征,使用随机森林分类器来进行字符分类。这些基于特征的方法只能提取低维度的特征,对于复杂环境算法识别鲁棒性较差。郑啸[4]通过长短期记忆神经网络模型进行字符识别,这种方法不需要做字符分割,直接得到字符串的识别结果,可以避免由于分割引入的误差。张国云[5]、蔡梦倩等[6]通过训练卷积神经网络CNN模型进行字符识别,这种方法在进行字符分割后,通过提取图像的高维度特征进行训练取得了较好的识别性能,证明了在字符准确分割的前提下,卷积神经网络模型字符识别的有效性。

然而,现有的图像处理的方法多数需要进行字符分割,字符和单词识别方法的性能严重依赖于文本切分的精度,显然不具备工业背景下字符的识别,卷积神经网络(CNN)的方法对定长字符识别具有较好的效果,但对于数字多样、长短不一的字符识别鲁棒性不高,而且需要大量样本,从而成为了把CNN识别方法推广到工业识别领域的一个限制性因素。

本文以电力巡检机器人为依托,以电表为实验对象展开算法设计。通过融合卷积神经网络(CNN)和长短期记忆网络(LSTM)各自的优点,提出了卷积记忆神经网络模型(CLSTM),将CNN提取的图像高维度特征作为LSTM层的输入,一方面可以优化特征的提取,另一方面发挥LSTM对长短字符识别的优势,实验结果表明, 相比于单一的CNN和LSTM网络,CLSTM网络模型不需要做字符分割,且模型准确率更高。

1 数字表盘字符定位算法

为了实现精确定位到表盘字符区域,以电网采集到的一种电流表为例,图1为安装在避雷器附近的电流表。

针对表盘的结构,定位算法分为由两次定位组成,粗定位具体过程如下:

(1)图像预处理。对表盘图像采用灰度化、高斯滤波、除噪等处理,灰度化采用加权平均值法。

(2)轮廓检测。对预处理之后的表盘图像进行双阈值的canny边缘检测,滤掉较小的椒盐噪声。

(3)轮廓提取。对检测到的轮廓通过轮廓查找算法findContours提取所有轮廓,计算出轮廓的面积和长宽比,筛选出表盘字符大概位置。

(4)沿着边缘轨迹绘制出第一次定位的结果,如图2所示。

图2 粗定位结果

为了最终达到识别字符的目的,需要进行第2次的定位,精准定位具体过程如下:

(1)由先验信息可知,表盘字符区域为矩形轮廓,灰度值较大,根据这两个特征计算出轮廓长宽比并统计轮廓内的灰度平均值大小,进而精确定位到字符区域。

(2)由于表盘的安装精度等原因,对提取后的字符区域进行位置校正。

(3)沿着最终的字符轮廓绘制出精准定位的结果,如图3所示。

图3 字符定位结果

2 数字表盘字符识别算法

2.1 基于记忆神经网络(LSTM)的识别算法

RNN(Recurrent Neuron Network)是一种对序列数据建模的神经网络,在RNN中,隐藏层之间的节点不再是无连接的而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。为了更好处理和保留长序列的依赖问题,Misunderstand[7]在2012年提出了RNN的改进版本—LSTM。

(1)输入层

本文的实验数据是基于不同环境下的各种表盘字符,共采集了9000张图片,与传统卷积神经网络(CNN)不同,训练数据不需要提前分割,可以有效的避免由于分割精度引入的误差,所以在试验中,只需标注表盘字符序列的标签,然后作为LSTM的输入层,以保证字符的时序性。

(2)长短期记忆层

LSTM计算节点由输入门、输出门、遗忘门和Cell组成,三个门分别代表对信息长期、远期和近期的记忆和控制,其中Cell是计算节点核心,用以记录当前时刻状态。如图4为LSTM的展开结构图。

图4 LSTM的展开结构

根据LSTM的展开结构,单个LSTM单元的迭代计算公式如下:

ft=α(Wf·[ht-1,xt]+bf)

(1)

(2)

it=α(Wi·[ht-1,xt]+bi)

(3)

(4)

ot=α(Wo[ht-1,xt]+bo)

(5)

ht=ot*tanh(Ct)

(6)

2.2 基于卷积记忆神经网络(CLSTM)的识别算法

卷积神经网络是一种分层的计算模型, CNN典型的架构为Input→Conv→Pool→Fully,该架构融合了局部感受野、权值共享、非全连接这三种思想,这样的架构使得CNN非常适合处理具有统计平稳性和局部关联性的数据。为了优化输入到LSTM的字符特征,本文结合CNN的特点构建卷积记忆神经网络模型CLSTM,如图5所示CLSTM的网络层包括:卷积层、池化层、LSTM层、输出层。

图5 卷积记忆神经网络模型

卷积层:对表盘字符执行卷积操作,提取字符特征,通过对输入的数据运用滤波器抽取有效特征,经过卷积操作后得到特征图。

给定序列长度为m的样本图片,字符序列为(x1,x2,…xm),卷积层的输出为:

Qi=f(w*xi+b)

(7)

式中,Qi为第i个字符的卷积层输出,f(*)为激活函数,w为权值,b为偏置。

池化层:用于压缩数据和参数的量,图像压缩时去掉一些无关紧要的信息,而留下的信息则是具有尺度不变性的特征,这些特征是最有效也是最重要的特征,一定程度上可以防止过拟合,将式(7)输出的特征Qi采用最大值采样后得到Qmax=max{Qi},即有效特征。

LSTM层: 经过试验验证两层LSTM综合效果最好,随着LSTM层数增加,准确率提升的并不明显,但训练复杂度却提高了很多。最终方案采用双层LSTM层,基于上述的分析,经过LSTM层后输出一个softmax向量。

CTC_loss层:为了实现对长序列字符的识别,谷歌首次提出在LSTM网络基础上引入CTC模型[8-12],这种改进方案解决了空白字符的问题,从而提高了对不定长字符识别的鲁棒性。对于一段长度为T的序列来说,每个样本点t在LSTM网络最后一层都会输出一个soft max向量,根据式(8)预测概率;我们一般会在原有标签的基础上多加一个空白字符的标签,表示序列中空白的地方。

(8)

(9)

输出层:采用全连接层,输出字符序列。

3 实验

3.1 实验数据

本文所设计的网络模型为:输入层(HDF5Data),卷积层,池化层,正向LSTM层(维数:100),反向LSTM层(维数:100),CTC_loss层,输出层(11X1)。采用1050Ti的显卡进行训练,训练数据为不同环境下的各种表盘字符,共采集了9000张图片,训练样本数:测试样本数=5:1,训练的部分样本如图6所示。

图6 部分训练样本

在训练过程中,首先需要把训练样本转化为HDF5Data格式,可以有效提高训练效率,通过Adam自适应学习速率[13-14]使训练迅速收敛,即在每次参数更新后,把衰减率Wt与权重θt相乘,其中衰减率Wt略小于1,Loss可表示为:

(10)

θt+1=wtθt

(11)

3.2 训练参数与网络结构设置

经过多次训练测试后,基于记忆神经网络(LSTM)和卷积记忆神经网络(CLSTM)两种网络模型的参数和网络结构对比如下表1所示,使用随机梯度下降算法对网络参数进行调整。

表1 LSTM和CLSTM网络模型参数和结构

3.3 实验结果及分析

本次实验共训练了80000次,实验的评价指标为训练的准确率(precision),识别单幅表盘字符的时间(time)。

如图7为LSTM和CLSTM训练的准确率曲线,由图可以看出,由于卷积记忆神经网络(CLSTM),首先利用CNN的卷积层提取了文本的特征,然后基于池化层优化了特征,使得CLSTM训练更快,两种方案都是30000次左右开始收敛并趋于稳定,LSTM最终准确率稳定在93.4%左右,CLSTM最终准确率稳定在97.6%左右,具体对比准确率如表2所示。

表2 改进前后训练的准确率

从表2中可以看出,在识别时间相差不大的情况下,CLSTM网络比LSTM网络准确率提高了4.2%。

图7 LSTM和CLSTM训练的准确率曲线

图8为两种电表的定位和识别结果,左边方框内即为定位结果,右边为识别的结果,为表示清楚,识别结果显示在表盘上。

图8 识别结果

4 结束语

本文首先为了避免由于需要字符分割会引入误差,只采用了LSTM和CLSTM两种识别模型进行对比,通过融合CNN和LSTM这两种网络模型的优点,实验结果表明CLSTM网络比LSTM网络准确率提高了4.2%,主要原因是CNN网络卷积层可以提取高纬度的特征并利用池化层进行优化,将其作为LSTM层的输入,使得模型的泛化能力更好。每种模型都有其鲜明的优点和不足,通过融合不同模型的优点,是本文改进训练模型的思路。此外,算法训练和测试对硬件要求较高,为了节省成本,在保证准确率和识别时间的前提下,通过优化网络结构和参数,将成为下一步研究的方向。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!