基于注意力机制的双向门控循环单元网络齿轮故障识别系统

时间：2024-06-19

冯贤洋，何荇兮，符礼丹，陆彬春，陈鸣辉

（重庆大学机械传动国家重点实验室，重庆 400044）

齿轮箱的应用十分广泛，是汽车等机械设备的核心部件，变速器在汽车传动系统中的连接对动力传输起着重要作用。齿轮作为齿轮箱中最核心以及故障比例最大的传动部件［1］，其故障诊断对减少生产事故引发的经济损失和人员伤亡具有重要意义。齿轮故障诊断的核心在于对齿轮故障信号的特征提取和分类，传统的时、频域齿轮故障诊断方法对齿轮局部缺陷的诊断成功率较低，或者受限于特征分析人员相关的专业经验［2］。

神经网络可以自主学习建立输入和输出的非线性映射关系，自主提取特征完成分类，在齿轮故障诊断方面的应用越来越多。WAQAR等［3］采用反向传播BP神经网络对齿轮箱进行故障诊断，使用功率谱对信号进行处理，再将信号输入到BP神经网络模型，通过试验验证了BP神经网络对于齿轮箱的故障诊断方面有着较好的识别率。循环神经网络（Recurrent Neural Network，RNN）是一种带时序信息的反向传播网络，广泛应用于基于时间序列的数据分析［4］。RNN由于梯度消失和梯度爆炸的原因只擅长短期记忆，其变体长短期记忆网络（Long Short-Term Memory，LSTM）通过门控制将短期记忆与长期记忆相结合，一定程度上解决了梯度消失的问题。赵慧敏等［5］使用基于分数阶傅里叶变（Fractional Fourier Transformation，FRFT）分析出故障齿轮所在挡位的啮合分量，用LSTM进行齿轮故障识别，试验验证了LSTM处理基于时间序列的齿轮故障数据的有效性，且LSTM比BP神经网络有着更高的齿轮故障识别率。LSTM通过门控状态对信息进行选择性记忆，满足了长时间记忆和遗忘信息的需求，然而模型结构更复杂、参数更多。门控循环单元网络（Gate Recurrent Unit，GRU）是基于LSTM的一种改进变体，与LSTM相比GRU没有细胞状态，直接利用隐藏状态进行信息传输，其结构更简单、参数更少、训练速度更快，且精度相差不大。王增平等［6］提出了一种基于GRU的深度学习网络模型，用于时序性短期电力负荷数据的预测。该模型和LSTM的对比结果表明该模型预测准确率更高、预测速度更快。但是当输入时间序列较长时，LSTM与GRU都易丢失序列信息，因此添加AM，对输入特征赋予不同权重，能保留重要信息不随时间序列的增加而消失，增加模型的准确率。赵兵等［7］提出了基于AM的CNNGRU模型预测电力负荷，该模型和卷积神经网络（Convolutional Neural Networks，CNN）、GRU以及CNN-GRU三种模型的对比充分说明了GRU模型在处理时间序列的数据方面有更高的预测精度，注意力机制能学习参数矩阵，进行更好的权重分配，加强重要信息的影响。由于GRU是在牺牲精准度的情况下对LSTM复杂结构进行简化，为进一步提高准确率，将单层网络改为双层网络，能更好地捕捉当前状态信息以及前后时间序列的有效信息。王维锋等［2］提出了双层长短时记忆（Bi-LSTM）网络模型用于齿轮故障诊断，对比试验表明Bi-LSTM比LSTM模型的齿轮故障识别准确率高1.32%。王宁等［8］使用双向GRU（Bi-directional GRU， Bi-GRU）模型对裁判文书中的判决结果倾向性进行分析，Bi-GRU模型使用了双层GRU结构，通过正向扫描可以获取当前时间之前的时间序列特征，逆向扫描则可获取当前时间之后的时间序列特征，比GRU提取特征更加充分，模型识别判决结果的准确率也更高。

基于以上分析，本文提出了一种基于AM的双向门控循环单元网络的齿轮故障识别模型进行故障分类，免去了人工构造特征和提取特征的过程，由神经网络自主学习来自动建立特征，并建立特征的映射关系。

1 齿轮故障识别模型

1.1 双向门控循环单元网络

RNN由于具有记忆序列信息的能力，在时间序列的数据处理中得到了广泛的应用［9］。LSTM［10］通过解决传统RNN的消失梯度问题，避免了传统RNN在学习时丢失过多信息。LSTM通过3个门（输入门、输出门和遗忘门）能连续地实现传送时序信息和更新记忆单元。GRU［11］是LSTM 3门设计的一种改进变体，如图1a所示。GRU可以通过重置门和更新门对时序信息进行更有效的处理。与LSTM相比，GRU没有细胞状态，直接利用隐藏状态进行信息传输。因此，GRU的结构更简单，参数更少，训练速度更快。GRU的计算过程如式（1）～（4）所示。

图1 GRU及Bi-GRU结构图

1.1.1 更新门

更新门的功能相当于LSTM中的遗忘门和输入门，它决定了要被遗忘的信息和需要被添加的新信息。将当前神经元的输入xt和前一个神经元隐藏状态ht-1输入到更新门zt时，更新门的计算为：

式中：Whz为上个神经元隐藏状态与更新门之间的权值；Wxz为当前神经元输入与更新门之间的权值；bz为更新门的偏置项；σ(·)为sigmoid函数。

更新门的值越大，表示网络遗忘更多前一个神经元隐藏状态中的信息，从而保留更多当前神经元内的信息。

1.1.2 重置门

重置门代表传递的隐藏状态信息被遗忘的程度。将当前神经元的输入xt和前一个神经元的隐藏状态ht-1输入到重置门ht-1时，重置门的计算为：

式中：Whr为上个神经元隐藏状态与重置门之间的权值；Wxr为当前神经元输入与重置门之间的权值；br为重置门的偏置项。

1.1.3 备选隐藏状态产生

通过当前神经元的输入xt和经过重置门的前一个神经元隐藏状态rt·ht-1，可以得到备选隐藏状态˜ht，如式（3）所示。

式中：Wxh为当前神经元输入与当前候选隐藏状态之间的权值；W为权值矩阵；tanh (·)为双曲正切函数。

1.1.4 最终隐藏状态的产生

通过更新门zt，前一个神经元的隐藏状态ht-1和候选隐藏状态，可计算得到该神经元的隐藏状态ht：

本文通过使用GRU实现了RNN网络结构的优化，但通过考虑上下文信息可以对时序信息的处理过程做进一步改进［12］。因此，本文使用了由两个GRU层集成的Bi-GRU模型，如图2所示，Bi-GRU模型由前向GRU层和后向GRU层组成，能同时处理从前向后和从后向前的信息，即能有效利用过去和未来的信息。假设输入序列有k个时间步长，在训练过程中，隐藏状态和可以分别提取正、反向的时序特征，如式（5）和式（6）所示。

图2 Bi-GRU结构图

将两个方向隐藏状态合并得到最终的时间特征gt，如式（7）所示。

1.2 注意力机制

注意力机制（AM）被广泛应用于机器视觉和自然语言处理［13］，目的是提取最有价值的信息。在数据处理过程中，冗余信息会造成时间和资源的浪费，因此，注意力模型被提出用于计算不同特征的权重。Bi-GRU模型一共会输出k个不同的隐藏层状态，即k个不同的时序特征。然而，每一个时序特征都提供了不同的信息，对最终的分类有不同的贡献。本文在Bi-GRU层之后引入一个注意力层［14］，如式（8）所示。

式中：α为每个特征所占的权重；W和w分别为权重矩阵和权重向量；b为偏置项。因此，注意力层可以给Bi-GRU模型提取的每个时态特征赋予适当的权值，并将特征融合到最终的时序特征F中，如式（9）所示。

1.3 Bi-GRU-AM网络模型

本文建立了基于AM的Bi-GRU齿轮故障识别网络模型，即Bi-GRU-AM模型，模型结构见表1。利用Bi-GRU模块同时实现正向和逆向时序特征的自动提取，并在特征提取后引入注意力层（AM层），为每个提取到的特征分配权重。这些特征会通过加权的方式整合合并。最后，模型使用全连接层对最终的特征进行分类，实现对齿轮故障位置和尺寸的预测。与传统特征提取方法不同的是，本文的网络是一个端对端的整体，不需要手动分离的特征提取和筛选过程，极大地提高了分类效率。采用Dropout技术随机去除一定比例的神经元，从而防止出现网络过度拟合现象。

表1 Bi-GRU-AM模型结构

2 试验及结果分析

2.1 试验装置

2.1.1 齿轮箱

本文采用实验室的平行轴二级齿轮箱，齿轮箱各项参数见表2。

表2 齿轮箱工作参数

2.1.2 故障齿轮

试验齿轮包括健康齿轮、30%断齿齿轮和30%齿面剥落齿轮，图3为试验齿轮，最左侧为健康齿轮，中间为30%断齿齿轮，其中断齿部分用红圈标出，最右侧是30%齿面剥落齿轮。

图3 试验齿轮

2.1.3 数据采集装置

齿轮箱振动信号采集可选择箱体或轴承座作为采集点，但受内部轴承、齿轮轴、箱体、齿轮等部件的互相影响，且这种方式采集到的振动信号也夹杂着大量的噪声。而齿轮箱内部温度高，油液较多，空间有限，因此，本文使用自主设计的嵌入式采集装置安装在齿轮的通孔中，直接采集故障齿轮的振动信号。振动信号采集装置安装图，如图4所示；振动信号采集装置安装局部图，如图5所示。

图4 振动信号采集装置安装图

图5 振动信号采集装置安装局部图

采集系统使用基于微处理器（Advanced RISC Machines，ARM）架构Cortex M4内核的STM32F4 07ZGT6型号的芯片作为主控板的主芯片，3.7 V锂电池作为其供电电源，AD7606外置模拟数字转换器（Analog-to-Digital Converter，ADC）作为数模转换器，NRF24L01作为振动数据无线传输模块，加速度计采用ADXL001。封装壳体直径为50 mm，材质为耐热、耐油、抗腐蚀的玻璃纤维，封装后安装在齿轮的通孔中。为了避免引入不平衡干扰，在均匀分布于齿轮圆周的4个通孔中均放入采集装置，并将无线模块放置到需要进行数据采集的那个装置的壳体外，以减轻无线信号的屏蔽强度，其余3个采集装置的无线模块均放在壳体内。

2.1.4 试验平台

试验平台由齿轮振动数据采集装置、试验台架等组成，如图6所示。数据采集装置由ADXL001加速度传感器、微控制单元（Microcontroller Unit，MCU）主控板、MCU接收板以及用于控制MCU接收板进入无线指令对接模式的计算机等组成，试验台架由齿轮箱、驱动电机和摩擦负载组成。

图6 试验平台

2.2 数据分析

2.2.1 数据采集

数据采集装置使用自主设计的主控采集板，数据接收板使用STM32F407商用采集板，主控板以5kHz采样频率进行数据采集，并通过无线模块发送至齿轮箱外的接收板，接收板接收数据并通过串口传输至电脑。每种类型的故障齿轮采集30 s的数据，即一共150 000个数据，健康齿轮、断齿齿轮、剥落齿轮3种齿轮的数据一共有450 000个，每种故障类型的齿轮数据绘图1 s后得到不同齿轮状态时域波形，如图7所示。从时域振动信号波形难以对齿轮箱状态进行分类，信号波形没有明显的周期性特征，与正常齿轮相比，故障齿轮信号能量有所改变。

图7 不同齿轮故障类型时域图像

2.2.2 数据增强

采集系统采集到的健康齿、断齿、剥落齿3种不同故障类型的数据，每种类型的数据有150 000个数据。神经网络的训练需要的数据量较大，本文采用数据增强技术，采用1 500个数据为宽度的滑动窗口从第0个数据开始，以固定大小为30个数据的步长在原始数据集上进行滑动来采集样本，每滑动一次，就将窗口内的数据当作一个样本存储起来，一共取得4 000个样本。对于3种故障齿轮，一共会采集12 000个样本，每个样本有1 500个数据点。同时，每个样本在训练之前为了方便神经网络训练均做了归一化处理。

2.3 Bi-GRU-AM模型训练

首先，将经过预处理的齿轮数据以7∶2∶1的比例划分为训练集、验证集和测试集，见表3。其次，将训练集的数据输入给Bi-GRU-AM模型。每条样本的维度是1×1 500，输入给Bi-GRU模型的数据维度是150×10，即150个时间步长，每个时间步长的输入维度是10。使用反向传播进行模型内部参数的训练，直到模型收敛。然后利用验证集进行模型的参数调节。最后，将训练好的模型在测试集上进行测试，得到模型最终的准确率。试验目的是通过训练集使模型学习到数据与分类标记的内在联系，从而能判断测试集上齿轮的故障部位和尺寸。为进一步验证模型的正确性，还将该模型与GRU模型以及移除注意力机制的Bi-GRU模型进行对比。

表3 数据集划分详情表

2.4 模型对比结果

模型在训练集上训练收敛后，在验证集上确定出最优的参数。模型最终采用的优化器为Adam，学习率为0.000 8，迭代次数为10次，每次训练的样本个数为12 000个。在测试集上，Bi-GRU-AM模型得到的平均准确率为99.67%。而对比GRU模型和Bi-GRU模型得到的平均准确率分别为90%和99.3%，比Bi-GRU-AM模型的平均准确率分别低了9.67%和0.67%。

2.5 结果分析

本文将GRU、Bi-GRU和Bi-GRU-AM三个模型进行了对比。试验结果表明，Bi-GRU模型比GRU模型的效果更好，而Bi-GRU-AM比Bi-GRU的准确率更高。AM可以显著提升Bi-GRU模型的效果。

从原理上看，Bi-GRU模型能够通过正向和反向的两个GRU模块提取更多的时序信息，从而提升了GRU的效果。当Bi-GRU模型与AM层结合后，更多的信息可以被有效地整合，进一步提升了准确率。因此，本文提出的网络结构对比基于传统人工提取特征的模型，实现了自动提取特征和自动分类的一体化流程。在使用Bi-GRU网络模型的基础上，又使用基于AM模型的方法，无需对提取的特征进行手动筛选，从而实现了自动对特征加权，提升了特征的有效利用率，同时解决了因特征选取不当而导致的预测精度低的问题。

3 结论

本文采用基于STM32F4系列的嵌入式工程板进行故障齿轮数据采集，使用基于注意力机制的双向门控循环单元网络模型进行齿轮故障识别，实现了端对端的齿轮故障识别效果。Bi-GRU模型的正、反向两个GRU模块可以提取更多的时序信息来提升GRU模型效果，注意力机制实现自动对特征加权，提高了特征有效利用率。试验结果表明，Bi-GRUAM模型相对于GRU模型和Bi-GRU模型的齿轮故障识别的准确率更高，可以更好地用于齿轮故障诊断。