一种残差注意力迁移学习方法及其在滚动轴承故障诊断中的应用

时间：2024-07-28

赵靖杨绍普李强刘永强,3

1.北京交通大学机械与电子控制工程学院，北京，100044 2.石家庄铁道大学省部共建交通工程结构力学行为与系统安全国家重点实验室，石家庄，050043 3.石家庄铁道大学机械工程学院，石家庄，050043

0 引言

随着互联网的发展，机械故障诊断领域进入了“大数据”时代[1]。近年来，数据驱动算法得到了快速发展，智能故障诊断方法吸引了越来越多学者的关注[2]。智能故障诊断算法通过分析被测信号，自动学习故障特征，进而对机器的运行状态进行判别，旨在建立端到端的诊断模型。智能故障诊断算法的发展大致分为以下3个阶段：传统的机器学习方法、深度学习方法和迁移学习方法[3]。传统的机器学习方法主要有人工神经网络 (artificial neural network, ANN)、支持向量机[4](support vector machine, SVM)以及k最近邻分类算法[5](k nearest neighbor, kNN)。传统的机器学习方法虽然可以对机械系统的状态进行识别，但是其网络结构往往比较浅，泛化性能比较差，不适用于处理大批量的数据。深度学习算法的发展弥补了传统机器学习算法的不足。CHEN等[6]利用卷积神经网络(convolutional neural networks, CNN)和极限学习机解决了齿轮和轴承的故障分类问题。ZHAO等[7]建立了卷积神经网络模型，将不同的二维灰度图作为模型的输入完成了不同工况下轴承的故障分类，并对模型的训练过程与结果进行了可视化分析。XIE等[8]利用自适应深度置信网络(deep belief networks, DBN)诊断模型完成轴承故障分类任务。赵志宏等[9]提出一种非对称自编码器方法，完成了旋转机械关键部件的频域特征提取与智能诊断。深度学习方法在提取特征方面展示了独特的优势，尤其是卷积神经网络，因其可以从复杂的二维图中提取特征而受到众多学者的关注。由于机械设备大多在正常状态下工作，故采集到的信号往往都是正常的，并且获得机器不同运行状态的振动数据往往需要耗费大量人力物力[3]。深度学习方法虽然能从信号中提取特征，但是训练好模型往往需要大量不同健康状态的带标签数据，这在工程实际中不太现实。

随着智能诊断算法的发展，为了满足工程实际的需求，迁移学习方法吸引了一些学者的研究。迁移学习方法是将一个或多个任务中学习到的知识应用到与之相关但不同的新任务中[10]的方法。LONG等[11]提出了一种深度域适应网络架构，采用最优多核选择方法进行均值嵌入匹配，进一步减小了域差异。SUN等[12]提出一种无监督域自适应方法，采用非线性变换将源域与目标域分布的二阶统计量对齐。LONG等[13]提出联合自适应网络，通过减小激活层输入特征和输出标签联合分布的差异来缩小源域与目标域的差异。GANIN等[14]将域对抗引入迁移学习中，完成了源域向目标域的迁移学习。除此之外，CHEN等[15]采取一种微调的迁移学习策略完成了不同试验台的迁移任务。LI等[16]提出一种最优集成深度迁移网络并应用于轴承的故障诊断。揭震国等[17]提出一种子域适配的深度迁移方法，通过自适应匹配不同域之间的特征解决了机械设备在变工况故障诊断时的域偏移问题。HAN等[18]将对抗学习作为一种正则化方法引入卷积神经网络中，提出了一种新的深度对抗卷积神经网络。上面介绍的迁移学习方法可以分为以下三类：①基于域自适应的迁移学习方法。通过减小源域与目标域的差异完成不同工况的迁移，这类方法统称为域自适应方法，文献[11-13，17]可归为此类。②基于对抗的迁移学习方法。部分学者致力于研究对抗学习的迁移策略，文献[14，18]属于这一类。③基于预训练的迁移学习方法。即从源域与目标域中找到共享的参数信息来完成迁移学习，文献[15-16]属于预训练迁移学习[19]。

随着迁移学习诊断精度的提高，模型的结构变得越来越复杂，模型的训练时间变得也越来越长。但是，工程中往往更需要高精度高效率的模型，为了满足工程应用，亟需一种准确率高且计算时间短的迁移学习模型。特征提取在模型学习过程中发挥着不可或缺的作用，有效的特征提取能达到事半功倍的效果。本文提出一种基于残差注意力卷积神经网络的迁移学习故障诊断算法。为了捕捉不同健康状态的特征，在卷积神经网络模型的最后加入残差注意力。为了测评本文方法的性能，将基于残差注意力卷积神经网络与传统的卷积神经网络的在不同迁移学习策略下的结果进行对比。为了进一步探究不同故障特征在模型训练过程中的变化情况，在对不同域的分类结果做了进一步的可视化分析的同时，进一步分析了某一具体样本在模型训练过程中的特征分布情况。

1 迁移学习问题描述

迁移学习中，被迁移的领域称为源域(source domain)，待学习的领域称为目标域(target domain)。源域Ds和目标域Dt组成了迁移学习中两个重要的域。

迁移学习的工作过程描述如下：利用实验室中机械设备故障模拟实验获得的数据训练一个可靠的迁移学习模型，再用训练好的模型去判断工程实际中机械设备的工作状态。迁移学习在具体的应用中，源域的数据通常都是在实验室获得的带标签的机械设备故障数据，而目标域通常都是不带标签的数据，因为工程实际中机械设备的工作状态具有很大的不确定性，所以目前迁移学习研究主要针对不同实验台或同一实验台不同工况之间的迁移。

结合迁移学习相关概念及相关术语，迁移学习的目标有以下3种情景[19]：①特征空间不同，即Xs≠Xt；②类别空间不同，即ys≠yt；③特征空间和类别空间均相同、概率分布不同，即Ps(x,y)≠Pt(x,y)，本文研究内容主要针对情景③。源域与目标域的特征空间相同，类别空间相同，概率分布不同，源域中是带标签的样本，目标域中是不带标签的样本。

2 迁移学习诊断模型

2.1 卷积神经网络

卷积神经网络一般由卷积层、池化层及全连接层组成[20]。卷积神经网络具有局部连接和权重共享特性，是一种深层前馈神经网络[21]。卷积层是卷积神经网络的重要组成部分，由一系列卷积核组成，卷积运算是在输入信号与卷积核之间进行的。对于每一个输入xi和卷积核wj，卷积运算之后输出特征如下：

(1)

其中，yi,j是卷积之后输出的特征；bj是偏置；wj是卷积核；*表示卷积操作；σ(·)是激活函数，常用的激活函数有Sigmoid( )函数、Softmax( )函数、Tanh( )函数和ReLu( )(rectified linear unit)函数等。ReLu( )函数具有以下优点：①采用ReLu的神经元只需要进行加、乘和比较操作，计算上更加高效。②在优化方面，在一定程度上缓解了神经网络的梯度消失问题，加速梯度下降的收敛速度，且ReLu( )函数具有很好的稀疏性。Softmax( )函数常用于分类问题的输出层。因此，本文选取ReLu( )函数作为隐藏层激活函数，Softmax( )函数作为输出层的激活函数。

卷积运算之后是池化运算，池化运算降低了特征维数，减少了计算时间。常用的池化运算有最大池化和平均池化运算。

最大池化运算，选取特征区域的最大值：

(2)

式中，R为池化区域；yij为卷积层输出的激活值；Y为最大池化结果。

平均池化运算，计算特征区域所有值的平均值:

(3)

卷积神经网络最后是全连接层，在全连接层中，需要将经过卷积层运算与池化运算之后的特征进行展平。模型在经全连接层之后，经过Softmax( )激活函数之后即可得到模型学习结果。模型在训练过程中会产生较多的参数，为了防止过拟合，在搭建卷积神经网络的过程中，常常还会加入Dropout(·)运算和批量归一化(batch normalization, BN)。

2.2 残差注意力

ZHU等[22]提出了残差注意力(class-specific residual attention，CSRA)并将其应用于多标签识别中。受其启发，本文将CSRA应用于轴承的故障特征识别中，输入特征xi的注意力分数为

(4)

注意力分数确定之后，xi的特征为

(5)

输出特征为

f(i)=g+λa(i)

(6)

式中，g为输入特征的均值；F(i)为残差注意力网络的输出结果。

特征残差注意力既考虑了整体，又考虑了局部，可以充分利用模型训练过程中不同特征的分布。

为了提取故障特征，本文将残差注意力网络与卷积神经网络结合起来，将残差注意力网络应用于卷积神经网络最后，基于残差注意力的卷积神经网络结构见表1。

表1 基于残差注意力的卷积神经网络结构

2.3 基于残差注意力的卷积神经网络模型测评

为了测评所建模型的特征提取能力，本文将其与传统的卷积神经网络模型进行对比，进一步测评本文模型在故障特征提取方面的优越性。需要说明的是，为了公平起见，本文所用的传统卷积神经网络模型与本文方法的part Ⅰ～part Ⅳ相同，最后一层是全连接层，而本文方法的最后一层是残差注意力网络。

本文采用4种常用的迁移学习方法测评不同模型的迁移策略：DAN (deep adaptation networks)[11]、CORAL(correlation alignment)[12]、JAN (joint adaptation networks)[13]和DA (domain-adversarial)[14]。将本文方法与传统卷积神经网络分别在这4种不同的迁移模型上进行测试，对比不同模型诊断结果。本文方法主要由3部分组成：数据处理、特征提取与迁移结果可视化，具体内容如图1所示。

图1 基于CSRA-CNN的故障诊断方法示意图

2.4 迁移学习模型诊断流程

本文方法的流程图见图2，具体步骤如下：

图2 本文方法流程图

(1)获取机械设备不同工况下的监测数据，构建源域与目标域，其中源域数据是带标签的，目标域数据是不带标签的。

(2)划分训练数据和测试数据，构建以残差注意力卷积神经网络为基础的迁移学习模型。

(3)用训练集数据训练所建模型，通过文献[11-14]方法对模型参数及特征进行训练与提取，优化特征以达到较好的迁移效果。将本文方法与传统卷积神经网络分别在这四种不同的迁移模型上进行测试，对比不同模型诊断结果。

(4)重复步骤(3)，直到给定的迭代次数，得到训练好的模型。

(5)用目标域数据测试训练好的模型，得到诊断结果，并对模型的训练过程及结果进行可视化分析。

3 实验验证

3.1 实验一：动力传动故障诊断综合实验

3.1.1数据介绍

为评估本文方法的性能，采用动力传动故障诊断综合实验台对本文方法进行验证。实验台的结构如图3所示，主要由电机、齿轮箱、测试轴承以及电磁制动器等组成。本实验测试轴承共设置四种不同状态：正常轴承、外圈故障轴承、内圈故障轴承与滚子故障轴承。采样频率为51.2 kHz，采样时长为60 s。为了更贴近工程实际，本实验转速设置为变转速，共设置三种不同的转速：0-1200-0 r/min、0-2400-0 r/min和0-3600-0 r/min，将这三种不同转速下测得的振动数据分别记为数据集A、B和C。以转速0-1200-0 r/min为例，它表示转速由0升到1200 r/min，再由1200 r/min降到0，该工况下的转速是先升再降的一个过程，转速0-2400-0 r/min和0-3600-0 r/min同理。每种健康状态随机采用400个样本，所以每种工况有1600个样本。在这些样本中，80%的样本用于训练所建模型，剩下的样本用于测试模型，具体细节见表2。

图3 动力传动故障诊断综合实验台

表2 测试轴承工况

3.1.2迁移任务设置

本实验所用数据通过下式进行标准化预处理：

(7)

因卷积神经网络在图像识别、语音识别、目标跟踪等方面得到了广泛的应用[21]，受文献[7]启发，本文将一维振动转化成二维灰度图作为模型的输入。将每个样本的一维长度选为1024，转化为32×32的二维灰度图。本实验共有3种数据集A、B和C，以此为基础，设置以下6种迁移任务：A-B、A-C、B-A、B-C、C-A和C-B，迁移任务设置见表3。以A-B为例，A表示源域数据集，B表示目标域数据集。随机选取80%的数据用于模型训练，剩下的数据用于测试模型。将本文方法与传统卷积神经网络分别在这4种不同的迁移模型上进行测试，对比不同模型诊断结果。

表3 迁移任务

3.1.3迁移诊断结果分析

以迁移任务A-C为例，源域A和目标域C中不同健康状态的时域图和灰度图见图4。可以看出，源域A中不同健康状态时域图的波形不一样，这种不同的波形在灰度图中也展现出了不同的特征，二维灰度图可用于描述轴承的不同健康状态，目标域C中存在相同的现象。然后，将源域与目标域的二维灰度图输入本文模型与对比模型中，不同方法下的迁移结果见表4。其中，CSRA-CNN表示本文模型，CNN表示传统的卷积神经网络模型。可以看出，本文方法的迁移结果均优于传统CNN，为了更加清楚地展现表4的迁移结果，图5给出了表4的柱状图。可以看出，相比传统的CNN模型，本文模型在不同方法与不同迁移任务上均能达到较高的迁移准确率，进一步说明本文模型在特征提取阶段捕捉到了更有用的特征。

(a)源域 (b)目标域

表4 迁移结果

图5 迁移结果柱状图

为了进一步论证本文所建模型的特征提取能力，同样以迁移任务A-B为例，给出了本文模型与传统CNN模型在训练过程中源域与目标域的特征分布图(图6)。

图6a～图6d为本文模型中Part Ⅰ-Part Ⅳ激活层中源域与目标域的特征分布图，图6e～图6h为传统CNN模型中Part Ⅰ-Part Ⅳ激活层中源域与目标域的特征分布图。由图6可得到以下结论：

(1)在模型训练初期，源域与目标域的故障特征混淆在一起，没有进行有效分离，这种现象在本文模型与传统CNN模型中表现一致，可以由图6a 、图6b与图6e、图6f看出。随着模型结构的加深，本文模型特征聚类效果明显。同一域下不同故障类型的特征聚集在一起的同时，不同域中同一故障类型的特征也聚集在一起，这可以由图6c、图6d看出。但是，传统CNN模型特征未能有效聚类。图6g、图6h中不同故障类型的特征虽然相比图6e、图6f有所聚集，但是所有特征聚集在一起，难以区分。

(2)除此之外，本文模型中，在Part Ⅰ、Part Ⅱ和Part Ⅲ中始终存在一簇离群样本，这从图6a～图6c中可以看出，在Part Ⅳ中没有再出现该簇离群样本。但是在传统CNN模型的Part Ⅰ、Part Ⅱ和Part Ⅲ中同样存在一簇离群样本，在Part Ⅳ中该簇离群样本不但没有消失，反而又多了一簇，这从图6e、图6h中可以看出。

(a)Part Ⅰ-CSRA (b)Part Ⅱ-CSRA

(3)综上，本文模型在故障特征提取方面优于传统CNN模型，能较出色地完成轴承在不同变转速工况下的迁移学习任务。

选取目标域B中某一正常健康状态样本，分析该样本在模型训练过程中的特征分布情况，其原始信号的一维时域图与二维灰度图及该样本在模型训练过程中的特征分布grad-cam图[23]见图7。

由图7a、图7b可以看出，一维时域图中有一部分幅值相对较高，这种特征在二维灰度图中也可看出。其中，图7c、图7f是本文方法Part Ⅰ-Part Ⅳ中激活层的特征图，图7g、图7j是传统卷积神经网络Part Ⅰ-Part Ⅳ中激活层的特征图。对比图7c～图7f与图7g～图7j可以发现：与传统的卷积神经网络相比，基于残差注意力的卷积神经网络可以捕捉到有效的特征并将灰度图中幅值相对较高的特征提取出来，而传统的卷积神经网络在特征提取方面效果不佳，由此可知，本文模型可以更好地提取故障特征。

(a)一维振动信号 (b) 二维灰度图

3.2 实验二：高速列车综合实验

3.2.1数据介绍

为评估本文模型的性能，除了采用动力传动故障诊断综合实验台对其验证之外，本文还采用高速列车综合实验台对本文方法进行验证。实验台结构如图8所示，该实验台主要由测试轴承、支撑轴承和驱动电机等构成。该实验台可以通过施加径向和轴向的静载荷或动载荷，模拟轴承的运行工况，完成不同速度等级和负载工况下的实验。

图8 高速列车综合实验台

本实验测试轴承共设置3种健康状态：外圈故障轴承、内圈故障轴承和正常状态轴承。实验的采样频率为51.2 kHz，采样时长为60 s。该实验在变转速下设置了三种不同的载荷，速度设置为0-2100-0 r/min，载荷分别设置如下：不加载、静载 (径向8.5 t,轴向5 t)和动载 (径向8 t，轴向4 t，0.2-20 Hz)，0.2-20 Hz是指载荷的变化方式。与实验一相同，0-2100-0 r/min表示转速由0升到2100 r/min，再由2100 r/min降到0，该工况下的转速同样是先升再降的一个过程。将这3种不同载荷下测得的振动数据分别记为数据集D、E和F。与实验一相同，从每种健康状态下随机选取400个样本，每种工况有1200个样本。在这些样本中，80%的样本用于训练所建模型，剩下的样本用于测试模型，具体细节见表5。

表5 测试轴承工况

3.2.2迁移任务设置

该实验所用数据同样通过式(7)进行标准化预处理。与实验一相同，每个样本的一维长度选为1024，转化为32×32的二维灰度图。本实验同样有三种不同的数据集D、E和F，以这3种不同的数据集为基础，设置以下6种迁移任务：D-E、D-F、E-D、E-F、F-D和F-E，迁移任务设置见表6。以D-E为例，随机选取80%的数据用于模型训练，剩下的数据用于模型测试。将本文方法与传统卷积神经网络分别在这4种不同的迁移模型上进行测试，对比不同模型诊断结果。

表6 迁移任务

3.2.3迁移诊断结果分析

同样以迁移任务D-E为例，源域D和目标域E中不同健康状态的时域图和灰度图见图9。可以看出，源域D中不同健康状态时域图的波形不同，这种不同的波形在灰度图中也展现出了不同的特征，二维灰度图可以用于描述不同健康状态的轴承，目标域E中存在相同的现象。同理，再将源域与目标域的二维灰度图输入本文模型与对比模型中，不同方法下的迁移结果见表7。其中，CSRA-CNN表示本文所提的基于残差注意力的卷积神经网络模型，CNN表示传统的卷积神经网络模型。由表7可以得出如下结论：

表7 迁移结果

(1)与实验一中表4的迁移结果相比，实验二中的迁移结果效果略差，出现这种现象的原因是实验二中的实验工况更加复杂。实验一中考虑的是变转速工况之间的迁移，只有转速在变。而在实验二中，转速在变化的同时，载荷也在变，工况更加复杂，因此迁移效果略差，这与实际情况也是相符的。

(2)与实验一相同，本文方法的迁移结果均优于传统的CNN。同样，为了更加清楚地展现表7的迁移结果，图10给出了表7的柱状图。

图10 迁移结果柱状图

由图10可以看出，相比传统的CNN模型，本文模型的迁移准确率在变转速变载荷的工况下均占优势，进一步证明本文模型在特征提取阶段捕捉到了更有用的特征。同理，为了进一步论证本文模型的特征提取能力，同样以迁移任务D-E为例，给出了本文模型与传统CNN模型在训练过程中源域与目标域的特征分布图(图11)。

与实验一相同，图11a～图11d分别为本文模型中Part Ⅰ-Part Ⅳ激活层中源域与目标域的特征分布图，图11e～图11h分别为传统CNN模型中PartⅠ-Part Ⅳ激活层中源域与目标域的特征分布图。由图11可以得到以下结论：

(1)从图11a～图11d中可以看出，在PartⅠ、PartⅡ和PartⅢ中，源域和目标域的故障特征混淆在一起，没有进行有效分离；在Part Ⅳ中，同一域下不同故障类型的特征聚集在一起的同时，不同域中同一故障类型的特征也聚集在一起，这与实验二表7中迁移结果分析相吻合。传统CNN模型更没有达到特征有效聚类的效果，这可以由图11e～图11h看出，在图11h的Part Ⅳ中，不同故障类型的特征虽然相比前三部分有所聚集，但是效果并不好。

(a)Part Ⅰ-CSRA (b)Part Ⅱ-CSRA

(2)实验二分析结果证明本文模型在故障特征提取方面优于传统CNN模型，能较出色地完成轴承在变转速变载荷工况下的迁移学习任务。

(3)实验二中的特征聚类比实验一结果略差，出现这种现象的原因是实验二中迁移任务的工况更加复杂，转速在变化的同时载荷也在变化，这可以说明迁移结果因更加复杂的工况而变差。

选取目标域E中某一内圈故障样本，分析该样本在模型训练过程中的特征分布情况，其原始信号的一维时域图与二维灰度图与该样本在模型训练过程中的特征分布grad-cam图见图12。由图12a、图12b可以看出，一维时域图中有一簇幅值相对较高，这种特征在二维灰度图中也可看出。与图7相同，图12c～图12f是本文方法Part Ⅰ-Part Ⅳ中激活层的特征图，图12g～图12j是传统卷积神经网络PartⅠ-Part Ⅳ中激活层的特征图。对比图12c～图12与图12g～图12j可以发现：基于残差注意力的卷积神经网络和传统的卷积神经网络均可捕捉到这一簇幅值相对较高的信号，但是与图12b中的二维灰度图相比，本文方法可以提取到信号中更为细致的信息，这一点从图12c～图12f可以看出。

(a)一维振动信号 (b) 二维灰度图

4 结论

(1)将本文方法与传统卷积神经网络分别在四种不同的迁移模型上对两个不同实验台上的数据进行测试，在实验一中完成了变转速下轴承不同健康状态的迁移学习，在实验二中完成了变转速变载荷下轴承不同健康状态的迁移学习。结果显示本文所提的CSRA-CNN迁移效果优于传统的CNN，进一步证明本文方法可以提取到更多有效特征。

(2)对目标域的分类结果做了可视化分析的同时，分析了样本在模型训练过程中的特征学习，并进一步分析了有无残差注意力时模型的迁移学习能力。结果表明，残差注意力在迁移学习过程的特征提取中发挥着重要的作用。

(3)实验二中的特征聚类比实验一结果略差，出现这种现象的原因是实验二中迁移任务的工况更加复杂，转速在变化的同时载荷也在变化，可以说明迁移结果因更加复杂的工况而变差，这对迁移学习的工程应用具有一定的参考价值。