基于极限学习机的机械设备故障诊断研究

时间：2024-05-04

蔡光伟　李扬　方志　蒋遂平

摘要：针对机械设备工况传感数据维度高、数据量大的特点，提出了一种基于极限学习机的故障诊断方法。首先，将机械设备传感器收集到的数据进行规范化处理，并采用过采样方法解决样本数据类别不平衡的问题;其次，通过预处理后的训练数据构建极限学习机模型，采用增量式方法确定隐层节点最佳数目。在气压系统数据集上的实验结果表明，与其他机器学习方法相比，基于极限学习机的机械设备故障诊断方法在训练速率和故障查全率上更具优越性。

关键词：极限学习机;过采样;隐层节点;故障诊断;神经网络;反向传播

中图分类号：TP39文献标识码：A文章编号：2095-1302（2020）04-00-03

0 引言

随着计算机技术和物联网技术的快速兴起与蓬勃发展，各类传感器已大量嵌入到机械设备中，用以实时采集设备运行过程中的工况数据。如何有效利用传感器采集到的工况数据进行故障诊断，实现设备故障的快速定位与检测，消除设备运行的安全隐患，已成为机械维修保障领域的发展趋势。

本文提出了一种基于极限学习机的故障诊断模型。对机械设备工况数据进行预处理后，采用增量式方法确定极限学习机隐层节点最佳节点数目，构建极限学习机最终模型。在气压系统数据集上的实验结果表明，本模型具有较大的优

越性。

1 极限学习机

极限学习机（Extreme Learning Machine，ELM）是由新加坡南洋理工大学的Huang等人提出的一种基于单隐层前向神经网络（Single-Hidden Layer Feedforward Network，SLFN）构建的机器学习算法，适用于监督学习和非监督学习[1]。

极限学习机具有如下特点：

（1）只需人工设置隐含层节点数目，训练算法执行过程中无需人工调整参数;

（2）避免了传统训练算法反复迭代的过程，可以快速收敛，极大地减少了训练时间;

（3）所得解是唯一最优解，保证网络的泛化性能[2-4]。

SLFN的学习模式可以描述为对于M个不同的样本

（xi， ti），xi=（xi1， xi2， ...， xiN）∈RN，g （x）为激活函数。具有个隐含层节点的SLFN前向传播过程可以表示为：

（1）

式中：wi=[wi1， wi2， ...， wiN]T为连接第i个隐含节点和输入层各节点的权值向量;βi=[βi1， βi2， ...， βim]T为连接第i个隐含节点和输出层各节点的权值向量;bi为第i个隐含层节点的偏置。

通过反向传播（Back Propagation，BP）多次迭代的SLFN可以有效拟合M个样本：，即存在βi，wi，bi使得：

（2）

个等式可以写成：

Hβ=T （3）

其中：

（4）

式中，H为神经网络隐含层的输出矩阵，H的第i列为神经网络隐含层的第i个节点输出。

ELM与SLFN在结构上大体相似，由输人层、隐含层和输出层构成。但不同于SLFN利用传统的BP算法反复迭代求得各层的权值向量与偏置，ELM学习算法是对输入层权值w和偏置b进行随机赋值，然后利用求Moore-Penrose广义逆矩阵的方法直接求解出隐层节点到输出层节点的

权值[2]β。

β=H-1T （5）

式中，H-1为H的逆矩阵或者Moore-Penrose广义逆矩阵。

2 技术方案

2.1 数据规范化

一个训练数据xi有N个属性，xi=（xi1， xi2， ...， xiN），则N为xi的维数。收集训练数据时，将数据的各属性用数值表示。如果数据xi的属性xij数值缺失，则标记为“不可用/na”。

由于训练数据来源于不同的传感器，数据的各属性值往往具有量纲不同、数值范围差异大等特点。可以通过2次规范化操作进行数据预处理，分别为属性值的规范化和单位向量化。

如果属性的可用数据值的平均值和方差分别为μj和σj，则属性的每个可用属性值xij根据平均值和方差进行规范化，这样不同属性的属性值就可落入相近范围：

（6）

在规范化过程中，如果属性值xij标记为“不可用/na”，则x'ij=0。相当于将标记为“不可用/na”的缺失值用平均值替代。

由于训练数据中可能缺失数据，导致数据之间存在差异，因此还需要进行单位向量化处理，进一步消除训练数据之间的差异。对每个训练数据x'i=（x'i1， x'i2， ...， x'iN）进行单位向量化，得到x''i=（x''i1， x''i2， ...， x''iN）：

（7）

2.2 数据分布调整

由于机械设备在多数时间处于正常工作状态，因此，传感器采集到的设备工况数据多为正常狀态数据，只有很少的故障状态数据。为了缓解少数类故障数据与多数类正常数据之间的不平衡程度，我们对规范化后的数据进行数据分布调整。考虑到若采用删除过多正常状态数据的欠采样方法会丢失较多信息，所以在数据分布调整中采用过采样方式。过采样即通过对少数类样本进行多次复制，并将生成的样本集合添加到少数类中，由此得到与多数类数量相同的少数类集合。假设有K个少数类样本Xp1， Xp2， ...， XpK，有L个多数类样本Xn1， Xn2， ...， XnL，K<

， pi=1， 2， ...， L （8）

2.3 极限学习机的实现

极限学习机采用三层结构，包括输入层、隐含层、输出层。输入层节点数目与样本属性数目一致，输出层节点数目与故障分类数目一致。我们采用增量法来确定隐层节点数目。的值从1开始逐渐增加，步长为5，利用测试数据获取隐层节点数目为时ELM的性能;随后在能取得较好性能值的隐层节点数目附近以步长1确定最佳节点数目。

3 实验结果分析

3.1 实验数据集

气压系统APS（Air Pressure System）数据集来源于瑞典重型Scania卡车工况传感器采集的数据。卡车的气压系统产生刹车和齿轮变速等各种功能需要的压缩空气，对卡车的安全行驶具有重要意义。在APS数据集中，正例数据记录气压系统在故障状态下的工况信息，反例记录正常状态下的工况信息。所有数据均经过专家人工检查[5]。

APS数据集属于类别不平衡的数据集。此外，APS数据还具有属性值差异大、属性缺失率较高等特点。APS数据特性见表1所列。

3.2 评价指标

混淆矩阵是统计机器学习中分类模型预测结果的情形分析表，以矩阵形式将数据的真实类别与预测类别进行统计。其中矩阵的行表示真实值，列表示预测值，内部数据表示相应类别的样本数目。二分类任务的混淆矩阵形式见表2所列。

在故障诊断任务中，由于故障状态数据的准确分类更为重要，所以表示真实故障状态数据预测准确程度的查全率（Recall）是評价模型的重要指标，计算公式如下：

（9）

此外，APS数据集定义了不同类的误分代价，并建议采用各类误分代价之和Score值作为评价标准。误分代价之和Score值在重点考虑查全率的同时，兼顾对正常状态数据预测准确度的考量，其值越小说明模型性能越好。代价矩阵见表3所列。

（10）

在设计ELM后，利用APS数据集中的训练集进行训练，然后利用APS数据集中的测试集数据评价ELM模型的性能。实验结果表明，要获得模型的最佳性能，ELM的最佳隐含层节点数目为375。

本次实验环境为Ubuntu18.04，Intel CPU 8300，显卡为GTX 1080 Ti，内存为双通道16 GB，编程语言采用Python 3.7。ELM模型性能与其他算法性能的比较见表4所列。

从表4可以看出，本文提出的ELM故障诊断模型可以提升模型构建速度，并且在故障查全率和整体错分代价上具有很大的优越性。

4 结语

本文提出了一种基于极限学习机的故障诊断模型，在对机械设备工况传感数据进行规范化预处理后，构建极限学习机模型，采用增量式方法确定极限学习机最佳隐层节点数目。在公开的APS数据集上的实验结果表明，本文提出的模型具有良好的泛化能力，训练时间短，相较于其他算法模型，在性能上具有较大的优越性。

参考文献

[1] HUANG G，HUANG G B，SONG S J，et al. Trends in extreme learning machines：a review [J]. Neural networks，2015，61（1）：32-48.

[2]陆思源，陆志海，王水花，等.极限学习机综述[J].测控技术，2018（10）：3-9.

[3] HUANG G B，ZHU Q Y，CHEE-KHEONG SIEW. Extreme learning machine：theory and applications [J]. Neurocomputing，2005，70（1）：489-501.

[4] HUANG G B，ZHOU H，DING X，et al. Extreme learning machine for regression and multiclass classification [J]. IEEE transactions on systems，man and cybernetics，part B（Cybernetics），2012，42（2）：513-529.

[5] DUA D，GRAFF C. APS Failure at Scania Trucks Data Set[DB/OL].（2017-12-08）[2019-07-08]. http：//archive.ics.uci.edu/ml/datasets/APS+Failure+at+Scania+Trucks.

[6] GONDEK C，HAFNER D，SAMPSON O R . Prediction of failures in the air pressure system of scania trucks using a random forest and feature engineering [M]. Advances in Intelligent Data Analysis XV. Springer International Publishing，2016.

[7] COSTA C F，NASCIMENTO M A. IDA 2016 industrial challenge： using machine learning for predicting failures [M]. Advances in Intelligent Data Analysis XV. Springer International Publishing，2016.

[8]车波，喻林.基于谱特征提取的汽车发动机故障诊断系统[J].物联网技术，2015，5（11）：36-38.

[9]陈立军，孙凯，侯媛媛，等.基于极限学习机的汽轮机故障诊断

[J].化工自动化及仪表，2013（4）：435-438.

[10]苑金莎，张利伟，王瑜，等.基于极限学习机的变压器故障诊断方法研究[J].电测与仪表，2013（12）：21-26.

作者简介：蔡光伟（1993—），男，河北石家庄人，硕士研究生，研究方向为机器学习与智能信息处理。

李扬（1986—），女，河北保定人，硕士，研究方向为物联网智能信息处理技术。

方志（1979—），男，湖南岳阳人，博士，研究方向为物联网智能信息处理技术。

蒋遂平（1966—），男，四川遂宁人，博士，研究员，研究方向为物联网信息综合平台。