基于KNN改进算法的闪烁体探测器故障诊断

时间：2024-07-28

丁天松，颜拥军，谢宇希，李翔

(南华大学核科学技术学院，湖南衡阳 421001)

核探测器作为获取各种核信息的源头，是核辐射测控系统的重要部件，其可靠性对于监测场所的稳定运行有着至关重要的影响。核探测器长期工作在高温湿度和高辐照强度的环境中，易导致探测器加速老化、工作性能下降或出现部分功能故障等现象。目前大多数核辐射监测场所是采取人工巡检的方式来实现核探测器的故障检测，不仅耗时费力，而且易产生误判漏判现象，严重情况下可能引发核事故[1-2]。文献[3-4]开展了基于多支持向量机和BP神经网络的核探测器智能故障诊断方法的研究，尝试将人工智能应用到数字化核仪器故障监测方面。本文以闪烁体探测器为研究对象，通过提取输出信号的特征参数，建立正常工况与故障工况下的数据特征库，利用基于机器学习的KNN算法对统计的信号特征进行分类识别，以实现对核探测器故障的智能诊断。

1 基于K近邻算法的故障诊断

1.1 闪烁体探测器输出信号的特性分析

闪烁体探测器是利用闪烁体原子分子激发后退激时会发出荧光的原理，将光信号变为电脉冲信号来实现探测辐射粒子的目的，可实现辐射强度测量，同时脉冲信号的幅值可反映核辐射的能量大小。闪烁体探测器的输出信号是一系列具有特定形状的随机脉冲信号，具有相邻脉冲的时间间隔服从泊松分布、脉冲计数率满足指数分布、输出脉冲幅值与噪声均服从正态分布的统计特性，信号经闪烁体探测器后输出的脉冲波形可近似由双指数函数表示，即：

v0(t)=u(t)A(e-t/t1-e-t/t2)+v(t)

(1)

其中：v0(t)为探测器输出信号；u(t)为阶跃函数；A为信号幅值；v(t)为白噪声信号；t1和t2分别为双指数函数的慢、快时间常量，信号脉冲的衰减时间tc和上升时间tf是由t1和t2共同决定的[4]。

当探测器发生故障时，输出信号的脉冲幅值、下降沿时间、噪声程度会出现不同程度的变化，同时也将会影响后续能谱信号的能峰位置、低道址计数等参数，可对这些特征参数进行提取，用于对探测器的故障诊断。长期工作于高温高辐射的恶劣环境下的闪烁体探测器会发生闪烁体老化现象，发光效率会基于老化程度发生不同程度的降低，导致光输出减小，使A降低，同时由于幅值的下降会使软件在提取信号下降沿时间时出现略微降低现象，使能谱信号的能峰位置发生偏移。闪烁体探测器的光电倍增管作为电真空管，在受到外力冲击、管脚管座受潮或玷污及在强辐射场的环境下均会造成倍增管密封性变差，导致v(t)增大，同时离子渡越时间发生变化，导致t1和t2的变化。从输出信号的特征上看，其能谱信号中的低道址部分计数会增加，由于噪声增大叠加在核脉冲信号上，导致脉冲信号的幅值出现小幅增大，下降沿时间(信号幅值的10%～90%)在判断时会出现降低现象。长期工作于辐射环境下会使闪烁体探测器出现辐射损伤，导致发光效率降低，影响信号幅值A，同时晶体内的电子、空穴会落入深浅不一的晶体陷阱中，这些离子对从陷阱中释放出来也会参与发光，导致发光拖尾，使得t1和t2增大，从输出核信号的波形特征看，其信号幅值会下降，下降沿时间会增加，从能谱信号看其低道址计数会增加，能峰位置会左移。这些变化会导致核脉冲信号的幅值下降、下降沿时间增大，同时也会使能谱信号的低道址计数增加，能峰位置左移。

1.2 K近邻算法的原理及改进

K近邻(KNN)算法是一种理论上较成熟的有监督学习的机器学习算法，其工作原理为：存在一个训练样本集合A，在给定测试样本b时，基于某种距离度量，找出训练集A中与测试样本b最靠近的k个训练样本(通常k≤20且为整数)，基于k个训练样本的信息来预测种类或值。该算法具备简单、有效、无须参数估计、复杂度低等优点，其在多分类问题中的表现性能要优于单个支持向量机(SVM)算法[5]。由于在算法运行时，测试样本需与所有样本的属性进行计算，然而属性中往往会包含不相关的属性或相关度较低的属性，此时标准的欧式距离将会变得不准确，且会消耗大量的计算时间。不相关属性过多将会导致维数灾难，严重时将影响到KNN算法的准确率，为此进行如下改进。

1) 消除不相关属性及进行特征提取选择，即在信号特征参量选取及数据预处理时剔除过多的无关特征量。

2) 属性加权，即将属性权重引入到KNN算法中，原始KNN算法计算距离公式为：

(2)

引入权重后距离公式为：

(3)

其中：dij为样本i与j之间的距离；n为属性总数；aih为样本i中的第h个属性；ωh为第h个属性的权重。权重引入可均衡属性值，类似于归一化处理[5-8]。

原始KNN算法中实例邻近的类别被认为概率是相同的，当样本不均衡时将会对诊断结果产生较大影响，因此改进的算法引入了与距离呈反比的相似度参数以解决此问题。原始KNN算法中的权重为：

(4)

引入相似度参数后权重为：

(5)

其中：p(x,Cj)为待分类样本x属于j类的权重(假设待分类样本x的k个最近邻样本共分为j类)，Cj为样本的类别；Sim(ai,x)为最近邻样本ai与x之间的相似度，可表示为ai与x之间欧式距离的倒数；Pa(ai,Cj)为类别属性函数，当ai∈Cj时，Pa(ai,Cj)=1，否则Pa(ai,Cj)=0。

2 模型建立与故障诊断实验

在系统正常工况与故障工况下对核探测器的信号进行预处理，去除采集信号中所含有的部分高频噪声和粗差，然后对处理后的信号采用统计方法进行特征信息提取，根据已有故障实例中的故障特征与故障类别集合训练KNN算法，得到故障诊断模型。对核探测器监测时，需从获取的信号波形中提取数据的特征信息，处理后输入建立的模型中，从而对核探测器进行故障检测和故障识别[9]，其诊断流程图如图1所示。

图1 故障诊断流程图Fig.1 Flow chart of fault diagnosis

2.1 特征信息获取及分类

为获取故障诊断时的核脉冲信号数据，基于现场实验与理论分析，以平均脉冲幅值1 V、能量分辨率10%、白噪声标准差0.005 V、采样频率6 MHz、采样时间0.5 s为正常核脉冲信号模型参数。将实际发光效率降低至原效率的30%～80%时视为闪烁体老化故障(共6×100组)；将噪声增大至正常工作状态下的10～15倍时视为光电倍增管故障(共6×100组)；将发光效率降低至原效率的30%～80%，同时噪声增大10～15倍时视为辐射损伤故障(6×6×100组)[10-13]。不同类别的信号波形模拟图如图2所示。

图2 信号波形模拟图Fig.2 Signal waveform simulation

用NaI探测器对距离45 mm(实验测量的最优距离)的137Cs源进行3 min测量，获取正常探测器及部分故障探测器的137Cs能谱数据，实验数据采集流程图如图3所示[14]，同时为了应对故障探测器能谱数据不足的问题，采用数据扩展的方式进行特征量的仿真扩充，在现有数据信息的基础上利用回归插值替换的方法推测缺失值，使数据量足够丰富以满足KNN算法对大量特征信息的要求[15-17]。

图3 数据采集流程图Fig.3 Data collection process

通过软件分析核信号的统计特性，将核信号分为核脉冲波形信号和核能谱信号分别进行特征提取，其具体流程为：对核脉冲波形信号幅值、下降沿时间等信息进行统计特征提取，其中对信号的下降沿时间进行特征提取时，利用线性搜索方法选用一定时间范围内的感兴趣区域(ROI)作为获取区域，设信号阶跃高度从90%到10%内进行下降沿时间获取；在对信号的幅值信息进行提取时，采用局部最大的方法进行寻峰并选用合适的ROI范围，设高度阈值为40%，利用相邻平均法对信号基线进行平滑处理并提取幅值信息，其脉冲信号特征提取示意图如图4a所示。能谱信号的处理是通过软件对能峰位置及前100道的总计数这两个特征信息进行提取，低道址计数选取前100道是为了尽可能排除康普顿沿对于低道址计数的影响，其能谱信号特征提取示意图如图4b所示，提取出的信号特征信息均值列于表1。

表1 信号特征信息均值Table 1 Mean of signal feature information

a——脉冲信号；b——能谱信号

2.2 故障类别诊断

当探测器发生故障时，需先判断其故障类型，为此采用均匀取值法选取正常信号与3种故障信号特征各360组进行故障类别诊断，由统计方法得到的特征统计散点图矩阵如图5所示。

图5 特征统计散点图矩阵Fig.5 Characteristic statistical scatter matrix

在散点图矩阵中，四列特征分别表示信号幅值、下降沿时间、低道址计数和能峰位置，其最左边一列的X轴对应信号幅值，底行的Y轴对应能峰位置，因此矩阵左下方的散点图将信号幅值与峰值位置作为横纵坐标进行绘制，图中每个点的颜色取决于信号的类型。将统计的不同故障信号及正常信号特征放入到诊断模型中，k选取为10，对探测器进行故障类别诊断，诊断结果如图6所示。由散点图及混淆矩阵可知，利用诊断模型对闪烁体探测器进行故障类别诊断的准确率为100%，基于不同探测器故障所统计出来的信号特征具有较为明显的差异，该模型对故障类型做出了良好的区分判别，体现出该算法针对多分类问题的优越性。

a——散点图；b——混淆矩阵

2.3 故障程度诊断

探测器发生故障时，除了对故障类别做出判断外，还需对故障程度做出识别，通过故障程度识别可了解设备的故障发展趋势。以闪烁体老化故障为例，将发光效率在40%～80%定义为轻微故障，发光效率在40%以下定义为严重故障，对于轻微故障的探测器，工作人员可尽早安排检修修复，延长其使用寿命，而对于严重故障的探测器则需要及时更换。将统计的6种不同老化程度的故障信号特征与正常信号特征放入到KNN故障诊断模型中，设置k为10，加强幅值和峰值位置这两个特征信息的权重，进行核探测器老化故障诊断，诊断结果如图7所示。

利用诊断模型对探测器进行老化故障诊断时，不同程度的老化故障诊断正确率在98%～100%之间(图7b)，其均值为99.0%，造成该结果的原因是以10%为刻度标准的每级老化程度特征仍有个别特征样本存在相似性，导致了错分现象的产生。将统计的6种不同程度的光电倍增管故障信号特征与正常信号特征放入到KNN故障诊断模型中，其中光电倍增管峰值提取时提取方式改为局部500点最大值寻峰，同时由于噪声较大，在寻找下降沿时间时设置平滑点数为200，下降区域平滑点为50，容差为0.03，以此来降低噪声对特征获取的不利影响，同时在KNN算法中加强低道址计数的权重以更好地实现对此故障类型的诊断，其诊断结果如图8所示。

利用诊断模型对探测器进行光电倍增管故障诊断时，不同程度的光电倍增管故障诊断准确率在98%～100%之间(图8b)，其均值为99.1%，诊断错误率如混淆矩阵对角线外数值所示。造成该结果的原因是每级具有相似性的故障程度特征样本较多、散点较集中，加大了诊断分类的难度，导致类别的错分。将统计的36种不同程度的辐射损伤故障信号特征与正常信号特征放入到KNN故障诊断模型中，由于故障类型较多，类域的交叉过多且各类型的故障特征出现重叠部分，因此对加权KNN算法进一步优化，在邻点距离计算时舍弃前面故障诊断中所用的欧式距离，改用曼哈顿距离，即在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影距离总和，如在平面上，坐标(x1,y1)的点P1与坐标(x2,y2)的点P2的曼哈顿距离为：

d12=|x1-x2|+|y1-y2|

(6)

曼哈顿距离依赖坐标系统的转度，而非系统在坐标轴上的平移或映射，两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的曼哈顿距离为：

(7)

曼哈顿距离相对于欧式距离在特征数据重叠部分过多的情形下表现更好，能有效地降低因重叠而导致的误分类，针对于数据量相对于前两种故障过多的问题，将KNN算法中的k设置为15，以此降低过多特征交叉引起的分类误差，其诊断结果如图9所示。

a——散点图；b——混淆矩阵

利用诊断模型对探测器进行辐射损伤故障诊断时，不同程度的辐射损伤故障诊断准确率在82%～100%之间(9b)，其平均诊断率为92.5%，造成该结果的原因是本次分类样本较多且诊断输出类别较多、散点较集中，对最近邻样本的判定造成了一定程度的干扰，导致错分现象的产生。

2.4 诊断结果对比

对于核探测器故障诊断研究，文献[3]提出了一种基于小波包变换与支持向量机的核探测器故障诊断方法，文献[4]提出了一种基于小波包变换与BP神经网络的核探测器故障诊断方法，但二者基于小波包变化提取的特征不够直观，且只分析了核脉冲信号的输出参数，没有对能谱信号进行分析，存在数据分析不够全面的问题，因此有必要对SVM、BP神经网络、KNN 3种方法进行诊断结果的比较与分析，从而更加有效地指导实践应用。3种方法的诊断时间及准确率比较结果列于表2。可看出，KNN相对于SVM、BP两种方法的诊断准确率略低，但该模型更加简单、高效、复杂度低，其基于统计方法的数据预处理方式与小波包变换有所不同，且数据中包含了能谱信号，能对复杂数据进行诊断。3种方法的运用可最终形成系统化且优势互补的基于机器学习的核探测器故障诊断方法，针对于核探测器典型故障种类较多且所监测的核信号不仅包括核脉冲信号，还包括核能谱信号的情况，可先采用统计方法对信号进行预处理，然后选用基于KNN算法的故障诊断模型对信号进行诊断；若核探测器故障信号可获取的特征样本量较小，则可先采用小波包时频分析法对信号进行预处理，然后选用泛化能力较强的多分类支持向量机故障诊断模型对信号进行诊断；若对诊断准确率要求较高且在故障特征样本量较为充足的情况下，可选用非线性映射能力较强且具备自学习机制的BP神经网络故障诊断模型对信号进行诊断。因此，这3种方法各具优势，其综合应用可增强核探测器故障诊断系统的稳定性与适应性。

表2 诊断结果比较Table 2 Comparison of diagnostic result

3 结论

本文通过对闪烁体探测器输出的脉冲信号及能谱信号中的特征信息进行提取，利用机器学习中的KNN改进算法建立故障诊断模型对每组特征信息进行分类计算，通过优化邻点距离的计算公式、调整不同特征权重因子的方式解决特征类域重叠与交叉的问题，确定闪烁体探测器的故障类型及故障程度。该方法对故障类别的诊断准确率为100%，对故障程度的诊断准确率均达92.5%以上，且具备快速、特征直观、对异常值不敏感，能同时对核脉冲信号及能谱信号分析等特点，研究结果表明，该方法能实现对闪烁体探测器的智能故障诊断，且在实际过程中有较高应用价值。