轮对压装曲线中异常点数据的处理方法

时间：2024-07-29

肖峻，李光海，韩建斌

（武汉理工大学机电工程学院，湖北武汉 430070）

轮对是机车和车辆走行机构的主要部件之一，是由一根车轴与两个车轮以及齿轮、制动盘等组成的完整装置。车轴与车轮、齿轮、制动盘采用过盈配合的连接方式，通过压装的方法组成轮对。在轮轴压装过程中，压装曲线（即压力－位移曲线）是反映压装质量的重要评判依据［1］。

在目前广泛使用的数控轮对压装机中，压装压力信号是由计算机数据采集系统采集到的一系列具有固定时间间隔（采样频率固定）的数字时序信号。理想情况下，采集到的数字时序信号与压装过程中的压装压力是一致的，但是由于实际应用场合存在一定的干扰（突变的电、磁场或其他因素），使采集到的压力数字时序信号夹杂有信号突变，即异常点［2］。这些异常点并不能反映油缸压力的真实变化，如果不对其加以剔除，会使压装曲线失真，造成对压装质量的误判。

1 异常点对压装曲线的影响

以某台数控轮对压装机为例，其压装曲线是通过压力传感器和位移传感器采集到的数据经过数字滤波后绘制的。图1为某一轮对中左轮的压装曲线，曲线在压装位移大约42 mm处出现了降吨凹槽，依据TB/T1718－2003《铁道车辆轮对组装技术条件》中关于轮对压装的判断标准，该车轮压装不合格。为了寻找造成该现象的原因，需要对采集信号做进一步分析。

图1 某一轮对的压装曲线

在压力－位移曲线中，将出现降吨凹槽的部分放大显示，如图2所示，可以看到，在42 mm之前，压力信号匀速上升，之后，有3个数据（O1、O2、O3）陡然变化，由 300 kN降到数据 O1（270 kN），然后又急速上升到O2（281 kN），再急速上升到O3（296 kN）。然而，反映压装过程中压装压力的动态压力信号是连续变化的，经过等间隔的数据采集后获得的压力时序信号，其数据间的变化不应该有突变。因而，可以断定，此处数据的急速突变并不是压装过程中压力变化的真实反映，而是干扰数据点，应该予以剔除。

图2 信号突变位置

2 数据异常点的挖掘方法

异常点产生的原因有很多，从不同的角度，可以将异常点分为如图3所示的几种类型［3］。

图3 异常点分类

比较常用的异常点挖掘方法有以下几类:

（1）基于统计模型的挖掘方法。其思想主要来自于统计学，统计中常用的方法是:对于给定的数据集合，先假设一个分布（如正态分布），然后根据该分布模型，采用不一致的原则对异常点进行检验挖掘。这种方法的缺陷在于，需要事先知道数据集的数据模型、分布参数和估计的异常点数目。由于统计学方法要求预先知道关于数据集合参数的知识，例如数据分布，但许多情况下，数据分布是未知的，尤其是在没有特定检验的情况下，因此统计学方法不能发现所有的异常点，或者观察到的分布情况过于特殊，不能用标准分布来建模描述。

（2）基于距离模型的挖掘方法。基于距离的异常点DB（p，d）的定义:如果数据集合中至少有p部分对象与对象O的距离大于d，则对象O是一个带参数 p、d 的基于距离的异常点，即 DB（p，d）［4］。

由异常点的定义可看出，DB（p，d）统一了异常点的概念，对异常点的判断方法也比较明确，例如，设存在一个正态分布数据集，如果数据集中存在与均值之间的距离大于或等于3倍偏差的数据对象，则被认为是异常点。

直观而言，如果不依赖于统计检验，可将基于距离的异常点看作是那些没有足够多邻居的对象，此处邻居是基于给定对象之间的距离定义的。目前，该领域研究人员提供了若干高效的基于距离的异常点挖掘算法，比较有代表性的是基于索引的算法、嵌套－循环算法和基于单元的算法，这些算法的主要特点是以对象间的距离作为相似性度量。

基于距离模型的异常点挖掘方法概括了基于统计模型的异常点的含义，并且对相对高维数据集有较好的挖掘效果，然而，当数据集由不同密度的子集混合而成时，基于距离的异常点挖掘效果并不好。

（3）基于密度模型的挖掘方法。Hawkwins异常点的定义如下:异常点是其值明显地偏离了其他测量值，使人们对其真实性产生怀疑的点［5］。

图4为一个二维数据集的例子，该数据集包含两个聚类 C1、C2和两个异常点 O1、O2，虽然O1、O2都为异常点，但是有区别，O1是局部异常点，O2是全局异常点。根据所提到的算法，O2异常点特征明显，容易挖掘，而O1异常点却比较难挖掘出来。

图4 一个二维数据集

从上面的例子可看出，基于距离的异常点定义DB（p，d）在一些特定的情况下是准确和充分的，但如果数据聚类密度存在不同的单元，就会出现问题。为了有效解决这个问题，基于密度模型的局部异常点挖掘算法被提出，从而保证可以判断出O1和O2在数据集中都是异常点。

基于密度的诊断方法引入了度量单位，即局部离群系数LOF用来表示一个数据集中数据的离群程度，正常数据的LOF基本上都近似等于1，因此它们不是异常点。根据局部异常点的定义及特征，可通过对数据集中LOF的计算来确定异常点，只要一个数据对象的LOF远大于1，它很有可能是一个异常点，应该引起注意或者予以剔除。但是，基于密度的诊断方法仍然存在一定的问题，在数据量较大时，处理时间比较长，效率比较低。

（4）基于相似度的挖掘方法。随应用领域的不同，数据集相似度的定义也不同。例如，两个量的变化速度（斜率描述）保持一致；波形允许在一定范围内漂移、伸缩。这种诊断方法，可以大大减少计算量，提高效率。但相似度的确定仍是一个难点。

3 增量均值法

在介绍增量均值法之前，先给出以下定义:

定义1 （时间序列）时间序列是一组或多组由记录时间和记录值共同组成的元素有序集合，记为 X=〈x1=（t1，v1（t1）），x2=（t2，v2（t2）），…，xn=（tn，vn（tn））〉，元素 xi=（ti，vi（ti））表示时间序列在ti时刻的记录值为vi（ti），记录时间ti是严格增加的（i＜ j⇔ti＜ tj）［6］。

在笔者所采用的压力数据采集系统中，时间序列的采样间隔Δt=ti－ti－1相等（采样周期为70 ms），可以认为t1=0，Δt=1，此时将压力信号时间序列 X=〈x1=（t1，v1（t1）），x2=（t2，v2（t2）），…，xn=（tn，vn（tn））〉简记为 X=〈x1，x2，…，xn〉。用x（i）代表时间序列 X=〈x1，x2，…，xn〉中的第 i个元素xi。

定义2 （元素距离）元素xi与元素xj的距离是指它们的序列号之差的绝对值|xj－xi|，记为d（i，j）。

定义3 （k－邻域）压力信号时间序列X=〈x1，x2，…，xn〉中的元素 xi的 k －邻域是指以元素xi为中心，与xi的距离不超过k的所有元素的集合，记为 Nk（xi）［7］。

定义4 （压力增量绝对值）压力增量绝对值是指压力信号时间序列 X=〈x1，x2，…，xn〉中的元素xi相对于其前一个采样点的变化量的绝对值，记为|Δxi|=|xi－ xi－1|（i=2，3，…，n）［8］。

图5 压力变化量分布

正常情况下，压力信号是连续均匀变化的，相邻数据的变化量在一定的范围内。以上述车轮的压力数据为例，将压力数据中相邻元素的压力增量绝对值|Δxi|计算出来，如图5所示，横坐标为元素序列编号，纵坐标为元素相对于其前一个元素的增量绝对值。从图5中可以看出，正常情况下，压力增量绝对值在一定的范围微小波动，当有外界干扰时，压力增量绝对值陡增，超出了正常的波动范围（10 kN左右）。因此，可以通过设定适当的压力增量绝对值阈值Wi来识别异常点。当|Δxi|≥Wi时，则认为xi为压力数据序列X中的异常点，应予以剔除。由此可见，Wi的取值是非常关键的。Wi取值过小，剔除效果不明显，异常点对压装曲线的影响大，从而可能导致压装质量的误判。Wi取值过大，则有可能将反映压装过程的真实压力数据剔除，造成压装曲线失真［9］。

增量均值法定义:对于压力时序信号X中的元素xi，求出其Nk（xi）邻域内所有元素压力增量绝对值的均值，再乘以系数m来确定阈值Wi，当|Δxi|≥Wi时，则认为xi为压力时序信号X中的异常点，应予以剔除。和Wi可表示为:

式中，m为经验取值系数，m值的确定可以通过多次的试验来获得。

信号中的异常点xi去除后，可用该异常点前面的数据 xi－1加上增量均值替代，即:xi=xi－1+［10］。

经过对大量压装压力数据的试验分析，最终确定m=3，k=10，可以得到最佳的剔除效果。