时间:2024-08-31
丁琪军,朱松青,杨 南
(南京工程学院机械工程学院, 江苏 南京 211167)
随着城市交通运输压力的增大,乘坐公共交通工具特别是公交车(大巴车)成为解决城市交通拥挤的重要方案之一.大巴车的安全与可靠性是城市公共交通保持健康稳定运行的重要环节[1].大巴车门作为除动力系统外最重要的核心部件,其安全与可靠性备受关注.
目前,大巴车电动门系统基本不存在状态监控,仅以门结构末端的机械装置发出电信号提供开关状态的感知,对整个开关门过程及过程中遇到的故障情况缺乏监测.电动门通过检测电机信号实现状态感知,不涉及门机械及传动结构,无法判断机械故障,存在状态感知准确性低、时效性差、稳健性不强的问题.
当前,基于神经网络、支持向量机、深度学习、迁移学习等方法的大巴车状态监测系统逐渐成为主流,支持向量机、深度学习对样本数据特征参数要求较高,基于神经网络对样本数据训练能力差,预测能力不足且容易产生过拟合现象[2-5].为解决上述问题,本文提出采用基于改进随机森林算法的大巴门状态监测系统,以大巴门驱动电机电流、速度、方向、车门的起始位、锁到位信号重复周期为识别特征向量,首先从大巴门电机采样的样本中抽取数据集,将数据集划分成训练集和测试集,然后通过训练集构建随机森林模型投票判断得到最终识别结果[6].该方法有效避免了样本参数的处理要求高和样本数据训练能力差、预测能力不足、容易产生过拟合等问题.
大巴门系统作为城市公共交通的重要系统之一,对门运行状态监测准确度要求高(95%以上).当前较为常见的随机森林算法精确度大约在70%~80%[7].因此,基于大巴门状态信息,改进并优化监测系统进一步提高算法预测准确率是大巴门状态监测系统研究的核心要求.
通过大巴门电机的采集系统采集电机原始数据,电流、速度、方向、起始位、锁到位重复周期为识别特征向量,通过电流大小判断是否正常,速度大小和变化判断大巴门的运行状态,电机转速方向判断大巴门是开门还是关门,起始位和锁到位信号判断大巴门是完全开启还是完全关闭.以这5种大巴门电机特征参数为基础,分别测得正常开门(代号0)、正常关门(代号1)、开门故障(代号2)、关门故障(代号3)四组标签数据.
通过电机信号采集单元采集对应驱控一体化电机的各项运行参数,进行实时数据采集,分析其主要影响参数.由下位机采集的数据经数据网关进行传输,云平台存储数据,实现对车门的实时监测,如图1所示.
图1 远程监测实现基本架构
(1)
式中:Y为最终归类的结果;H(x)为组合分类模型;hk(x)为单个决策树分类器;y为单个决策树分类器归类的结果;I(·)为示性函数.
本文考虑大巴门状态监测系统需要的准确率高,建立优化随机森林单棵决策树的节点分类算法,达到提高结果精确度的目的.单棵决策树节点分裂最常用的两种算法是C4.5算法和CART算法,这两种算法的信息增益虽然都致力于表征决策变量的重要性,但计算公式略有差异.
C4.5算法基于信息增益划分特征空间,逼近离散函数值,适应性强.其计算流程为:
1) 计算样本纯度指标信息熵:
(2)
式中:D为样本集;m为样本集分类数;Pi为第i类样本在样本集所占比例.
Info(D)的值越小,样本集的纯度越高.
2) 计算样本的信息增益:
(3)
3) 描述节点分裂时的信息,公式为:
(4)
该值表示数据集D按属性A测试的V个划分产生的信息.
4) 信息增益率:
(5)
CART算法通过Gini指标对特征空间进行二元划分,划分精确.CART算法产生的决策树为二叉树,其节点分裂时使用Gini指标来衡量,计算流程为:
1) 计算样本Gini指标:
(6)
式中,Pi为类别C在样本S出现的概率.
2) 计算每个划分的Gini指标,如果S被划分为两个子集S1和S2,则此次划分的Gini指标为:
(7)
式中:|S|为样本集S的样本个数;|S1|、|S2|分别为子集S1、S2的样本个数.
文献[8]根据C4.5算法和CART算法中相似的变量参数、相近的计算过程将其混合成一个算法,生成的算法具有两种算法的优势,称为混合随机森林算法[9],但该方法的广义适应性有所欠缺.
本文在文献[8]混合随机森林模型的基础上提出一种基于广义信息增益Π(α)的节点划分指标,广义信息增益定义为:
Π(α)=GELU(Ψ(α))=Ψ(α)P(X≤Ψ(α))=
Ψ(α)Φ(Ψ(α))
(8)
GELU是输入函数值及累积分布函数的乘积.当输入函数值趋向于负无穷时,其通过高斯分布判断的概率就越低,累积分布函数的取值趋近于0,乘积就趋近于0,从而达到排除在某些权重取值下出现较大负数的情况.该结果从数学上可以证明(见图2).由于引入了一个随机判断,模型训练过程中的鲁棒性得到了加强,适应性更高.
图2 修正函数
采集大巴门电机参数生成包含电流、速度、方向、车门起始位、锁到位信号重复周期为识别特征参数,图3为算法建模过程.试验获得正常开门(代号0)、正常关门(代号1)、开门故障(代号2)、关门故障(代号3)四种状态下的5种参数作为训练样本,进行决策树建立;采用Bagging有放回的随机抽样,计算每一个属性的广域信息增益,取最大值为初始节点划分,判断划分出的节点其广义信息增益是否大于0,若不大于0生成叶子节点,大于0则继续划分一直到不能分裂为止;之后重复操作直到建立所有决策树;然后汇总投票得到改进随机森林模型.建立大量的决策树组成改进随机森林算法.将测试集带入改进随机森林模型,进行层层决策,得到输出结果为判断大巴门运行状态相较于实际状态的准确率.
图3 改进随机森林算法建模
构建大巴门测试平台,将电机控制程序导入后,连接电机与大巴门台架的导轨丝杆电路.通过电机内部BLDC电路、霍尔元件和起始位、锁到位信号采集电流、速度、方向、起始位、锁到位重复周期为识别特征参数.通过这5个特征参数判断电机状态从而映射大巴门运行状态.分别测得正常开门(代号0)、正常关门(代号1)、开门故障(代号2)、关门故障(代号3)四组标签数据,每组数据由大约1 900个电机参数样本构成.将样本数据按照8∶2比例划分训练集和测试集.
为验证基于改进随机森林算法的大巴门状态监测系统的有效性,将总共大约7 600组原始样本数据导入改进随机森林模型,使用4组数据对基于随机森林算法的大巴门状态监测系统进行分析.程序运行软件为Anaconda,部分结果如表1所示.
表1 前10组大巴门运行状态的特征参数
电机数据采集的原始数据为离散型数据,时间间隔为1 ms.当数据呈现为离散型属性时,不需处理就可以直接使用.
将数据整理后,去掉缺失数据,得到7 600组数据,训练集与测试集按8∶2比例划分,引入至随机森林模型程序运行,结果如图4所示.由结果可算出随机森林算法精确度结果为0.72.将数据导入混合随机森林模型,结果如图5所示.混合随机森林存在Ψ(α)为负的情况,Ψ(α)为负结果没有意义.
将处理好的相同数据引入改进随机森林模型,得到输出结果见表2.由表2可知:
1) 改进随机森林算法部分精度在大巴门状态检测方面精度较高;
2) 当β1的值为0.8、β2的值为0.2时,改进随机森林算法所得到的精确度最高,其值高于单个C4.5算法和CART算法得到的结果(见图6),因此可使用改进算法提升随机森林算法的精确度,从而达到某些特定的要求;
3) 随机森林算法测试的精确度最佳结果为0.72,改进随机森林算法测试的精确度最佳结果为0.99,在大巴门状态检测有明显提升;
4) 由序号5—9这五组数据所得的精确度结果可知,Gini指标的比重相较于GainRatio权重更大.
(a) 随机森林混淆矩阵
(b) 随机森林ROC曲线
(a) 混合随机森林混淆矩阵
(b) 混合随机森林ROC曲线
表2 改进随机森林算法测试结果
本文提出基于改进随机森林算法的大巴门状态检测研究.由大巴门电机的电流、转速、方向、起始位、锁到位5个参数判断大巴门运行状态,这5个状态参数与大巴门运行状态紧密联系.改进随机森林算法通过采样大巴门不同运动状态下电机的5个参数作为样本; 然后使用所得样本数据建立改进随机森林模型; 当有新大巴门电机特征参数测试集输入时,改进随机森林算法对新的特征数据进行训练和测试;最终通过随机森林模型的投票方式进行决策判断.通过试验分析和不同随机森林模型所得结果比较,证实改进随机森林算法不仅能够达到优于随机森林算法的准确率,而且克服了混合随机森林的局限性,可为大巴门状态监测系统工程应用提供有益的借鉴.
(a) 散点分布图
(b) 混淆矩阵
(c) ROC曲线
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!