当前位置:首页 期刊杂志

ELMs和SVMs在多分类问题上的泛化性能比较

时间:2024-05-04

卢欣欣 潘丽平

1(周口师范学院计算机科学与技术学院 河南 周口 466001)2(农产品质量安全追溯技术河南省工程实验室 河南 周口 466001)3(周口科技职业学院 河南 周口 466001)

0 引 言

由于科技的飞速发展,猛增的数据量和大幅提升的计算性能使得多分类问题越来越多地代替二分类问题,并在文本分类识别[1]、语音识别[2]、医学图像识别[3]等方面取得了良好的应用前景,已经成为模式识别、数据挖掘等领域的重要研究内容。

SVM是Vapnik[4]基于统计学习理论提出的最优间隔分类器,其良好的泛化能力、全局最优解和解决非线性问题的能力使其成为应用最为广泛的分类器[5-6]。但原始SVM并不适用于多分类问题,Weston[7]最先改进SVM使其成功应用在多分类问题中。最小二乘支持向量机(LSSVM)[8]是SVM的简化和改进形式,避免了原始SVM求解二次规划的问题,提高了训练速度,Suykens[9]将LSSVM扩展到多分类问题中。

ELM是Huang[10]提出的一种快速算法,它将隐层节点权值随机确定,只需计算输出层权值,从而大大加快了网络的训练速度,并且ELM本质上可直接应用于多分类问题,因而取得了广泛应用[11-13]。核极限学习机(KELM)是Huang[14]为解决ELM结果具有随机性而提出了基于核函数的改进算法,在遥感图像分类[15]、基因检测[16]等方面取得了良好的分类效果。

由文献[17]可知:ELM和SVM均是基于单隐含层前馈神经网络框架,而LSSVM是ELM简化的框架结构;ELM通过最小平方优化法可扩展为SVM网络,且具有更好的泛化性能。ELMs和SVMs均可实现相当的分类准确率,但在不同的问题条件下也表现出不同的特性[18-19]。研究发现:经典的ELM算法与SVM算法相比具有训练速度快、适应性强等优势;SVM算法需要花费相对更多的训练时间;LSSVM的训练算法比SVM的训练算法简单,训练精度与SVM相当或超过SVM,但对新数据的应用却要对整个训练集进行处理。

本文通过在UCI数据集上的对比验证,详细探讨了ELMs和SVMs在多分类问题上的分类准确率、对类别的敏感程度和算法运行时间等性能指标,并给出相应分析和结论。实验表明,随着分类数目的增加,ELMs的泛化能力相较于SVM提高得更多。

1 ELMs和SVMs简介

1.1 支持向量机(SVM)

SVM是指通过支持向量运算的方式进行分类的分类器,是一种基于统计学习理论的有监督机器学习算法[20],通常用来解决线性分类问题和非线性分类问题。其处理分类问题的典型模式是寻找使各类别分类间隔最大的最优分类超平面,给定一组数据作为对应的类别标签,则由文献[4]可得SVM求解如下优化方程:

(1)

s.t.ξi≥0,yi[wTΦ(xi)+b]≥1-ξi∀i

式中:Φ为特征映射函数,w为超平面参数,ξi为分类软间隔,C为离群点惩罚因子。

使用KKT[21]条件,则式(1)通过拉格朗日乘数法转化为原形式的对偶问题来进行求解:

(2)

式中:αi,βi≥0为拉格朗日乘数子,通过对w、b、ξi分别求偏导可得:

(3)

则式(2)可转化为:

(4)

最终的最优分类超平面的解为:

(5)

在使用SVM对线性分类问题求解时,分类效果对惩罚因子的选择依赖较大,而在使用SVM对非线性分类问题求解时,核函数的形式和其参数对高维映射的效果影响较大,因此SVM在处理分类问题时还存在一定的局限性。

1.2 最小二乘支持向量机(LSSVM)

LSSVM与SVM思路基本一致,是SVM的一种演变。LSSVM是由原来的不等式约束演变成了等式约束,主要用来解决等式约束下的优化问题,其次LSSVM与SVM的最显著区别在于LSSVM在求解时使用最小二乘损失函数:

(6)

s.t.yi[wTΦ(xi)+b]=1-ξi∀i

同SVM,式(6)可转化为拉格朗日函数来进行求解:

(7)

由式(7)分别对w、b、ξi、αi求偏导得:

(8)

将式(8)中前三个等式代入第四个等式,可得:

(9)

式中:Y=[y1,y2,…,yN]T,α=[α1,α2,…,αN]T,Z=[y1Φ(x1),y1Φ(x2),…,yNΦ(xN)]T。

令Ω=ZZT,根据Mercer条件,有:

Ωi,j=yiyjκ(xi,xj)

(10)

将式(10)代入式(9),求解线性方程,得到的结果与式(5)相同。

与SVM相比,LSSVM算法求解速度更快,但其预测精度比SVM稍差。

1.3 极限学习机(ELM)

ELM是一种基于单隐含层的人工神经网络模型求解算法[10],它的优势是仅需设置隐藏层节点数,使用最小二乘法求解隐含层到输出层的权值即可,不需要进行循环迭代。与BP神经网络等相比,ELM具有快速学习、高准确度、泛化能力以及尽可能地减少人工干预等特点。ELM的目标是最小化训练误差的同时最小化输出权值的范数来求解单隐层前馈神经网络[10]。

有L个隐层节点、N个数据点的ELM的隐层节点输出矩阵H可定义为:

在静力分析中,除了应力分布图外,管道的位移形变图也是作为衡量管道是否安全的一个重要指标。管道的位移形变主要是其管道所受载荷与管道的约束之间相互作用的结果。倘若管道所受载荷过大,超过了管道约束力并且超过了管道材料的屈服极限,那么就会造成管道的极大弯曲甚至破裂,最终造成泄漏甚至爆炸等事故[6]。

(11)

式中:h(·)为隐层单元激活函数,W=[w1,w2,…,wL]为隐层单元随机确定权值,B=[b1,b2,…,bL]为隐层和输出层之间偏置。

则ELM可被定义为如下形式:

(12)

式中:β为隐层和输出层之间权值,Y=[y1,y2,…,yN]∈{-1,1}为样本标签,ξ=[ξ1,ξ2,…,ξN]为预测误差矩阵,C为惩罚因子。

由式(12)可得β为:

(13)

式中:H+为H的Moore-Penrose广义逆矩阵。

最终ELM的解为:

(14)

1.4 核极限学习机

为进一步提高ELM的稳定性和泛化能力[14],将核函数的思想引入ELM,从而构成核极限学习机(KELM)。与ELM相比,KELM用核映射的方式取代随机映射,有效解决了“维数灾难”和随机设置隐藏层参数带来的稳定性差的问题,从而降低计算复杂度。KELM多用于特征学习以及多分类问题当中。KELM可表示为:

(15)

2 实验与结果分析

2.1 实验数据

表1 实验数据集的基本信息

续表1

为了消除各维数据间数量级差别,避免因为输入输出数据数量级差别较大而引起的训练误差,本文对所有的输入数据均进行了如下的归一化处理,将数据归一化到[0,1]区间:

xk=(xk-xmin)/(xmax-xmin)

(16)

式中:xmin为数据序列中的最小值,xmax为数据序列中的最大值。

2.2 实验环境简介

本文所使用SVM程序来自libsvm-3.12,LSSVM程序为LS-SVMLab-1.7,ElMs程序来自极限学习机官方网站,程序运行环境为:MATLAB R2010b,Windows 7系统。

2.3 实验结果分析

2.3.1单一数据集(Amazon)结果分析

为了对比ELMs和SVMs在多分类问题上的泛化性能,首先选取Amazon数据集进行实验分析。对Amazon数据集采取逐类增加的方式,类别数目从3类依次增加到10类,分别记录ELMs和SVMs的分类准确率。数据集采取独立随机划分的方式,每次选取70%的数据作为训练集,余下30%作为测试集,并进行十次独立划分,分别计算ELMs相对于SVMs在不同类别数目下的平均分类准确率,实验结果如表2所示,ELMs相较于SVMs分类准确率增长情况如表3所示。

表2 ELMs和SVMs在Amazon数据集上随着类别数目增多平均分类准确率 %

表3 在Amazon数据集上随着类别数目增多ELMs相较于SVMs分类准确率增长情况 %

为清晰展示实验结果,根据表3的结果绘制了ELMs相对于SVMs在各类别泛化能力增长情况图,结果如图1所示。

图1 在同一数据集Amazon下不同类别划分ElMs相较于SVMs泛化性能比较

由表3及图1可得如下结论:

(1) 对于Amazon数据集,ELMs分类器在各类别上的分类准确率均优于SVMs分类器;

(2) ELMs相较于SVM在多分类问题上随着类别数目的增加泛化能力也越来越好,并且KELM泛化能力要稍优于ELM;

(3) ELMs相对于LSSVM并没有表现出(2)中的特性,而是随着类别数目的增加,ELMs相对于LSSVM的泛化能力呈现出明显的波动性。

分别统计ELMs和SVMs随类别增加分类准确率的下降情况,结果如表4所示。

表4 ELMs和SVMs随类别增加分类准确率的下降情况

类数SVMLSSVMELMKELM3vs300004vs3-2.46-1.34-1.05-0.84

续表4

类数SVMLSSVMELMKELM5vs4-2.03-0.64-1.65-1.536vs5-0.64-1.010.17-0.177vs6-0.840.89-0.86-0.128vs7-0.75-1.060.11-0.529vs8-3.46-3.38-3.65-2.4710vs9-0.81-0.360.67-0.21平均值-1.38-0.86-0.78-0.73

表4可直观表示成图2形式。

图2 ELMs和SVMs随类别增加分类准确率的下降情况

由表4和图2可知:随类别数目的增加,ELMs分类准确率的下降速率要明显比SVMs缓慢,说明ELMs对类别数目变化不敏感,更适用于多分类问题。ELMs相较于SVMs在同一数据集上分类稳定性更好,对数据集的宽容度更高。这样的性能表现与其理论密切相关:SVMs依赖于高维空间映射的准确性,在类别数目较低时更容易对应映射空间找到最优解,而随类别增加高维映射难度增加,分类准确率降低。ELMs不需要复杂映射,仅需找到对应隐层节点对应权值即可取得最优解,从而减少了其对类别数目增长的所带来的性能损失。

为探究ELMs和SVMs算法的训练和测试速度,分别统计了各算法在各类别下的平均运行时间,结果如表5所示。

表5 ELMs和SVMs在各类别下平均运行时间 s

续表5 s

由表5可知:

(1) ELMs和SVMs随着类别数目的增加(即样本数目增加),运行时间均有所增加,SVMs算法运行时间增长幅度明显大于ELMs。

(2) SVMs对一个分类问题需要进行复杂运算从而得到最优高维映射的所有解,而ELMs仅需计算较少参数即可得到较好的分类准确率,有效降低了运算开销。KELM在各类别下的运行时间均最短,所需运算负荷最小,适用于快速分类。

2.3.2多数据集结果分析

为进一步探究ELMs和SVMs在多分类问题上的性能差异,选取Iris等7个多分类数据集进行实验验证,结果如表6、表7所示。

表6 ELMs和SVMs在不同数据集上随着类别数目增多平均分类准确率 %

表7 在不同数据集下ELMs相较于SVMs分类准确率增长情况 %

为清晰展示实验结果,根据表7的结果分别绘制了ELMs和SVMs在各类别的分类准确率图和ELMs相对于SVMs在各类别泛化能力增长情况图,结果如图3所示。

图3 在不同数据集下ELMs相较于SVMs泛化性能比较

由表7及图3可得如下结论:

(1) 将图3和图1进行对比,可看出两图呈现出一致的趋势,说明ELMs相较于SVMs在多分类问题上性能一致性更好;

(2) ELMs在所有数据集上均取得优于SVMs的分类准确率;

(3) 不同数据集下,随着数据集的类别数目的增长,ELMs相较于SVM也同样获得了如单一数据集时更好的泛化能力,但是对于LSSVM上述结论并不成立,ELMs相较于LSSVM的泛化能力依然呈现出波动性,相关问题的原因可做进一步研究。

3 结 语

本文详细比较了ELMs和SVMs在多分类问题上泛化性能的差异,并且得出如下结论:(1) ELMs相较于SVM在多分类问题上有更高的分类准确率,而且随着分类数目的增加,ELMs的泛化能力相较于SVM提高更多,但是ELMs对于LSSVM并没有得到上述结论;(2) ELMs相较于SVMs对数据的类别数目不敏感,分类准确率随类别数目增加下降不明显;(3) ELMs相较于SVMs在多分类问题上所需计算代价更小,且拥有更快的学习和训练速度。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!