时间:2024-05-18
罗雅晨
类别不平衡的集成学习预测P2P网贷信用风险
罗雅晨
(同济大学经济与管理学院,上海 201804)
国内的P2P网贷行业经监管整治后呈现出越来越重视线上风控的趋势,机器学习等技术被广泛应用于构建信用评价体系。而违约的和正常还款的样本类别不平衡是建模的一大难点,有针对性地构建了一种比例平衡的随机森林模型(Ratio-balanced Random Forest)。模型对多数类进行多次欠采样,和少数类合并生成多个比例均衡的样本子集,再融合随机子空间添加属性扰动,最后利用随机森林构建集成的分类器模型。在拍拍贷真实借贷数据集上与机器学习单模型、集成模型和平衡的集成模型三类方法做对比实验,结果验证了该模型的有效性,并指出平衡的集成模型方法在解决不平衡分类问题上的优越性。
P2P网络借贷;信用风险;违约预测;类别不平衡
随着大数据技术的高速发展,传统金融也更多融入了互联网思维,这其中的典型就是P2P网络借贷。P2P是“Peer to Peer”的缩写,即个人对个人的借贷,指出借人与借款人之间通过网络借贷平台而非金融机构产生的无抵押贷款[1]。
截至2018-04,中国累计P2P网贷平台数量达到6 114个,但尚在运营的只有1 877个,这是由于2016年政府出台了一系列管控政策,淘汰了一大批资质不全的问题平台,并指出平台不得提供担保,应秉承小额分散原则,采用信息中介这样的发展模式。
在这种发展模式下,平台对于借款标的的风险控制变得尤为重要。平台风控系统对每笔借款是否会违约做出预测,并决定是否审核通过,符合机器学习中的二分类问题。于是各种统计学方法大量被用于P2P网贷领域。王会娟以人人贷为例,使用因子分析和回归模型分析了信用认证指标和机制及其对借贷行为的影响[2]。进一步的,机器学习方法也被逐渐应用到该分类预测问题中。裴平则利用了机器学习中的贝叶斯网络建立借款人信用评价模型[3]。
但是由于违约贷款和正常还款贷款的样本数量是高度不平衡的,仅考虑分类准确率是不全面的,而直接套用一般的机器学习模型更有可能导致实验失败。类别不平衡问题已被列为数据挖掘的十大最有挑战性难题之一。因此近期有学者针对此问题提出一些方法,尤其是集成学习。Gang Wang提出结合Bagging和随机子空间的两种集成模型,并在UCI德国和澳大利亚信用数据集上验证[4],陈启伟等提出一种考虑代价敏感和类别不平衡并引入多种参数扰动的集成学习的模型,给出用户信用分数[5],但其实验在UCI德国数据集上进行,未在中国平台上验证。
可知在不平衡的中国P2P网贷数据建立信用评价模型方面研究还很少,因此本文致力于弥补这一缺口,有针对性地构建了一种比例平衡的随机森林模型(Ratio-balanced Random Forest)。在拍拍贷真实借贷数据集上与机器学习单模型、集成模型和平衡的集成模型这三类方法做对比实验,并取得较好的结果。
目前解决类别不平衡问题的方法主要分为数据层面和算法层面。在数据层面主要是基于过采样和欠采样的重采样技术,在算法层面结合了代价敏感的分类算法和集成学习。
在数据预处理过程中,重采样是一种常用的方法,即对不平衡的两类数据重新进行人工采样使之达到平衡,主要包括过采样和欠采样。对少数类的过采样可以通过简单复制原始样本,使少数类样本量与多数类持平。欠采样技术主要也分为两类,一类是简单随机删除多数类中的样本,使两类样本趋于均衡;另一类通过各种算法进行有选择性的抛弃样本。
Boosting是一种串行地将一系列弱学习器组合成强学习器的集成学习算法。通过在每轮调节样本分布,提高被错分样本的权重,使其在下一轮训练中更有可能被抽取,如此重复从而得到最终的加权分类器。
Bagging是另一种并行的集成方法。基于bootstrap(自助采样法,即有放回的抽样)抽取个训练集,相应构造个基学习器,再将这些基学习器组合,对于分类任务,最后通过简单投票得出结果[6]。如果在Bagging构造基学习器之前或之中对样本进行重采样使之平衡,则可以得到不同平衡的集成学习算法。这类算法每个平衡的子集只含部分数据,但从全局来看,却不会丢失信息。
近两年,集成学习方法开始被用来解决P2P网贷中的类别不平衡问题。例如陈启伟等提出一种考虑代价敏感和不平衡的多种参数扰动的结合GBDT和Bagging的模型,做用户违约概率的回归预测[5]。
平衡的随机森林(Balanced Random Forest ,BRF[7])是基于随机森林算法,针对类别不平衡问题做出的改进算法,过程描述如下:①对于随机森林的每轮迭代,对少数类进行bootstrap采样,相应地从多数类中有放回的取样等量样本,组成样本子集。②从样本子集中生成不剪枝的CART分类决策树,在树的每个节点划分时,只从随机挑选的部分属性集里寻找最优划分属性,而不是搜索属性全集。③重复以上两步直至规定时间,整合各决策树预测结果并做出最终预测。集成学习追求基分类器的“好而不同”[6],决策树在大多数分类任务中都是一个不错的学习器。BRF的bootstrap抽样带来数据样本扰动,划分节点时带来属性扰动。又由于决策树是数据敏感的,所以不同的样本集会生成很不相似的决策树,因此能保证基分类器的多样性。但BRF模型也存在一些缺点,bootstrap采样会带来一些重复样本,而剩余的包外样本没有得到充分利用,结合P2P网贷情景来看,违约样本量本就稀少,再舍弃一部分可能造成关键信息丢失,从而弱化基分类器。再加之BRF初始构建样本子集时为重采样至两类平衡,但会改变数据本身的分布,过度突显少数类的特征。尤其在信贷场景下,借款的批准与否以利润为导向,而不是单纯预测准确率导向,如果为了尽量减少违约风险而拒绝大量正常借款,也会降低整体利润。
鉴于现有研究存在以上问题,本文基于BRF模型,做出如下改进:①为了使基分类器多样化,在生成每棵决策树之前,运用随机子空间(Random subspace method,RSM[8])抽取部分特征而不是用所有特征来训练每个分类器,添加了输入属性扰动,也可以进一步减小训练模型时的搜索空间,节省时间和内存。②将欠采样出类别平衡的子集改为构建不同类别比例的子集,增加输入数据样本的扰动。可根据具体应用实例调整类别比例值,使分类器具有偏好,调和对类别特征的抓取关注度。③使用Bagging并行地集成CART决策树,所以算法的时间复杂度与训练单棵决策树为同数量级。在保证高预测性能的同时,简化模型框架,使之具有更强的可用性和更广的适用范围。
本文提出的比例平衡的随机森林模型(Ratio-balanced Random Forest)框架如图1所示,算法过程伪代码如表1所示。
图1 比例平衡的随机森林模型(Ratio-balanced Random Forest)框架图
本文采用拍拍贷平台上2016-09—2016-10发布的共99 215条借款标的信息。包含Listing Id、借款金额、借款期限、借款利率、借款成功日期、初始评级、借款类型、是否首标、年龄、性别、手机认证、户口认证、视频认证、学历认证、征信认证、淘宝认证、历史成功借款次数、历史成功借款金额、总待还本金、历史正常还款期数、历史逾期还款期数、标当前逾期天数、标当前状态,共计23个属性指标。在输入模型训练之前,应对样本进行数据清洗,清洗后的数据集共有98 597个样本,其中正例96 816个,反例1 781个。样本不均衡比为54∶1,属于类别高度不平衡的数据集。
对于类别不平衡的分类问题,单纯使用错误率、精度、查准率、查全率等指标是不恰当的。例如一个数据集含正类样本98个,反类样本2个,那么即使分类器“傻瓜式”将全部样本分类为正类,也可以得到98%的准确率。因此本文除了采用常规的召回率和正确率,也会采用F1、G-mean和AUC作为模型分类能力评价指标,同时记录模型训练时间作为模型运行能力评价指标。
表1 比例平衡的随机森林模型算法过程伪代码
算法:比例平衡的随机森林模型 输入:多数类全集N,少数类全集P,|N|<|P|, 欲合成的新子集数n, 采样后的多数类样本比少数类比例r, 属性抽取比例k, 过程: For i = 1,2,…,n: 从N中随机抽取Ni,使Ni=rp; Di=Ni+P;#合并生成新子集 ; #抽取属性生成随机子空间训练子集 ; #用随机森林中的决策树训练基分类器 End 输出: 简单投票法集成学习器 输出预测类别
G-mean是一种追求真正例率和真反例率都高的指标,在不平衡的二分类问题评估中区分能力优秀:
为了验证本文提出的比例平衡的随机森林模型(记为R-Balanced RF)在中国P2P网贷信用评价上的应用,实验采用留出法验证,将样本总体划分为70%训练集和30%验证集。实验比较本文模型与现有常用的信用风险预测模型结果。各类模型的具体选择如表2所示。
表2 各类模型的具体选择
类型模型相关文献 单模型决策树(DT)Arminger G. et al.(1997)[9] 逻辑回归(LR)Arminger G. et al.(1997)[9] 朴素贝叶斯(NB)Lessmann S. rt al.(2015)[10] 支持向量机(SVM)Chow et al.(2018)[11] 集成模型AdaboostChow et al.(2018)[11] GBDT朱梦莹等(2016)[12] BaggingAbellan and Masegosa(2010)[13] 随机森林(RF)Raquel Florez-Lopez et al.(2015)[14] 平衡的集成模型Balanced BaggingXu-Ying Liu et al.(2009)[15] Balanced Bagging+GBDT陈启伟等(2017)[5] Balanced RFChao Chen(2004)[7] R-Balanced RF本文
12个分类模型在验证集上测试结果如表3所示。
表3 12个分类模型在验证集上测试结果
模型召回率(多数类)召回率(少数类)正确率F1AUCG-mean用时/s DT0.990.560.980.9840.7770.7470.38 LR1.000.000.980.9740.5000.000*1.76 NB0.990.020.970.9690.5020.124*0.04 SVM1.000.440.990.9870.7190.662511.82 Adaboost1.000.000.980.9740.5000.000*2.03 GBDT1.000.010.980.9740.5040.088*5.05 Bagging1.000.000.980.9740.5000.000*0.15 RF1.000.420.990.9860.6960.6270.63 Balanced Bagging0.730.830.730.8290.7790.7772.27 Balanced Bagging+GBDT0.780.790.780.8600.7830.783146.51 Balanced RF0.740.800.740.8350.7690.7681.86 R-Balanced RF0.900.690.890.9300.7930.7861.80
在4个单模型中,LR和NB在高度不均衡的数据集上失效,而SVM的Accuracy和F1值最高,但花费时间过多,在数据量很大时不适宜做基分类器。实验表明单棵决策树是一个具有一定判别能力的弱学习器,又由于其易受扰动的特性,使其符合集成学习对于基学习器具有准确性和多样性的要求。
在集成学习模型中,Adaboost,GBDT和Bagging这3种在各领域应用颇广的经典模型均失效(用时加*号列),所以机器学习单模型和集成学习模型在未改造时均不适宜进行网贷违约预测。
当赋予集成学习器处理不均衡数据的能力时,其性能均得到大幅提升。平衡的集成学习模型相对于经典机器学习模型,对少数类的Recall率提高很多,但对多数类的Recall率则有下降,造成正确率的下降。本文的R-Balanced RF模型在显著提高对少数类的识别能力的同时,将对多数类的判别仍保持在一个较高的水平上,从而保证了整体的正确率。
随着P2P网贷领域线上模式越来越重要,机器学习方法突显优势。本文着眼于中国网贷平台特点和借款违约与正常还款的样本类别不平衡这一难点,总结前人的研究,针对性提出一种比例平衡的随机森林模型。模型采用欠采样的方法得到多个接近均衡比例的样本子集,并引入样本扰动和参数扰动,再进行随机森林的集成学习。实验比较了3类模型的预测及运行性能,得出平衡的集成学习方法效果更好的结论,也证实本模型分类预测更准确。
从该研究中可以得到如下启示:①类别不平衡问题在实际应用中很常见,在应用机器学习方法时可采用本文结论灵活解决。②虽然我国P2P平台缺少硬性个人信用数据,但充分挖掘海量的相关数据也可以达到很高的精确度。
未来的研究方向可从以下几个方面着手:①P2P网贷领域信息不对称性高,羊群效应显著,如何基于此构建模型分析投资人决策心理。②如何自动化地制订投资组合,帮助投资人分散风险。
[1]M.lin,N.R.Prabhala,S.Viswanathan.Judging Borrowers by the Company They Keep:Friendship Networks and Information Asymmetry in Online Peer-to-Peer Lending[J].INFORMS,2013(1).
[2]王会娟,廖理.中国P2P网络借贷平台信用认证机制研究——来自“人人贷”的经验证据[J].中国工业经济,2014(4).
[3]裴平,郭永济.基于贝叶斯网络的P2P网贷借款人信用评价模型[J].中国经济问题,2017(2).
[4]G.Wang,J.Ma,L.Huang,et al.Two credit scoring models based on dual strategy ensemble trees[J].Knowledge-Based Systems,2012(26):61-68.
[5]陈启伟,王伟,马迪,等.基于Ext-GBDT集成的类别不平衡信用评分模型计算机应用研究[J] 2018(2):421-427.
[6]周志华.机器学习[M].北京:清华大学出版社,2016.
[7]C.Chen,A.Liaw,L.Breiman.Using Random Forest to Learn Imbalanced Data.http://www.stat.berkeley.edu/tech?-reports/666.pdf.2004.
[8]T.K.Ho.The random subspace method for constructing decision forests[J].IEEE transactions on pattern analysis and machine intelligence,1998(9).
[9]G. Arminger,D. Enache,T. Bonne.Analyzing credit risk data:A comparison of logistic discrimination,classification tree analysis, and feedforward networks[J].Social Science Electronic Publishing,1997(1).
[10]S.Lessmann,B.Baesens,H.-V.Seow,et al. Benchmarking state-of-the-art classification algorithms for credit scoring:An update of research, European Journal of Operational Research[J].European Journal of Operational Research,2015(1).
[11]J. C. Chow.Analysis of Financial Credit Risk Using Machine Learning[J].Papers,2018(2).
[12]朱梦莹,郑小林,王朝晖.基于风险和剩余价值的在线 P2P借贷投资推荐方法[J].计算机研究与发展,2016(12):2708-2720.
[13]J.Abellán,A.R.Masegosa.Bagging Decision Trees on Data Sets with Classification Noise[J].In International Conference on Foundations of Information and Knowledge Systems,2010(2):248-265.
[14]R.Florez-Lopez,J.M.Ramon-Jeronimo.Enhancing accuracy and interpretability of ensemble strategies in credit risk assessment. A correlated-adjusted decision forest proposal[J].Expert Systems with Applications, 2015(13):5737-5753.
[15]X.Y.Liu,J.Wu,Z.H.Zhou.Exploratory undersampling for class-imbalance learning[J].IEEE Transactions on Systems Man & Cybernetics Part B,2009(4):539-550.
2095-6835(2018)24-0001-04
F724.6;F832.4
A
10.15913/j.cnki.kjycx.2018.24.001
罗雅晨(1994—),女,安徽滁州人,硕士研究生,研究方向为数据挖掘与机器学习。
〔编辑:严丽琴〕
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!