当前位置:首页 期刊杂志

Logistic回归在银行个人信贷风险评估上的应用研究

时间:2024-05-18

佘朝兵



Logistic回归在银行个人信贷风险评估上的应用研究

佘朝兵

(吉首大学张家界学院,湖南 张家界 427000)

信贷风险是影响银行稳定性的一个主要因素。利用Logistic回归算法,对2007—2011年某信贷网站40 000多条个人贷款数据进行训练,在采用权重策略解决样本不平衡问题的实验背景下发现,在不同实验权重下,Logistic回归算法召回率达65%以上,银行可根据目的采取合适的权重,从而获取更好的结果。

Logistic回归;信贷风险;风险评估;训练数据

1 概述

随着市场经济的发展,金融行业欣欣向荣。个人信用贷款已经成为银行的主营业务之一,同时,个人贷款也进一步促进了经济的繁荣发展。因此,个人信贷对银行和社会的发展都是十分重要的。然而,由于个人信贷的主体条件不同,此外,我国也缺乏个人信用制度,因此,个人信贷业务存在信贷风险,而信贷风险也是银行不可避免的问题。对于银行,如何有效地控制信贷风险,从而降低成本,成为了银行管理部门需要重点解决的问题。因此,信贷风险的评估显得尤其必要。Logistic回归算法是机器学习领域分类的经典算法,该算法可通过大量的训练数据对新样本进行预测。本文主要利用逻辑回归算法对个人信贷风险评估进行预测,以期为银行管理部门信贷风险评估的决策提供依据。

2 Logistic回归算法

Logistic回归算法是指通过对已有的数据进行分析,对已有数据的分类边界线建立回归公式,利用回归公式计算新样本数据的函数值,以此对新样本进行分类预测。Logistic回归算法主要解决二分类问题。

2.1 Logistic回归算法的基本原理

上面提到的Logistic回归算法的主要原理为在分类边界建立回归函数。该函数接收预测数据并进行预测分类,特别是处理二分类问题时,回归函数输出0或1用于判定类别。考虑到回归函数的性质以及计算的方便性,回归函数没有采用阶跃函数,而是采用Sigmoid函数。Sigmoid函数的计算公式如下:

上述函数的定义域为[-∞,+∞],值域为(0,1).当=0时,函数值为0.5,随着的增大,函数值趋近0;随着的减少,函数值趋近1.

对于训练样本而言,设计损失函数,利用梯度下降法为每个特征设置最优的权重。当预测新样本类别时,利用得到的最优权重,得到新样本所有特征的回归值,最后将回归值赋予,代入Sigmoid函数中。如果函数结果大于等于0.5,则预测为1;否则预测为0.预测类别的公式如下:

假设训练样本有个,分别用1,2,…,N表示。每个样本有个特征属性,以第个样本i为例,该样本的个特征分别用i1,i2,…ij,…iM表示,该样本的真实类别为(i),其中,损失函数的计算公式如下:

式(3)中:(i)为第个样本的回归值,其计算公式如下:

梯度下降法求最优权重的计算公式如下:

2.2 算法步骤

Logistic回归算法的步骤如下:①收集数据;②将数据类型预处理为数值型;③输入训练数据得出最佳分类回归系数;④根据分类回归函数,计算预测样本的类别;⑤评估分类效果。

3 应用实例

3.1 数据来源

实验数据来自互联网。下载的实验数据包含了从2007—2011年间约40 000条个人贷款数据。实验数据中每个记录包括编号、会员编号、申请贷款额、实际贷款额、贷款期限、申请人所在单位名称、等级、利率、平均年收入、固定资产、贷款状态、贷款目的等52个特征属性。部分实例数据如表1所示。

3.2 数据预处理

根据基本的数据预处理方法,首先对空值或者异常值进行删除处理,然后根据应用的目的以及算法特点,采取其他方法进行预处理。由上节对数据的描述可知,数据具有以下特点:特征属性数量较多、数据类型多样。为了提高实验效率,避免出现过拟合现象,需要针对上述特点做以下预处理工作。

表1 实验数据部分实例

idloan-amntfunded-amnttermint-rate/(%)gradesub-gradeLoan-status 15 0005 0003610.63BB2full paid 210 00004811.32EE2charged off 315 00007210.57DD3late

3.2.1 特征选择

在原始数据52个特征属性中,选择合适的特征属性来试验。根据原始数据,总结特征选择的原则有3项:①与贷款结果有关的特征;②重复特征选择只保留一项;③原始数据中特征值唯一的特征不用保留。为了方便理解,以下对上述原则举例说明。根据第一个原则,原始数据中编号、会员编号等与贷款结果无关,应该剔除;根据第二个原则,等级和子等级都是表达的是类似含义,只保留等级一项特征;而设置第三个原则的原因是假设原始数据中某个特征全部为0,则该特征对于决策没有参考价值,因此,没有必要参与实验。总之,利用上述3项原则,通过python代码对原始数据进行处理后,最终选择的特征属性为24个。

3.2.2 数据类型数值化

根据表1,所有的特征值中既包含整型,也包含浮点型、字符型。逻辑回归算法适合处理整型、浮点型等数值型数据,因此,有必要对多字符类型数据进行处理。

处理的方法即将特征属性的属性值按类赋予不同的数值,可假设特征属性i共i1,i2,…,ij有个属性值,每个属性值都是字符类型,则为了将数据类型统一,可以按顺序将第个属性值ik赋值为.

经过数据类型数值化后,原始数据中所有特征值是整型或浮点型。此处特别要说明的是,贷款状态(loan-status)表示贷款结果,可在实验中预测标签。该属性有9种属性值,比如完全支付(full paid)、不予支持(charged off)、推迟决策(late)等。由于在上述属性值中,前2种属性值包含的记录数超过90%的样本,且逻辑回归算法主要用于二分类问题,因此,本文只采用完全支付和不予支持两个属性值,并将其属性值分别赋值为1和0.

3.3 评价指标

分类问题一般采用预测准确率来评价,但由于本文的样本数据中每条记录贷款额度不一致,因此,每个记录的分类结果不能平等看待,预测准确率不适合评价贷款预测的结果。在贷款风险评估的应用中,真实结果和预测结果都有“完全支付”和“不予支持”两种情况。根据组合原理,真实结果与预测结果之间存在4种情况,比如真实结果为“完全支付”,预测结果也为“完全支付”,则可让管理部门获利;真实结果为“不予支持”,预测为“完全支付”,则让管理部门承担风险;其他情况不影响管理部门的利益。由此可见,管理部门希望逻辑回归算法的预测结果能让管理部门获取最大利益。考虑到上述情况,笔者希望所有真实结果为“完全支付”的样本中,预测结果为“完全支付”的样本越多越好;而所有“不予支持”的样本中,预测为“完全支付”的样本越少越好。上述4种情况具体如表2所示。

表2 真实结果与预测结果样本数量的对比

预测真实 完全支付不予支持 完全支付ac 不予支持bd

根据表2所示,本文的评价指标公式为:

3.4 实验结果

本文实验数据样本有2类,即“完全支付”样本和“不予支持”样本。而“完全支付”样本在所有实验样本数量上超过了80%,出现了样本不均衡的问题。

3.4.1 样本不均衡问题的解决策略

由于样本不均衡,容易导致算法失效。比如,90%的样本都是“完全支付”的情况下,即使不采用机器学习算法,只需要将所有样本预测结果设为“完全支付”也可以得到不错的评价指标。因此,有必要在实验中解决样本不均衡问题。一般的解决策略有2类:①增加比例较少的样本数量,平衡不同类别的样本数量;②根据不同类别样本数量的比例,反比例设置每类样本的权重,以使每类样本数量与权重的乘积结果基本一致。

考虑到第一类策略需要额外设计样本数据,本文采用第二种策略。

3.4.2 不同权重下的实验结果

由于训练数据的样本中贷款状态为“完全支付”样本数量与“不予支持”的样本数量比例为6∶1,因此,本文要有针对性地设置不同类别的权重进行实验。实验中采用scikit-learn框架的逻辑回归算法对预处理后的样本数据进行训练,交叉验证后的结果如表3所示。

表3 交叉验证结果

权重比例TPRPR 1∶60.670 70.400 7 1∶100.973 80.940 9 1∶50.731 70.478 9

根据实验结果发现,在不同的权重比例下,PR即召回率达65%以上,而PR则有较大的波动。一般而言,希望PR高、PR低,但此结果如何平衡,还需要根据银行目的采用合适的权重比例。

[1]哈林顿.机器学习实战[M].李锐,译.北京:人民邮电出版社,2013.

[2]姜楠.浅析我国商业银行个人消费贷款风险管理[J].商业经济,2017(04):177-179.

[3]陈倩.基于Logistic模型的大学生校园贷研究[J].商洛学院学报,2017,31(02):80-82.

[4]逯宇铎,金艳玲.基于Lasso-logistic模型的供应链金融信用风险实证研究[J].管理现代化,2016,36(02):98-100.

〔编辑:张思楠〕

2095-6835(2018)19-0113-02

F832.4

A

10.15913/j.cnki.kjycx.2018.19.113

佘朝兵(1982—),男,湖南邵东人,硕士,吉首大学张家界学院讲师,研究方向为云计算、大数据、数据挖掘。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!