当前位置:首页 期刊杂志

基于SVM算法的债券违约风险预测模型研究

时间:2024-08-31

张辰雨,梁力军,刘丽娜

(北京信息科技大学 信息管理学院,北京 100192)

0 引言

近年来,我国债券存量规模不断扩大,债券市场的成交额随之上升,债券投资长期处于收益与风险并存的境况。据相关统计,债券违约规模从违约元年2014年的1.96亿元[1]增至2020年的1 253.75亿元,发生的债券违约事件数量在递增且规模不断扩大。2020年后,受新冠肺炎疫情影响,债券市场愈加动荡,下半年华晨集团、永城煤电等国企债券相继违约,更是引发了债券市场投资者的“信任危机”。

债券交易中的违约风险亦称信用风险,是进行信贷交易或债券投资过程中交易双方因各种不确定因素导致到期无法履行合同约定条件,未能按时、按规定数额偿还债务或信贷资金的风险,这种风险将导致信贷投放机构、投资者或交易对方蒙受损失[2-3]。国内外众多学者已对债券违约风险特征指标和风险预测模型进行了深入的研究。我国债券违约风险预测特征指标的研究主要分为以下两类:一类是对发生债券违约的具体企业进行的案例分析。李阳蓝[4]、张继德等[5]、刘轶军[6]、刘晓凤[7]、胡恒松等[8]对东北特钢、超日太阳、富贵鸟、神雾环保、东旭光电等公司违约事件进行定性和定量的研究,分析得到其发生债券违约的各方面原因,如年收入下降、应收账款问题突出等,以及其造成的财务指标等特征指标的异动情况。另一类是对我国债券市场整体的违约风险研究。张强等[9]、罗小伟等[10]、马燕飞[3]、郑步高等[2]从数量、规模、品种、行业分布、企业性质、区域等方面系统性剖析得到我国债券违约的形成机理和主要原因,以及违约主体违约前的特征表现,如盈利能力下降、偿债负担重等。

风险预测的关键在于正确评价研究对象本身[11]。风险预测研究的发展初期主要是对财务报表进行定性分析,结果往往不够准确。为获取更科学准确的结果,风险预测开始依靠统计学定量分析,已有很多研究表明对违约事件进行定量研究有利于风险预测。Beaver[12]率先提出单变量判别分析法,取得较高的破产公司判别准确率。Altman[13]运用多元判别分析模型对美国债务困境企业进行系统性的量化研究。Ohlson[14]最早使用Logistic模型,构建回归方程进行财务风险预测,均取得较高的预测正确率。中国建设银行风险计量中心课题组[15]、蓝发钦等[16]选择恰当的指标体系进行显著性分析和敏感性分析,构建违约风险预测模型,从模型预测结果可有效地进一步分析风险特征。

随着科技的发展和大数据时代的来临,机器学习模型应运而生,其发展为定量分析提供了极大便利,基于机器学习模型的定量分析已然成为风险研究的主流趋势之一。现有研究中多使用Logistic模型、神经网络模型、支持向量机模型等机器学习技术进行风险预测。刘旻[17]、吴世农等[18]、韩金石等[19]、张永东[20]、刘元鹏等[21]引入新变量或采用多种模型联合,逐步提升基于Logistic模型的债券风险预测模型的精准度。Huang等[22]比较几种常用的神经网络模型验证了概率神经网络(probabilistic neural network,PNN)对信用风险分类具有较强适用性。

支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有的优势。王敬宇[23]对企业信用风险预测进行实证研究,得到多项式核函数下的支持向量机(support vector machine,SVM)算法,其预测准确度较高。Zhang等[24]在对信用风险预测的研究中、田嘉武[25]在对个人信用预测模型的研究中、师应来等[26]在对P2P网贷平台的风险预警研究中、赵丹丹等[27]在对京津冀上市公司的财务危机模型研究中均发现相较于Logistic回归模型或神经网络模型,支持向量机模型具有更高的准确度和稳定性。对于样本规模小且分为违约和非违约两个类别的上市公司债券违约风险预测,支持向量机模型能够起到较强的支撑作用。

本文基于22项财务指标,构建支持向量机债券违约风险预测模型,以期采用能够反映违约风险特征且容易获取的财务指标数据进行债券违约风险预测,特别是提升模型对违约主体的正确识别能力,满足识别出可能发生违约的主体的需求。

1 设计步骤

本文构建基于SVM的债券违约风险预测模型,步骤如图1所示。

图1 SVM风险预测模型构建步骤

第一,搜集数据。通过财经类新闻网页和国泰安(CSMAR)中国财经数据库获取发生债券违约和未发生违约的样本企业的相关信息及财务指标数据。

第二,特征选择。根据以往学者研究,构建基于22项财务指标的债券违约风险预测特征指标体系。

第三,对数据进行归一化处理,将数据转化至[0,1]范围内,以消除不同特征间的量纲差异,并将样本数据按照一定的比例随机划分为训练集和测试集。

第四,借助LIBSVM工具包对训练集进行SVM模型训练,选定核函数,通过交叉验证,最终得到最优参数,构建最优模型。

第五,利用最优模型对测试集进行债券违约风险预测,获得预测结果并评价模型效果。

2 模型构建

2.1 数据获取与样本选择

2014年国内出现第一例企业债券实质违约,截止2020年12月,我国债券违约主体数量已达175个。本文通过财经类新闻网页获取到发生债券违约的175个主体公司及其股票代码,以其首次发生违约的时间作为统计基准,并在国泰安数据库中通过股票代码检索获取债券违约发生时点前5年的财务指标数据。对于缺失值,使用同数据库的财务报表数据按照相同计算规则进行计算并填补。

为构建债券违约风险预测模型,除违约样本数据外,同时搜集非违约样本数据。因为在众多分类模型的实际运用中,常发生样本的非对称分布问题,即建立的分类模型无法对数量较少的类别数据进行正确的分类预测[28],所以本文采取平衡取样。在国泰安数据库搜集了等量A股、非ST且未发生过债券违约的发债主体,以其2015-2019年5年的财务指标数据作为非违约样本。

最终,剔除存在缺失值且无法获取财务报表数据的样本,得到违约样本数据和非违约样本数据各228条,共456条。

2.2 构建预测特征指标体系

根据以往学者对债券违约特征指标的相关研究[2-10,19-21],同时考虑数据的可获得性和准确性,本文选取反映偿债能力、营运能力、盈利能力、发展能力的22项财务指标作为债券违约风险预测的初始指标。财务指标维度如表1所示。

表1 财务指标维度

2.3 数据预处理

2.3.1 数据的归一化处理

由于样本数据各个特征之间存在量纲差异会影响分类器的预测正确率,故将数据进行归一化处理,使数据值转换到同一值域区间[0,1]内,便于综合对比评价[29]。本文采用最值归一化方法进行处理,转换函数为

(1)

2.3.2 数据集划分及核函数确定

为寻找最适合的样本划分比例和核函数,采用留出法按照一定比例划分训练集和测试集。实际应用中通常选取数据集中60%~80%的样本作为训练集[30],剩余的作为测试集,并使用默认参数下的不同核函数进行建模。本文采用8∶2、7∶3、6∶4三种比例划分,分别使用默认参数下的线性核函数、多项式核函数、RBF核函数、Sigmoid核函数4种常见的SVM核函数,得到以正确率为表征的分类预测模型效果如表2所示。

表2 不同核函数及样本划分比例的分类预测效果

从表2可以看出,使用线性核函数和RBF核函数构建的SVM分类预测模型正确率普遍高于使用多项式核函数和Sigmoid核函数的模型。线性核是RBF核的一种特殊情况,相较于它们,多项式核函数和Sigmoid核函数的边界支持向量较多,容易影响分类模型的正确率[31]。由表2可知,采用8∶2的样本划分比例建立基于RBF核的分类预测模型所得到的正确率最高,因此本文选择采用8:2的样本划分比例建立基于RBF核的SVM分类预测模型。

将样本数据按照8∶2的比例随机划分为训练集和测试集。具体做法如下:从228个违约样本数据和228个非违约样本数据中各随机抽取80%,共得到364条样本数据,构成训练集用于训练SVM预测模型;其余的20%,即92条样本数据,构成测试集用于检验模型。

2.4 模型建立

本文采用8∶2的样本划分比例建立基于RBF核的SVM分类预测模型。模型中参数C是惩罚系数,即对误差的容忍度,C越大,决策边界越小,模型越容易过拟合,反之容易欠拟合;参数gamma是数据映射到高维特征空间后的分布,gamma越大,支持向量越多,分类效果好,但泛化性低。通常情况下,需要合理地选择C和gamma的值,使得训练结果准确的同时,测试结果同样相对准确。由此应用交叉验证的方法,寻找得到最优参数C为4、gamma为8的模型。迭代800次得到42个边界支持向量,总共307个支持向量,以此构建起最优的SVM债券违约预测模型,具体结果如表3所示。

表3 最优模型结果

3 模型效能评价

3.1 模型评价指标选取

为评价所构建模型的预测性能,本文除考虑正确率外,还考量以下常用分类模型评价指标:精度、召回率、F1值、特异度。正确率反映模型预测正确的样本比例,精度反映正确预测的正样本占所有预测为正样本的比例,召回率反映正样本中被正确预测的比例,F1值是精度和召回率的一种调和平均,特异度反映负样本中被正确预测的比例[30]。

由于本模型旨在预测债券违约风险,力求寻找可能发生违约的主体,因此对于正确率、精度和特异度有较高追求。

3.2 模型验证与结果分析

为避免偶然性,采用交叉验证的方法对本模型进行了5次实验,其结果如表4所示。5次实验的评价指标平均值均高于75%,标准差均小于10%,反映模型的分类能力较强且稳定;尤其是正确率、精度、F1值和特异度的平均值均大于80%,标准差均小于5%,反映模型对违约样本的预测能力稳定且良好,能够满足对可能发生违约主体的识别需求。

表4 测试结果 %

4 结束语

本文基于财务指标数据构造支持向量机分类预测模型,对上市公司债券违约风险进行分类预测。考虑样本数据集的划分比例,经多次多比例验证,择优选择,避免了训练集过大导致的泛化能力差或训练集过小导致的拟合能力差的问题。实证结果发现SVM作为小样本、高维非线性学习算法,应用于上市公司债券违约风险分类预测取得了较好的效果,能够基于财务指标这种易获取的数据较为准确地划分出违约样本和非违约样本,尤其是模型特异度处于较高且稳定的水平,能够满足识别可能发生债券违约主体的需求。

本文构建的债券违约风险预测模型仍存在一些局限性。一方面,债券违约风险主要受经济运行周期的变化和公司经营中的负面事件等原因的影响,尽管财务指标数据容易获取并且能够映射绝大多数违约风险特征,但仅依靠财务数据进行风险预测存在片面性,未来可考虑将宏观环境、中观环境等纳入模型指标,以期使模型分类更加准确。另一方面,本文采用的样本数据来自不同行业,各行业间财务特征差异很可能会影响模型分类准确率,未来可考虑统一行业这一变量,以期减小模型分类误差。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!