时间:2024-04-25
徐勇
摘 要:本文将人工智能算法——随机森林应用到了信息残缺的样本的分类预测中。通过准确度、ROC和AUC等分类性能指标的计算发现随机森林算法对带标签的信息残缺样本的分类预测能力令人满意。
关键词:人工智能;随机森林;分类预测
一、引言
自从2016Alphgo与韩国围棋世界冠军李世石的大战后,以深度学习为代表的人工智能技术再次进入人类视野。人工智能顾名思义,是研究开发用于模仿和拓展人类智能的技术科学。简单说就是用计算机程序来实现人类智能的技术。人工智能大体分为模式识别、机器学习、智能算法、数据挖掘等子领域。本文关注的就是其在数据挖掘领域的具体应用,即大数据信息的分类预测等。
在数据分析的过程中,我们经常遇到这样的应用场景。大量样本,每个样本又包含了多个特征。这里的特征其表现形式可能是多样化的,可以是数字型特征,可以是文本型特征等等,符合大数据的信息特征,同时所有的样本又自带标签或者类别归属。所需解决的问题可能是如何从这些复杂的信息中“学习”到样本的标签是如何由样本自带的诸多特征来决定的。这样即使有新的样本,也能根据其标签获取它的类别。
二、基于人工智能的大数据预测
泰坦尼克号的沉没是大家熟知的航海悲剧。我们可以从获取船上乘客年龄、性别、舱位等多方面的信息,同时也确知这些乘客生还与否(生还记为1,否则记为0)的标签。我们试图从每位乘客的如上信息中推断这些信息与其标签的对应关系。乘客部分信息如表一所示:
从中不难发现每位乘客包含姓名,年龄,票号,性别等多个特征信息。而标签则是幸存与否,用0和1区别。鉴于年代已久原始信息留存未必完全,故有部分信息缺失只能以“NaN”记录,为便于数据分析,这些缺失数据以对应该特征在所有乘客里的均值代替。乘客总计有1316人。现在我们的任务就是从这1316人的特征及所带标签出发,建立分类预测模型,从而实现由样本的特征信息就能判别其生还或是死亡。
我们选择随机森林模型训练并测试数据从而建立分类预测模型。首先将1316条数据分为训练集和测试集,其比例为1:3。训练集用来训练模型,测试集用来测试模型的性能。由于模型中的参数需要设置。我们采用网格验证法,即将随机森林中的决策树的数量分别设为120, 200, 300, 500, 800和1200,每颗决策树的深度设为 5, 8, 15, 25和30,从而进行参数的交叉验证来选择最有参数组合。它的具体含义是在模型训练时决策树数量和决策树深度这两个参数共计30种组合,看哪个组合能使得模型的预测准确率最高。
三、模型性能
在由训练集进行随机森林的模型训练后,测试集用来测试模型的性能,即测试集中的乘客信息经训练好的模型进行预测,看与其真实的标签是否相符。由于采用了泛化性能更好的随机森林,此次预测的准确率达到了0.8632。考虑到原始数据中不少信息都是缺失的,这一预测的准确率已经非常可观。另外我们还可以通过ROC和AUC来反映模型的性能。图1是此次预测的ROC曲线图。图中蓝色曲线是此次预测的ROC曲线,它代表模型对正类样本正确分类的比率(tpr)和对正类样本错分的比率(fpr)对比。之所以需要tpr和fpr这两个指标是因为,在评价模型预测性能的时候仅依靠准确率是不够的。比如某个测试集有99个正类,1个负类,那么即使全都预测为正类,正确率也有99%,但若全都预测为负类,则正确率只有1%了。所以整体的准确率不足以体现正类或负类样本分别被正确归类的情况,这时就需要tpr和fpr来更细致表现模型的性能了,尤其是在数据集中的正类负类严重不平衡的时候。图中这条蓝色曲线(ROC)越靠近左上角表明性能越好。另外,这条蓝色线下的面积(AUC)越接近1表明模型的性能越好。本次预测得到的AUC为0.8583。作为一个有不少缺失信息的分类问题而言,这个结果是非常不错的。此次预测最优的参数组合是120棵决策树和树的深度为5。这意味着由120棵深度为5的决策树构成的随机森林能对训练集的拟合效果最好。
四、结语
采用随机森林的预测模型本质上就是利用了人工智能技术挖掘数据的本质特征和规律。随机森林的优点在于它是有多棵决策树组成的。在对训练集拟合时体现出两个“随机”。一是抽样的随机性,即若训练集包含N个样本则在训练集中随机有放回地抽样N次组成用于训练的样本集,这么做能体现模型的泛化性能又能保持每次训练结果的相关性;二是特征选取的随机性,即在利用决策树进行预测分类时每棵决策树都是随机地在所有特征中选取一部分进行筛选实现子节点的分裂,这样就能避免总是利用所有特征来进行子节点分裂所带来的过拟合的危险。随机森林算法是集成式算法的代表,尽管近年来出现了很多其它集成式算法,但作为一种经典的数据挖掘算法仍频频见诸于应用。
参考文献:
1、结合随机森林面向对象的森林资源分类 王猛等 测绘学报 2020 第49卷 第2期 P235-244
2、采用單类随机森林的异常检测方法及应用 张西宁等 西安交通大学学报 2020 第2期 P1-8
3、基于随机森林的黄土地貌分类研究 曹泽涛等 地球信息科学学报 2020第3期 P452-463
4、基于随机森林的网络入侵检测方法 芶继军等 计算机工程与应用 2020 第56卷 第2期 P82-88
5、基于随机森林的驾驶人驾驶习性辨识策略 朱冰等 汽车工程 2019第41卷 第2期 P213-218
6、基于级联随机森林与活动轮廓3DMR图像分割 马超等 自动化学报 2019第4卷第5期 P1004-1014
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!