当前位置:首页 期刊杂志

基于双随机森林的透析病患白蛋白缺失值估计

时间:2024-05-04

李建春 李智 万里 李健

摘 要:数据缺失是临床试验中常见但又不可避免的问题之一。由于医疗设备欠缺或者病患忽略检测白蛋白,可能造成白蛋白指标缺失。随着机器学习的广泛应用,很多研究者将机器学习应用在缺失数据估计上。提出一种基于随机森林与聚类方法结合的算法——双随机森林回归法,并将该算法应用于估计白蛋白缺失值。在准确率和鲁棒性方面,双随机森林回归法相比于最近邻法、决策树与随机森林方法,均有不同程度提高。该算法为缺失值的有效处理提供了一种新思路,可以为其它的缺失值估计研究提供参考。

关键词:血液透析;白蛋白;随机森林;缺失值;数据缺失

DOI:10.11907/rjdk.173135

中图分类号:TP319

文献标识码:A 文章编号:1672-7800(2018)005-0124-03

Abstract:Data missing is a common problem in clinical trials. The indicator of the albumin (ALB) is very important since it is associated with prognosis and mortality in patients with renal failure. And due to lack of medical equipment or patients ignorance of the detection of albumin, the value of albumin may be missed. With the widespread application of machine learning, many researchers have applied machine learning to the estimation of missing data in order to improve the quality of the dataset, and their work have got good results. In this paper, the method based on random forest and clustering and twice random forest, that is, Random forest regression-Kmeans-Random forest regression, RKR is proposed to apply this algorithm to estimate the albumin deletion value.The principle of the algorithm is to make use of the advantages of random forests in predicting nonlinear datasets. The process is divided into three parts. The first part is using the random forest regression method to impute the missing data of albumin. The second part is using the cluster method, Kmeans method, to cluster the dataset into six classes. Last but not the least, the third part is reusing the random forest regression method to impute the missing data of albumin. In terms of accuracy and robustness, the method performs better than the nearest neighbor regression method, decision regression tree and the random forest regression method. The algorithm provides a new approach for the efficient processing of missing values, which can be used as a reference for other researchers who study the estimation of missing values.

Key Words:hemodialysis; albumin; random forest; missing value; data missing

0 引言

数据缺失是临床试验中常见但又不可避免的问题之一。白蛋白(ALB)对于肾衰病人是一个非常重要的指标,与肾衰病人的预后和死亡率有一定关联[1-4]。而由于医疗设备欠缺或者病患忽略检测白蛋白,可能造成白蛋白指标缺失。随着机器学习的广泛应用,很多研究者将机器学习应用在缺失数据估计上,如多元线性回归、最近邻法(K-Nearest Neighbor,KNN)、贝叶斯主成分分析法(Bayesian Principal Component Analysis,BPCA)[11]及决策树(Decision Tree,DT)[5-8]等。但这些方法没有充分利用患者检查数据的特殊性,估计精度不高[10-12]。随机森林(Random Forest,RF)基于DT算法,其优势在于克服了DT存在的過拟合问题,为解决数据缺失提供了一种可行的手段。然而,它也存在以下两个问题:①随机森林(Random Forest,RF)[9]回归预测使用的最终预测值是取各个子树的平均值,因而带来一定误差;②很多研究者在估计缺失值时,未考虑缺失值特征带来的影响,只对缺失值进行预测,因而又将一部分误差引入[14-15]。

针对上述问题,本文提出一种将随机森林和K均值聚类相结合的缺失值估计方法,即双随机森林回归法(Random Forest Regression-Kmeans-Random Forest Regression,RKR),并使用归一化均方误差(Normalized Mean Square Error,NMSE)[13]、标准均方根误差(Normalized Root Mean Square Deviation,NRMSD)[6]度量算法的准确度与稳定性。

1 基本原理与方法

1.1 双随机森林(RKR)方法

双随机森林(RKR)是将随机森林与K均值聚类方法融合的一种方法。首先使用随机森林回归(Random Forest Regression,RFR)对空缺值进行第一次估计,从而填补空缺值,进行Kmeans均值聚类。实验发现,聚类6个簇时效果最好。得到6个子样本后,在含有空缺值的子样本内,再次进行随机森林回归(Random Forest Regression,RFR)估计缺失值。实验结果表明,该算法可以有效提升缺失值估计的准确率。

具体分为以下步骤:①首先获取完整的数据集DataSet0,随机挑选指定比例的记录,组成训练集DataSetTrain,将剩下部分预测指标中的值清空,组成测试集DataSetTest;②使用随机森林(Random Forest,RF)训练数据集DataSetTrain,对DataSetTest估计缺失值,得到新数据集DataSetTest1。将DataSetTest1与DataSetTrain合并成新的测试集DataSet1,使用K均值聚类方法将DataSet1分为6个聚类,DataCluster0、DataCluster1、DataCluster2、DataCluster3、DataCluster4、DataCluster5;③將DataCluster0中也存在于DataSetTest1记录预测指标中的值清空,将DataCluster0中预测指标不为空的记录挑选出来,组成DataClusterTrain0,剩下的记录组成DataClusterTest0;④使用随机森林(Random Forest,RF)训练数据集DataClusterTrain0,对DataClusterTest0预测指标缺失值,将预测值放入数据集DataSetPredicted;⑤对DataCluster1-DataCluster5重复步骤③、④。

2 实验结果及分析

总共进行了5次试验,采用的对比算法有:K近邻回归(KNeighbors Regressor,KNR)、决策树回归(DecisionTree Regressor,DTR)、随机森林回归(Random Forest Regressor,RFR)与本文提出的双随机森林法回归(Random Forest Regressor-Kmeans-Random Forest Regressor,RKR)。4种算法分别在测试集为1%、5%、10%、15%、20%进行缺失值估计,并使用归一化均方误差(NMSE)、标准均方根误差(NRMSD)度量算法的准确度与稳定性。

2.1 实验数据

本研究实验数据来自成都军区总医院2013年1月~2015年11月期间的肾内科数据,对数据进行预处理,最后选出511个透析病人的实验室检查数据,包括:白蛋白(ALB)、尿素氮(Bun)、性别(SEX)、年龄(AGE)、身高(HEIGHT)、体重(WEIGHT)、身体质量指数(BMI)、舒张压(DBP)、收缩压(SBP)、钙(CA)、磷(P)、钾(K)、甲状旁腺素(PTH)、碱性磷酸酶(AP)、钠(NA)、血清肌酐(SCR)。将以上数据作为特征,这16个特征是透析患者应着重关注的指标。选择需要估计的指标(因变量)为白蛋白(ALB),其它指标作为自变量。采用随机抽取的方法将原始数据分成训练集和测试集,用训练集获得各种回归模型,再利用回归模型加载测试集,得到估测值。

2.2 实验结果

在不同衡量指标下,4种算法实验对比结果如图1、图2所示。

图1表明,当预测结果衡量指标为NMSE时,在各种测试集比例下,决策树方法(DTR)预测结果最差,双随机森林(RKR)预测结果最好;测试集比例在10%以下时,K近邻回归(KNR)、随机森林(RFR)和双随机森林均表现优异;测试集比例在10%以上时,K近邻回归预测结果比随机森林和双随机森林差。

图2表明,当预测结果衡量指标为NRMSD,在各种测试集比例下,决策树方法(DTR)预测结果最差,双随机森林(RKR)预测结果最好;测试集比例在5%以下时,K近邻回归(KNR),随机森林(RFR)和双随机森林均表现优异;测试集比例在5%以上时,K近邻回归预测结果比随机森林和双随机森林差。

综上述,通过与K近邻、决策树、随机森林方法进行实验对比,结果表明,双随机森林算法实现了对透析病人白蛋白(ALB)指标缺失值较为准确的填补,同时具有较高的稳定性。

3 结语

为解决临床试验中的数据缺失问题,本文提出一种基于随机森林与聚类方法结合的算法——双随机森林回归法,并将此算法应用于估计白蛋白缺失值。双随机森林回归法相比于最近邻法、决策树与随机森林方法,在准确率和鲁棒性方面均有不同程度提高。该算法为缺失值的有效处理提供了一种新思路,可以为其它的缺失值估计研究提供参考。

参考文献:

[1] 潘少康,刘东伟,刘章锁.不同透析模式对急性肾损伤预后的影响[J].实用医院临床杂志,2017(2):16-19.

[2] MA L, ZHAO S. Risk factors for mortality in patients undergoing hemodialysis: a systematic review and meta-analysis[J]. International Journal of Cardiology,2017.

[3] ERIGUCHI R, OBI Y, STREJA E, et al. Longitudinal associations among renal urea clearance–corrected normalized protein catabolic rate, serum albumin, and mortality in patients on hemodialysis[J]. Clinical Journal of the American Society of Nephrology,2017.

[4] FAN H, YANG J, LIU L, et al. Effect of serum albumin on the prognosis of elderly patients with stage 3-4 chronic kidney disease[J]. International Urology & Nephrology,2017.

[5] LUO S, LAWSON A B, HE B, et al. Bayesian multiple imputation for missing multivariate longitudinal data from a Parkinson's disease clinical trial[J]. Statistical Methods in Medical Research,2012.

[6] WANG X, JIANG Z, FENG H. Missing value estimation for DNA microarray gene expression data by support vector regression imputation and orthogonal coding scheme[J]. BMC Bioinformatics,2006,7(1):1-10.

[7] SHAH A D, BARTLETT J W, CARPENTER J, et al. Comparison of random forest and parametric imputation models for imputing missing data using mice: a caliber study[J]. American Journal of Epidemiology,2014,179(6):764.

[8] BABU G A, SUMANA G, RAJASEKHAR M. Computer-aided diagnosis of polycystic kidney disease using ANN[J]. World Academy of Science, Engineering and Technology, International Journal of Medical, Health, Biomedical, Bioengineering and Pharmaceutical Engineering,2013,7(12):933-937.

[9] ZHANG H, WU P, YIN A, et al. Prediction of soil organic carbon in an intensively managed reclamation zone of eastern China: a comparison of multiple linear regressions and the random forest model[J]. Science of the Total Environment,2017,592:704-713.

[10] TROYANSKAYA O, CANTOR M, SHERLOCK G, et al. Missing value estimation methods for DNA microarrays[J]. Bioinformatics,2001,17(6):520.

[11] OBA S, SATO M A, TAKEMASA I, et al. A Bayesian missing value estimation method for gene expression profile data[J]. Bioinformatics,2003,19(16):2088-2096.

[12] KIM H, GOLUB G H. Missing value estimation for DNA microarray gene expression data: local least squares imputation[J]. Bioinformatics,2005,21(2):187-198.

[13] 李瑞紅,李智,童玲.蚁群路径优化决策树在慢性肾病分期诊断中的应用[J].软件导刊, 2017,16(2):135-138.

[14] ZHANG S, WU X, ZHU M. Efficient missing data imputation for supervised learning[M]. 2010.

[15] LI H, ZHAO C, SHAO F, et al. A hybrid imputation approach for microarray missing value estimation[J]. Bmc Genomics,2015,16(S9):S1.

(责任编辑:黄 健)

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!