时间:2024-09-03
李 丽(沈阳职业技术学院,辽宁 沈阳 110015)
数据缺失及处理方法探析
李 丽
(沈阳职业技术学院,辽宁 沈阳 110015)
摘 要:发生数据的缺失会使得任务分析难度增加,使得结果产生偏差,会使统计工作效率降低,因此必须找到有效的数据填补方法。本文总结了缺失数据产生的原因及数据缺失的类型,分析讨论了针对不同缺失数据类型的处理方法、策略及优缺点,给出了缺失数据填补的使用原则。
关键词:缺失数据;数据填补
随着科学技术的发展,软计算技术的提出;粗糙集、模糊逻辑、神经网络等软计算的工具迅速发展,使研究人员发现过去所积累的大量经验数据的重要性。而最常见的问题就是数据缺失,发生缺失数据之后需要进行及时的数据填补,然后进行深入分析。在国际上很多专家都对缺失数据的填补方法进行了研究,为存在缺失的数据问题进行了解决,以此保证了相关工作的正常开展。
在不同领域的研究中,一般会因为一些已知或未知的原因影响造成数据的缺失,从而增加了数据分析工作的困难,对于最终的分析结果也会存在不准确。数据缺失的原因主要有以下几种:暂时不能获取信息,信息是被遗漏的,某个或某些属性是不可用的,有意隐瞒或历史局限,注定放弃获取信息,系统实时性较强数据缺失等方面。
要解决数据缺失的问题,就需对其形成的具体程序与特性开展研究,Little与Rubin对缺失数据的随机性开展了不同数据缺失机制的定义[1]。
第一种是完全随机缺失,在数据缺失的发生几率与其他数据不存在关联的情况下,也就是说数据缺失的发生是独立完成的,这种数据的类型就可以称为“MCAR”,数据缺失的发生与其他存在的不完全变量或完全变量都没有直接的关系。第二种数据缺失机制叫做随机缺失,其概念与第一种缺失形式是相对存在的,数据缺失存在不完全随机性,其缺失条件得到了放宽,这种类型数据缺失情况的发生需依赖其他的完全变量。第三种数据缺失机制叫做非随机、不可忽略缺失,这一概念之下上面两种缺失机制可以被叫做可忽略缺失,它属于非随机的一种数据缺失状态,其不完全变量中数据的缺失是需要依赖上述两种变量本身的,具有不可忽略性。
3.1按照完整观测单位形式的处理方法
完整的观测单位是涵盖任何调查项目均有观测的总的称谓,也可以成为在分析目的相似的调查项目上有着“无回答”情况的单位,在对数据有缺失的单位进行处理之后,进行的相关常规统计分析[2]。
(1)直接删除法。这种对数据缺失的个案进行直接删除的方法属于较为原始的一种方式,在一些数据中的变量在一些单元中未被记录时,而且单元数目所占比例较大,就可以对不完整的单元进行直接的丢弃。然后对其中具备完整记录的单元进行分析,直接进行数据缺失的删除实施起来比较方便,并且这一手段对于有小部分数据缺失的情况时能够比较有效的解决。但同时这种方法也属于一种较为极端的解决策略,使用后的风险很大,对于数据缺失相对来说比较严重的情况,使用删除的方式就容易造成数据估算方面的偏差,进而得出一个错误的结果。所以,一般在数据缺失很多时,不建议使用这种方法进行处理。
(2)数据缺失处理中的加权法。在数据缺失的处理过程中,加权法也属于其中比较常见的方式之一,当数据缺失属于非完全随机缺失这一类型时,能够利用完整的数据加权来使其中的偏差一定程度的减小。对数据不完整的个案实行标记处理,将其中完整的个案进行不同权重的设置。在变量解释中能出现对权重估计产生直接影响的因素变量,则在这一方法的使用中就能够显著的减小估算的偏差。但解释变量与权重如果没有关系,则这一偏差不会减小。对于其中多个属性都有缺失的现象,应对不同属性的缺失组织赋不同的权重,相应计算的也会增加一些难度,预测的正确率也会降低,获得的权重法会不符合条件。
3.2可能值的填补方法
这一方法的使用是以最可能的值或经验值对缺失数据进行填补,这种类型的填补方法比样本的删除所产生的信息丢失情况要少,按照所组成的替代值的数量可分为单一填补及多重填补。
(1)数据缺失的单一填补法。单一填补在数据缺失处理中是以估算为基础的一种方法,主要是将缺失数据进行替代之后,对新合成的数据开展的统计研究,形成数据信息的充分利用。主要有:均值填补法、非数值型、随机填补法、随机回归插补几种方法。这种单一填补的方法对原有的方法是一种革新,重新开始重视了缺失值这一项目,这也使不同的统计分析都能在插补之后,通过完整数据集进行呈现。但这其中的每种手段都具有扭曲样本分布这一问题,虽然随机误差项已经被引入,可以对这种问题进行缓解,但确定随机误差项较为困难,真正实现难度大。
(2)多重填补法。多重填补的方法主要利用两个以上的侯选集来进行填补,其应用弥补了单一填补法存在的一些问题。首先这一方法实施过程会产生多个中间填补值,其次,多重填补可以对缺失数据的分布进行模拟,维持关系变量稳定。
数据缺失使用多重填补方法进行处理主要有三个程序:①对数据中的空值提供一套符合要求的填补数值,使其可以反映无响应模型的不确定特点;相关值都可以来对数据集的缺失进行填补,使其可以达到完整的目的。②填补数据集合最后用完整数据集的统计手段来分析。③填补数据集中的各种结果,按照评分函数选择,获得最后的填补值。
一组数据有三个变量Y1、Y2、Y3,其联合分布属于正态,将数据分为3组,A组维持原始数据,B组缺失Y3,C组缺失Y1和Y2。在多值填补方法中,不对A组处理,B组会产生Y3的估计值,C组则会产生Y1与Y2的一组估计值。
如果使用多值填补,对A组将不做处理,对B、C组让完整的样本进行随机抽取作为m组使用。在m组观测值的基础上,对产生关于参数的m组估计值进行预测。B组要估计出Y3的值,C组要通过Y1、Y2、Y3联合分布为正态分布的前提,估计出一组(Y1、Y2)。
多重填补后的综合推断哪种填补方法都要让数据集填补m次(m 〉 1) , 使数据集完整, 再用完整数据集的处理方法分析综合结果。目前研究出了针对线性以及 logistic回归模型的综合统计模式,因子分析、结构方程模型等还处于研究之中。
总之,在插补中,由于使用的人为方法干涉,这使得每一种填补方法对变量间的相互作用都会产生不同的影响,既要对其中不完整的信息进行补齐,而且还要一定程度上对原始的数据的信息体系进行改良。
参考文献:
[1]王国胤.Rough 集理论与知识获取[M].西安: 西安交通大学出版社,2003.
[2]张星,郝伟.不完备或缺失数据及其填补方法研究[J].福建电脑,2007(14):125-126.
(责任编辑:吴湘银)
中图分类号:N37
文献标识码:A
doi:10.3969/j.issn.1672-7304.2016.01.056
文章编号:1672–7304(2016)01–0118–02
作者简介:李丽(1981-),女,辽宁营口人,讲师,研究方向:计算机信息安全理论与技术。
Data is missing and fill method in this paper
LI Li
(Shenyang Polytechnic College, Shenyang Liaoning 110015)
Abstract:The lack of data will make more task analysis, makes the result deviation, will lower the efficiency of statistical work, therefore must find effective data packing method. This paper summarizes the causes of missing data and the type of data missing, missing for different types of data processing were discussed by the method, strategies, and the advantages and disadvantages, missing data fill the use of the principle is presented.
Keywords:Missing data; Data fill
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!