当前位置:首页 期刊杂志

浅谈心理学问卷调查中缺失值的处理方法

时间:2024-08-31

钟欣

摘 要:在心理学研究中,数据的质量直接影响着研究的成败。但没有完美的数据,对于那些因为某些原因遗失的数据,即缺失值。综合前人研究,提出了导致缺失值产生的三个因素,以及提出处理缺失值的六种方法。

关键词:心理学问卷 缺失值 处理

中图分类号:B841 文献标识码:A 文章编号:1674-098X(2014)08(a)-0201-02

心理学至成立以来一直致力于改善人们的生活,提高人们的生活质量,为社会的发展与进步贡献自己的绵薄之力。由于心理学是一门讲求实证的学科,要达到这样的目的,一定的研究则必不可少,这就不可避免的会遇到数据分析的问题。一个研究的成败取决于这个研究所收集数据的质量,质量较好的数据,即较少出现遗失、奇异、极端等情况,就能够反应研究的真实情况从而得到较好的研究结果。心理学是一门对人的行为进行研究的学科,然而对某些行为的研究可能会引起人们的抵触,这种抵触心理就会反映在数据的收集上,导致数据会出现一些问题,例如出现数据遗失,而怎样应对这种问题即是该文关注的焦点。

1 缺失值的概念及产生因素

缺失值指的是某项研究的某个项目或多个项目上的数据出现遗失的情况。在心理学研究中,出现缺失值是十分常见的现象,有些研究人员并没有对这个问题予以重视,往往将其忽略并简单处理了事,然而这个不受重视的问题有时会对研究结果产生致命的影响。在某些心理学研究中,由于研究经费或是社会伦理性等原因,可能研究收集的数据较少,这就导致每个数据对研究人员来说都弥足珍贵,并且由于样本量较小,一个数据的变化可能就会影响整个研究的结果。在这种情况下如果出现了缺失值,不当的处理方式将会带来严重的结果,千里大堤溃于蚁穴。

缺失值对心理学研究可能会产生如此之大的危害,那么缺失值又是如何产生的呢?

1.1 被试因素

一个心理学的研究,被试自身的态度对研究结果有着至关重要的影响。例如,在某些心理学研究中由于涉及一些比较敏感的信息,被试在完成这样的研究时可能基于对自我的保护,并不会认真的完成调查或干脆不予配合,这就导致了缺失值的出现。其次,由于社会赞许等现象的存在,被试也会不按真实的情况如实完成研究,有时在问卷调查中因没有符合自己要求的答案而弃选,从而造成缺失值的出现。最后,也有可能是被试在作答时确实是因为对题目的遗漏而导致没有作答。

1.2 研究本身因素

由于心理学属于社会学科,在其进行的研究中,并不是每个研究的设计都完美无缺,特别是有些不是很严谨的问卷调查研究,问卷本身设计的不恰当,就已经对研究的结果的可信性埋下了隐患。例如:问卷题目设计的不严谨,使被试在进行作答时感觉到疑惑,从而没有作答。其次,问卷内容过多,题目过长,这都会使被试产生疲倦感,促使他们应付了事或者直接跳跃式作答。最后,对于实验研究来说,实验仪器的故障也是导致缺失值的因素之一。

1.3 主试因素

在心理学研究中,主试起到的是一个引导的作用,虽然不是被研究者,但是其本身所具有的属性,也会对研究结果产生影响。一个严格的心理学研究必须要包括对主试的培训过程,即让主试熟悉研究目的,研究注意事项等等,然而有些研究因为经费、时间等原因并没有重视这一步骤,从而导致主试缺乏一些基本的问题应对技巧,不能够在研究过程中发现问题,或是在被试出现问题时没有及时纠正。其次,在数据录入时,由于主试的粗心,导致在录入时出现错录、漏录等现象。最后,主试对于数据分析软件的操作不当也会导致数据的丢失。以上这些因素都可能会产生缺失值从而对研究产生负面影响。

2 常见的缺失值处理方法

倘若在研究中已经无可避免的出现了数据的缺失,则必须采用一些办法来填补这些缺失值,减小其对研究结果的影响。常见的处理方法有以下几种。

2.1 个案剔除法(Listwise Deletion)

该方法是最常见也最简单的缺失值处理方法,在很多统计软件(例如:SPSS)中该方法作为默认的处理方法。该方法的处理思路是,如果在研究的某一变量上存在数据缺失,则将该被试的所有数据从统计分析中删除。当缺失值的数量占数据总数量的比例没有超过20%时,使用这种方法可以很好地解决数据缺失的问题。然而在某些研究中,研究所取得的数据量很小,如果出现缺失值,使用剔除法进行处理,由于该方法的特点,势必会再次减少样本的容量,这样就会严重影响数据的客观性与准确性。同时,当数据是非随机分布时,使用这种方法会导致数据发生偏离,使最终的数据分析产生错误的结论。其次,由于被试某一变量存在缺失值而剔除该被试所有的数据,这会造成资源的大量浪费,很可能丢失了隐藏在其中的重要信息。

2.2 均值替换法(Mean Imputation)

与个案剔除法不同的是,均值替换法不需要删除被试的数据,这样就保留了与缺失变量无关的其他变量的信息,最大程度上的保证了数据的真实性与完整性。在心理学研究中,我们将变量的属性分为数值型与非数值型,对于不同类型的变量缺失值,使用不同的替换方法。当缺失值为数值型,就根据该变量其他所有对象的取值平均值来填充该缺失值;但缺失值属于非数值型则根据统计学中的众数原理,用该变量在其他所有对象的取值次数最多的值来填补这个缺失值。均值替换法虽然简单,但是使用这种方法可能会产生有偏估计,并且使用该方法的前提假设是缺失值的产生是完全随机的。

2.3 热卡填充法(Hotdecking)

对于存在缺失值的变量,热卡填充法首先在数据中找到一个与它最相似的对象,然后用这个对象的值进行填充。不同的问题选择的标准也会不同。一般最常用的是相关矩阵,即确定缺失值所在的变量A与变量B最相关,然后将所有个案的B的取值从小到大排序,变量A的值就可以用排在此位置的变量B的值代替。

2.4 回归替换法(Regression Imputation)endprint

回归替换法利用回归方程的特点,所限选择若干个预测缺失值的自变量,然后建立回归方程来估计该缺失值,利用缺失数据的条件期望值对缺失值进行替换。这种方法利用了数据库中尽可能多的信息。这种方法也存在其自身的缺陷,首先,由于该方法的理论基础是回归方程,那么研究人员在使用该方法前必须要确定缺失值所在的变量与其他变量存在线性关系。其次,基于回归方程的估计虽然是无偏估计,但却容易忽略随机误差的影响,低估标准差和其他未知性质的测量值,这个问题会随着缺失值的增多而变得更加严重。

2.5 多重替代法(Multiple Imputation)

Rubin等人于1987年建立起该方法,该方法的特点在于不是使用单一的数值来替换缺失值,而是试图建立一个随机的样本来估计缺失值。首先,用一系列可能的值来替换每一个缺失值,以反映被替换的缺失值的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。最后,把来自各个数据集的统计结果进行综合,得到总体参数的估计值。通过这种方法,研究人员不仅可以对缺失值进行填充,还可以在不删除任何数据的情况下,对数据的未知性质进行判断。在缺失较少时(10%~20%),采用多重替代法准确度、精确度高于其他方法,且只需较低的填充次数即可达到较好的效果,填充后的分布接近完整数据集分布,并能很好地反映完整数据集的准确度,其处理结果与“实际情况”较接近。

2.6 期望最大化法(Expectation Maxim ization)

该方法常用于对实验缺失值的处理。1930年Allan和威沙特Wishart首先提出插补单一不完整数据的观念,并提出了对单一缺失值的估计方法;Yates于1933年在其基础上进行改良,利用解联立方程组的技巧,将之推广到几个缺失值的插补; Laird和Rubin(1977)利用极大似然估计发展出“EM”迭代算法计算缺失值的方法。EM迭代法估计缺失值的基本思想是,当数据出现缺失值,首先以其它观测值计算估计总平均值、处理效应及区组效应,再采用迭代方式,将上述估计的总平均值、处理效应及区组效应代入到原来的缺失值位置,重新计算总平均值、处理效应和区组效应,再将重新计算的这些值代入重新估计,以此类推,直到前后两次的估计值差异较小时停止。

以上六种缺失值的处理方法各有各的特点,在使用他们进行数据处理时,需要根据不同的情况合理选择处理方法。不同的处理方法有时会带来不同的结果,例如使用个案剔除法进行数据处理后,各变量的标准差可能会明显的增大,而当使用均值替换法时,各变量的标准差可能会明显的偏小。

缺失值的处理需要考虑缺失数据产生的原因、缺失值所占的比例、研究人员的研究能力、时间条件等因素,具体情况具体分析。与后期通过数据处理的方式来弥补缺失值,研究人员更应该注重的是研究的实施过程,只要把好研究的每一道关,就能够尽力避免缺失值的产生,磨刀不误砍柴工,希望广大的研究人员能够深刻理解这个道理。

参考文献

[1] 张朝雄,沈昱,张慧.缺失数据插补方法比较研究[J].市场研究,2007(9):33-35.

[2] 花琳琳,施念,杨永利,等.不同缺失值处理方法对随机缺失数据处理效果的比较[J].郑州大学学报(医学版),2012,47(3):315-318.

[3] 戴稳胜,谢邦昌.实验设计中缺失值的处理[J].统计与决策,2009(9):6-7.endprint

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!