语言测试中区别度的统计与应用

时间：2024-08-31

周世界

(大连海事大学外国语学院,辽宁大连 116026)

语言测试中区别度的统计与应用

周世界

(大连海事大学外国语学院,辽宁大连 116026)

在阐述语言统计学和测试学的基础上,以具体的语言测试结果为例对区别度进行分析,指出统计方法是检验区别度的有效方法,并论述区别度在常模参照语言测试中的适用和功能.

语言测试;区别度;常模参照

一、引言

对语言测试结果进行统计分析是衡量教学质量的重要手段,而对语言测试试卷进行预测是保证测试质量的重要途径.评价一份试卷的好坏既要衡量试卷的整体质量,又要评价构成试卷的个体题目质量.评判总体质量一般要分析试卷的效度和信度,而评价试卷的个体题目质量则需要统计其难度和区别度.其中,区别度是衡量试卷个体题目质量的重要指标.

区别度,顾名思义,是语言测试中区分考生语言能力的尺度,反过来讲,就是语言能力水平不同的考生对题目的反应存在的差异.针对试卷中的某一题目,如果语言能力高的考生得分高而语言能力低的考生得分低,说明该题的区别度高;如果语言能力高和语言能力低的考生得分相当,说明该题的区别度低或没有区别度;如果语言能力高的考生得分低而语言能力低的考生得分高,则该题的区别度是负值,说明该题存在很大的问题,需要引起高度的重视.因此,如何衡量题目的区别度构成测试理论研究中,特别是教育统计学中的重要课题.本文旨在基于语言统计学和测试学,以一次具体的测试为例,讲述测量题目区别度的不同统计方法,进而阐述区别度在测试中的应用及其功能.

二、区别度的统计方法

从上述区别度的定义可以看出,如果题目区别度高,则语言能力高的考生得分高,语言能力低的考生得分低;如果题目区别度低,则语言能力高与低的考生得分相当;如果题目区别度为负值,则语言能力低的考生得分高,而语言能力高的考生得分低.因此,保证测试题目的质量就是要保持上述第一种区别度,提高第二种区别度,杜绝第三种区别度的出现.要做到这一点,首先要统计出每个测试题目的区别度,然后针对每一种情况作出不同的处理.

计算测试题目的区别度,往往在试卷设计好之后、正式考试之前进行.在一合理的小范围内(目的是保密),按照考生的语言能力,从高、中、低组中随机抽取一定数量的考生(本研究随机抽取了30名考生)进行预测.

本次测试的内容根据大学英语教学大纲的总体要求而设,一共有86道题,其中前85题为客观题,涉及听力、阅读、语法与结构、改错和完形填空,第86题为写作题.

预测结束后,考生的详细得分都被汇总到一张表格中.其中,行代表每位考生的得分情况,列以T1～T86标注,代表第1～86题,最后一列为每位考生在86道题目上的总成绩.依据每位考生总成绩的高低排序,把得分最高的前10名考生定义为高分组,得分最低的后10名考生定义为低分组,其他考生为中分组.

一个有区别度的题目应该与整个测试的走向一致,也就是说得分高的考生要比得分低的考生有较高的可能答对该题目,否则此题目就不能反映考生的语言能力.

在高分组和低分组人数确定之后(中分组不参与计算),分别计算出每一道题目上高分组的得分(H)和低分组的得分(L),然后按照公式 D=H/ (H+L)计算出每题的区别度(D).例如,本预测中的第7题(T7),高分组得8分,低分组得4分,那么它的区别度为

按照这种计算方法,区别度的取值范围在0～1之间,越接近1说明区别度越高,越接近0说明区别度越低.Grant Henning认为,依据这种方法计算出的可接受区别度区间应在0.67～1之间.因此,第7题的区别度0.67被认为是较低的可接受度.

计算题目区别度的另外一个公式是在得出高低两组实际得分的基础上,分别计算出它们的答对率PH(高分组答对率=高分组答对的人数/高分组总人数)和 PL(低分组答对率=低分组答对的人数/低分组总人数),然后套入公式 D=PH-PL计算,得出区别度.例如第7题的区别度为

按照这种计算方法,区别度的取值范围在-1到+1之间,越接近+1说明区别度越高,越接近-1说明区别度越低.

以上两种区别度计算方法的优点是方法简便,但容易受到极端值(极大值或极小值)的影响.随着计算机和统计软件的不断发展,更加可靠的统计手段不断涌现,其中,独立T检验就是一种很实用的方法.在SPSS中调用成绩汇总表,运行独立T检验后输出每一道题的T-值.表1是经简化的输出结果.

T-值越大说明区别度越高,T-值越小说明区别度越低.在统计学上,0.05被称做显著性水平,它是一个分水岭.如果某题的显著性小于0.05,说明高分组和低分组之间在该题上具有显著性差异;如果某题的显著性大于0.05,则说明该题在高分组和低分组之间即使有差异,也没有达到统计学意义上的显著水准.当题目的显著性从0.05逐渐增大到接近1时,该题在高分组与低分组之间便没有任何差异.

表1 经简化的输出结果

在表1中,第一组包括第 T34、T27、T45、T54、T7、T41、T67题,它们的 T-值都大于2,显著性水平都小于0.05,说明高分组和低分组的考生在这些题目上的反应具有显著性差异.换句话说,这些题目的区别度高,具有很强的区别功能.

表1中的第二组包括第 T14、T50、T31、T39、T58、T74、T77题,T-值从0.493逐渐减少到0,而显著性水平则从0.628逐渐增大到1,说明高分组和低分组之间的差异越来越小,直至显著性达到1时,没有了任何区别度.

表1中的第三组包括第T69、T80、T56、T46、T3题,T-值为负数,表明这部分题存在着严重的问题,说明语言能力高的考生在做这部分题时的成绩没有语言能力差的考生好,出现了匪夷所思的情况.

经过以上的统计分析,试卷中的每一个题目都按照T-值的大小被刻画成不同的区别度.对于区别度高的题目,在预测后将被保留下来用于正式考题中,因为它们具有很高的区别功能,能有效地反映出考生的不同语言能力.对于区别度低的题目则需要进一步修改或删减以提高它们的区别度.根据测试实践,这类题目一般都过于简单,无论语言能力高或低的考生都能做对.而对于T-值呈现为负值的题目,则需要替换,这类题目往往因为太难,所有考生都不能做对.但是,在长期的考试中,语言能力低的考生可能养成了猜题的习惯,他们的猜测准确率高于语言能力高的考生,所以造成这种局面.

三、区别度的适用

区别度是衡量试卷个体题目的重要指标,但不是唯一的指标.区别度只有和难度结合起来才能保证试卷的质量.但是,区别度和难度是两个相互补充又相互矛盾的统一体.区别度和难度哪个被优先考虑,取决于测试的目的和类型.根据测试目的的不同,测试分为常模参照测试和标准参照测试两种类型.常模参照测试用于离散考生的成绩,进而划分考生的语言能力,以预测不同语言水平考生的未来能力;而标准参照测试则用于评价不同语言能力的考生是否达到教学大纲的要求,以测量考生在当前是否掌握了教学大纲所规定的内容.

在常模参照测试(如现行大学英语四、六级考试)中,区别度优先于难度.如果把表1当做试题库,用来设计常模参照测试,设计者首先对"区别度(T-值)"一列从大到小排序,如表2第二列所示.区别度大的题目将被选中,而区别度小或没有区别度的题目,特别是区别度为负值的题目将不被选中.按照区别度从大到小备选出题目之后,参照难度变量(如表2第三列所示)确定最终的测试题目.例如,对于T54、T7、T45题,相同的区别度都达到了统计学上的显著性水准,但是它们的"难度系数FV=答对人数/总人数"却不同.FV值越大,说明题目越简单;FV值越小,说明题目越难.如果考生的语言总体能力低,则T54将被采用,因为该题的难度系数值(0.789)大,说明难度小,更适合于这类考生;如果考生的语言总体能力高,则宜采用T45,该题的难度系数值(0.450)小,说明该题目的难度大.

表2 常模参照测试中的区别度与难度

表2介绍了常模参照测试设计时遵循的原则:区别度优先于难度.如果把同样的试题库用以设计标准参照测试,那么设计顺序则是难度优先于区别度.因为经常以期末考试形式出现的标准参照测试依据的是教学大纲,它要求有较高的答对率或通过率,当测试答对率高到一定程度(如70%～90%)时,题目的区别度就会大幅度下降,直至没有区别度.因此,在设计标准参照测试试卷时,设计者首先对"难度"(FV值)一列变量进行从大到小排序(如表3第三列所示),备选出难度适合的题目后,再对区别度参数进行排序(如表3中第二列所示).

表3 标准参照测试中的区别度与难度

表3中,T67和 T50题、T7和 T77题、T45和T58题,它们分别有相同的难度 0.630、0.500、0.450,但是 T67、T7和T45题的区别度更大,因此, T67、T7和T45题被选中的可能性更大.

由此,区别度和难度是衡量试卷题项的两个重要因素.对于不同类型和不同目的的测试,只有合理解决了区别度和难度之间的优先关系,才能达到测试的真正目标,进而保证测试的信度和效度.

四、区别度的功能

区别度能够区分考生的语言能力,经过区别度的离散过程后,不同语言能力水平的考生成绩会形成一种自然界中常见的模型,称做常态分布或正态分布.其左右对称,呈一倒立的钟形,如图1所示.

图1中,横坐标代表所有考生的成绩,分数从左向右逐渐增大,纵坐标表示得到某个分数的总人数.图形的中间部位最高,说明大多数考生的成绩主要集中在这一区域.左右两端呈现逐渐减小的趋势,说明低分段(左侧)或高分段(右侧)的考生数量逐渐减少.

不同的测试,总分设定不同.无论原始试卷满分多少,都可通过公式 z=(x-x )/sd把所有考生的实际成绩转化为标准分(用z表示).依据这个公式,当考生的成绩等于所有考生的平均成绩时,其标准分等于0,即 x-x=0;当考生的实际成绩高于平均分时,标准分为正数,即 x-x >0;当考生的实际成绩低于平均分时,标准分为负数.经过公式转化后的成绩被标注在横坐标轴上,便构成了图1中显示的"标准分"一项,即-3,-2,-1,0,1,2,3.

图1 区别度的常态分布

标准分呈现负数或零的现象很难被常人所理解,因而在实际的测试中,往往通过另外一个公式,将标准分进行二次转换,形成标准化分数.不同的测试制度采用不同的标准化转换公式,现行大学英语四、六级考试采用"标准化分数=500+70X标准分"的转换公式.其中,500为平均成绩,70为标准差.例如,某考生在百分制测试中的实际成绩经过转化后标准分等于1,那么,其成绩报告单中所显示的标准化分数为570(=500+70X1).如果某考生的标准分为-1,那么成绩报告单上所显示的标准化分数为430(=500+70X(-1)).

在标准分为[-3,+3]的区间内,大学英语四、六级测试的标准化分数区间为290～710,即成绩报告中的最低分为290分,最高分为710分.这个区间能够解释99.74%的考试成绩,几乎囊括了所有考生.

通过区别度的分化,经标准分或标准化分数的体现,不同语言能力的考生被刻画在相对位置上.如果某考生在本次大学英语四级考试中的成绩报告为640分,那么其在本次考试中的标准分为2.当标准分为2时,在图形的右侧切去3.9%面积,如图1所示.这说明该考生的语言能力位于3.9%的最优秀学生之中,语言能力很高.当然,如果成绩报告为360分,则标准分为-2,说明该考生位于语言能力最差的3.9%人之中.

总之,区别度的最终功能在于把测试成绩离散成标准正态分布模型,反映出不同语言能力考生在所有考生中的相对位置.

[1]HENNING G.A guide to language testing[M].Boston: Heinle&Heinle Publishers,1987.

[2]BACHMAN L F.Fundamental considerations in language testing[M].Oxford:Oxford University Press,1990.

[3]BACHMAN L F.Statistical analyses for language assessment[M].Cambridge:Cambridge University Press,2004.

[4]BROWN J D,HUDSON T.Criterion-referenced language testing[M].Cambridge:Cambridge University Press, 2002.

[5]EMBERTSON S E,REISE S P.Item response theory for psychologists[M].New Jersey:Lawrence Erlbaum Associates,Inc.,2000.

[6]周世界.语言统计学[M].大连:大连海事大学出版社, 2004.

Statistics and applications of discrimination in language test

ZHOU Shi-jie

(School of Foreign Languages,Dalian Maritime Univ., Dalian 116026,China)

Based on linguistic statistics and language testing, with a specific language test as example,the paper analyzed the discrimination.It pointed out that statistics are a valid measure to the discrimination.Then it expounded the applications and function of the discrimination in the norm-referenced language test.

language test;discrimination;norm-reference

1671-7041(2010)06-0099-04

H31

2010-06-25

周世界(1967-),男,山东淄博人,教授; E-mail:solyzhou@hotmail.com