当前位置:首页 期刊杂志

多元概化理论在教育教学能力测试中的应用

时间:2024-07-29

陈宛玉,戴海琦

(1.龙岩学院教育科学学院,福建 龙岩 364000;2.江西师范大学,江西 南昌 330022)

我国教师资格证制度自2001年全面实施以来,对我国教师的专业化发展起到了巨大的推动作用[1]。《教师资格条例》要求对申请教师资格者的教育教学能力进行考察和评估,并要求各省 (市)制定有关测试实施细则。目前国内在教师资格认定中都把教育教学能力测试作为重要的把关环节,测试主要采用说课 (或试讲)、面试、答辩等方式对申请人的教育教学能力进行评估。教育教学能力测试已经在各个省份地市广泛使用,然而对教育教学能力测试的专门研究却不多,仅有的研究主要是对测试标准、实施及其必要性的分析[2-4],尚未有对其心理测量学性质的研究。

概化理论是运用实验设计的思想,采用方差分析的统计分析技术,分析测评中的各种变异来源,并进行分解、估计与控制的一种测量方法[5-6]。概化理论能够一次性分析多个测验误差变异的来源,既可以适用于常模参照测验,又可以适用于标准参照测验。而且更多的从整个测验的宏观结构及其与外部测验条件的基础上做深入的计量分析,对于评分设计具有较好的指导作用。概化理论经历了一个从一元到多元的发展过程。多元概化理论较之于一元概化理论在处理多个测量任务或目标测量问题时具有独到的优势。

教育教学能力测试要求评分员对考生多个测评任务上的表现进行评定,其数据特点符合多元概化理论分析的要求。本研究运用多元概化理论对教育教学能力测试数据进行分析,旨在对教育教学能力测试质量、分数合成的合理性、评分误差的来源和测试改进方案等问题进行探讨,进而为后续完善测试设计和评分培训提供参考依据。

一方法

(一)数据来源

数据来源于2011年某市组织的高中英语教师资格申请教育教学能力测试的实测数据,三位评委对47名考生进行打分。该市制定的教育教学能力测试标准要求评分员从说课、面试、答辩三个任务评估申请人的教育教学能力。测试要求对评分员从三个任务的各个方面都给予考生打分,然后合并计算测试总分,考生最终的成绩为三个评委所评总分的平均分,考生达到60分以上视为通过测试。本研究所获取的初始数据包括各个评分员对每一考生说课、面试、答辩等任务的成绩。测试的总成绩为100分,其中说课总分为50分,面试为20分,答辩为30分。

(二)分析思路

教育教学能力测试包括说课、面试、答辩等三个测评任务,评分员对每个考生在每个任务都进行了评分。因此测试数据特点选择多元概化理论中的三因子的单面随机交叉设计 (p˙×r˙)。其中p代表考生教育教学能力,为测试目标;r代表评分员侧面,有3个水平。

(三)研究工具

本研究采用多元概化理论分析的专门软件mGEVENA2.1[7]编写程序进行教育教学能力测试数据进行处理。

二结果

(一)G研究

1.G研究方差分量和协方差分量的估计

应用mGEVENA程序可以得到测量目标p和测量侧面r的主效应和交互效应在说课、面试、答辩三个任务上的方差分量和协方差分量估计值。具体结果见表1。

表1 G研究的方差分量和协方差分量

由表1可知,三个任务方差分量的估计值中,说课的方差分量最大 (11.00956),面试的方差分量最小 (1.53114)。这说明在本次测试中说课所起的作用最大,答辩所起的作用其次,面试所起的作用最小。从数据结果上来看,这也与测试设计者对说课、面试和答辩所赋总分值较为一致。

从被试效应的协方差和相关系数来看,三个测试任务之间协方差较大,存在较高的相关,其中面试与答辩的相关相对较低 (0.68294),说课和答辩的相关最高 (0.78552)。说明考生在三个评分任务的得分存在较高的一致性。另一方面也反映了在本次测试中将三个任务当做三个测试目标进行分析是符合MGT的要求的。

从评分员主效应的协方差来看,三个测试任务之间的协方差较大,表明评分员在各个测试任务上的打分一致性较高,即在说课任务上打分较高的评分员在面试和答辩任务上的打分也比较高,评分员在各分测验上评分间的相关较高。

2.G研究各测试任务中不同侧面所占的比例

表2列出了G研究各测试任务下不同侧面所占的比例。

表2 G研究各测试任务中不同侧面所占的比例

从考生效应来看,三个测试任务的考生效应相对都占到了较大的比例,但在面试和答辩任务上略微较低。三个测试任务中评分员效应所占比例不小,特别是在答辩任务上,说明不同评分员在评分中所持的宽严程度不一,特别是在答辩任务上所持的宽严程度差别更大。三个测试任务中考生与评分员的交互效应中占总变异的比例在 8.43% -30.05%之间,其中面试任务中交互作用所占的比例较高,反映了在面试任务中评分员更容易出现评分宽严程度不一致的现象,评分员在面试任务中出现看人打分的情况更为严重。

(二)D研究

1.D研究中方差分量与协方差分量的估计。D研究设计与G研究设计p×r一致,测量模式同为随机模式,评分员人数为3。根据G研究的结果可得到样本均值意义上的各种变异来源的方差与协方差分量如表3所示。

表3 D研究p×R设计的方差与协方差分量

(注:矩阵中主对角线上的元素为各效应在相应因子上的方差分量估计,主对角线以下元素为各效应在不同因子间协方差分量的估计、主对角线之上为因子间相关系数的估计。)

2.各测试任务全域分数估计的精度问题。根据G研究的结果,可估计测试任务的全域分数、相对误差与绝对误差估计的方差分量,进而计算各个测试任务的概化系数和可靠性系数,以及相对信噪比,结果见表4。

表4 D研究p×R设计各个测试任务的概化系数等指标

从结果来看,说课任务的全域分方差分量最大,答辩任务的全域分方差分量其次,这与设计者赋予的总分基本一致。从概化系数来看,三个任务的信度0.83049-0.95289之间,其中说课任务和答辩任务的信度基本理想,面试任务的信度较低。另一方面三个测试任务的可靠性系数在0.73955-0.79798之间,普遍不高,这也反映了由于评分员之间存在宽严程度的差异,当测试结果用作绝对决策时存在较大误差。

3.全域总分的测量精度研究。本研究按照测试的规定,将说课、答辩、面试进行合成,计算全域总分的方差,以及相应误差的方差分量估计,进而估计全域总分的概化系数和可靠性系数,具体结果见表5。

由表5可以看出,全域总分的概化系数为0.96524,说明本次测试总体具有较高的信度。全域总分的可靠性系数0.77232,说明测试的在用于绝对决策时还存在一定的误差,有待提高。

表5 D研究合成全域分数的方差分量等指标的估计

4.各测试任务对总方差的贡献比例的研究。根据以上结果可以得到各个测试任务对总方差的贡献比例见表6。表6中我们也列出了三个测试所赋总分及比例,以比较测试设计与实际方差贡献是否一致。

表6 各测试任务对总方差贡献的比例与测试任务赋分比例的比较

从表6来看,三个测试任务指标对全域总分的贡献比例与设计者的赋分基本一致。在说课任务上所赋总分比例为 50%,实际的方差贡献率为49.91%,基本相接近。面试任务所赋总分比例为20%,实际方差贡献率为16.12%,略微低于赋分比例。答辩任务所赋总分比例为30%,实际方差贡献率为33.97%,略微高于赋分比例。这表明此次教育教学能力测试在决定各个测试任务权重方面还是做得比较好的。

5.改变评分员人数对测量精度的影响研究。为了研究改善教育教学能力测试的方法,本研究通过改变各个测评任务的评分员人数来观察测量精度的变化特点,具体结果见表7。

表7 改变评分员人数对测量精度的影响

由表7中可知当评分员人数为1时,全域总分的概化系数还较高,但可靠性系数降低较大。当评分员人数为3时,全域总分的概化系数有较大提高,但可靠性还略微较小,不满足测评要求。从增幅来看,当评分员人数超过6人时,增加不再明显。考虑到教育教学能力测试是一种标准参照测验,下图我们单独分析了可靠性系数随评分员人数不同而变化情况。

图1 评分员人数变化对全域总分可靠性系数的影响

从图1中我们也可以较为直观的看出减少评分员数量和任务数量,将导致测试的可靠性急剧下降,当试任务为5个时,可靠性系数的变化不再明显,并且基本达到预期测试精度。

由图2所示。

图2 评分员人数变化对各测试任务可靠性系数的影响

随着评分员人数的增加,三个评分任务的可靠性系数均有所增加。相对比较而言,不管如何增加评分员人数,说课任务的可靠性系数一直高于面试和答辩任务的可靠性系数。

三 讨论

1.从G研究各主效应结果来看,三个测评任务中,评分员效应都有相应的较大的比例,这也反映了评分员在评分中所持的宽严标准可能不同。教育教学能力测试属于标准参照测试,评分员的取样对考生评分有一定影响,在以后的测试中有必要加强评分员队伍的培训,以此来保证测评的公平性。从评分员与考生的交互作用来看,说课和答辩任务上,交互作用所占的比例较小,说明在这两个任务上评分员具有较好的内部一致性。面试任务的考生与评分员的交互作用所占的比例较大,反映了评分员在面试评分中内部一致性较差,反映了评分员没有较好把握面试评分要求。

2.多元概化理论的分析除了报告出各测评侧面的主效应和交互效应的方差分量之外,同时报告了协方差分量。协方差分量为我们提供了额外的信息。考生效应的协方差有助于我们解释测评任务结构的合理性,从被试效应的协方差和相关系数来看,考生在三个评分任务的得分存在较高的一致性,将三个测评任务合并作为教育教学能力的总体评估具有一定的合理性。评分员主效应的协方差较大表明评分员在各个测试任务上的打分一致性较高,评分员内部一致性较高。

3.本次测试各个测试任务的合成的全域分数概化系数在0.96524之间,说明本次测试适合做相对决策。全域分数可靠性系数在0.77232,微低。考虑到教育教学能力测试是一种较高利害的标准参照测试,因此还应该改进测试和增加评分员数量来提高可靠性系数。三个测评任务中,面试的概化系数最低,评分员在主观性较高的面试任务上较容易出现评分的不一致性,因此后续为提高测评精度,应在面试任务评分上加强对评分员的有针对性指导。从本研究的三个测试任务对测试总分的方差贡献量来看,说课任务的贡献量最大,答辩其次,面试最小。从贡献比例和测试设计者对每个任务赋分情况的比较来看两者基本一致,说明本次测试的设计具有一定的合理性。

从结果来看,使用三个评分员进行评分,做决策时存在着一定的风险。提高评分员人数可以提高决策的有效性和公平性。研究结果表明随着评分员人数的增加,概化系数和可靠性指数不断提高,但增加的幅度递减。考虑到实际测评的需要和测试的人力成本,将评分员的数量提到5名是比较合适的。此时的概化系数为0.97885,可靠性系数为0.84971,已经可以满足测评的精度要求。当然选拔和培训评分员同样重要。

四 结论

1.本次教育教学能力测试将说课、答辩和面试成绩进行合成是比较合理的。总体而言测试结果较适合于相对决策,不适宜做绝对决策。

2.三个测评任务中说课和答辩的评分质量较好,面试评分的质量较差,后续尤其需要加强主观性较强的面试评分方面的培训。

3.影响教育教学能力测试质量的主要原因是评分者宽严程度不一。后续应加强评分员的培训,使其统一对各测评任务的认识。

4.通过增加评分员人数可以提高教育教学能力测试的精度,但增幅递减,当评分员人数为5时,结果已经能够较好满足测试要求。

[1]魏新春.改进与完善我国教师资格证制度的思考[J].临沂大学学报,2011,33(5):23-25.

[2]徐玉斌.初中教师资格教育教学基本能力测试方案初探[J].河南教育学院学报,2003,22(1):30-32.

[3]邹循东,黄坤,陆家海.为什么对非师范类专业毕业的教师资格申请人进行教育教学能力培训考试 [J].广西教育,2004(11):11.

[4]陈振豪,沈惠君.教育教学能力测试的建议[J].上海教育,2005(06B):32-33.

[5]BRENNAN.Generalizability theory[M].New York: Springer Verlag,2001:3-5.

[6]杨志明,张雷.测评的概化理论及其应用[M].教育科学出版社,2004:18-20.

[7]BRENNAN.Manual for mGENOVA Version 2.1[M].I-owa:Testing Programs Occasional Papers,2001:45-67.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!