基于多面Rasch模型的大学教师课堂教学能力评价方法研究

时间：2024-05-04

盛艳燕+赵映川

摘要：大学教师课堂教学能力评价是提高教学质量的重要手段。基于多面Rasch模型，实证结果表明不同听课人之间打分的宽严度不一致并对三个评分维度把握不准确，使用教师能力估计值结合聚类分析法划分等级才能更加准确地对大学教师的课堂教学能力进行评价。该方法的实施需要数据分析常态化、听课人管理制度化和评价项目动态更新的管理措施共同推进。

关键词：教学能力评价;能力估计值;多面Rasch模型

大学教师课堂教学能力评价是提高教学质量的重要手段，但这种评价不可避免地带有很强的主观性。面对相同的评价指标，不同评价主体对评价指标的理解和使用往往是不一致的，同一个评价主体对不同课程的评分标准的把握可能也不一致。有的评价者明显要求严格，评分普遍偏低，有的评价者正好相反;有的课程难度相对大，有的课程难度相对比较小。如果教师①讲授的课程难度比较大，又遇到了要求比较严格的评价者，该教师的评分会显著偏低;相反，如果教师讲授的课程难度比较小，评价者的要求比较宽松，该教师很容易得到比较高的评分。现有的评价体系用原始分直接相互比较并按固定的分数段划分等级，评分过高和过低导致评分的区分度不够，评价主体对评价标准的理解和把握不一致导致“苦乐不均”，这种现状严重影响了教师提高教学质量的积极性，必须引起足够的重视。

研究者试图通过构建大学课堂教学质量评价指标体系来解决大学教师课堂教学能力评价的问题，并进行了积极的探索。[1][2][3]目前，相关研究主要集中在评价指标的选择和定义、权重设计和评价活动过程管理方面[4][5][6]，对评价数据的应用问题关注不够，特别是对评价分数的主观性问题和分数的相对高低问题未引起足够的重视[7][8]。要对大学教师的课堂教学能力进行更为准确的评价，我们必须尽量剔除评价分数中不合理的主观性因素，并合理划分评价等级。

多面Rasch模型为剔除主观性因素提供了可行的方法，却不能解决评分等级划分的问题。该方法在人才测评、英语口试等主观评价中得到了广泛的应用[9][10]，在大学课堂教学质量评价中则应用非常少。本文将多面Rasch模型引入大学课堂教学质量评价数据应用之中，用于剔除评价分数的主观性因素，并补充聚类分析法重新划分等级，从而为大学教师教学能力评价提供新思路。

一、研究设计

（一）研究方法

多面Rasch模型将被评价者得到的分数分解为被评价者的能力估计值、评委宽严度、项目难度以及等级难度等因素。被评价者的能力估计值独立于评委的特点以及特定项目的难度，而在大学课堂教学质量评价中，同一个评委往往在不同的时间对多门课程教师的教学情况进行评价，不同课程难度不同，评委对评价指标的理解和把握存在差异，剔除这些因素才能对大学课堂教学质量作出准确的评价。利用Facets3.63.0对数据进行处理，得到被评价者的能力估计值，再利用聚类分析法将能力估计值划分为不同的等级。

（二）样本与数据来源

本次研究从某高校的一个学院抽取了2014年5月至6月的105份课堂教学评价表。其中，听课人共6位，被听课的教师共23位。按照听课人将23位教师的课堂教学评价表进行分类，18位教师分别被4位相同的听课人评分，其他5位教师被若干不同的听课人评分。听课人的编号为A、B、C、D，教师的编号为1、2、3…18。将18位教师的课堂教学评价表抽取出来，每位听课人给每位教师的评分按照同一听课人的平均分计算。例如，编号为1的教师被编号为A的听课人评分两次，编号为A的听课人对该教师的评分按照两次评分的平均值计算，被听课人最后的分数等于4位听课人评分的均值。经过整理，我们得到了4位听课人对18位教师的评分数据共72个，形成本次研究的样本。

（三）描述统计

听课的基本情况为：听课人共4名，其中3名男性和1名女性;被听课人共18名教师，其中10名女性和8名男性。

每位听课人对教师的评分情况见表1。编号为A的听课人打出的最高分为95分，最低分为81分，平均分为86.3，高于平均分的人数为8人，低于平均分的人数为10人;编号为B的听课人打出的最高分为91.5分，最低分为84分，平均分为87.8，高于平均分的人数为9人，低于平均分的人数为9人;编号为C的听课人打出的最高分为94分，最低分为80分，平均分为88.2，高于平均分的人数为8人，低于平均分的人数为10人;编号为D的听课人打出的最高分为93.5分，最低分为83分，平均分为89.1，高于平均分的人数为9人，低于平均分的人数为9人。从评分分布情况来看，A与C的评分比较接近，B与D的评分比较接近。

二、实证分析

教师的原始分数取决于自身的能力、听课人对评分标准的理解和把握程度。我们无法直接评价教师自身的能力，所以将教师的原始分数分解为被评价者的能力估计值、评委宽严度、项目难度以及等级难度等因素，从而得到教师能力估计值。

（一）听课人对评分的影响

1.听课人的宽严度

宽严度用于描述听课人对评分标准的理解和把握的一致性程度，结果见表2。听课人A的宽严度为0.28 logits，是最严格的听课人。听课人D的宽严度为-0.27 logits，是最宽松的听课人。分隔系数为2.94，信度为0.9，听课人宽严度卡方检验x2（4）=28.8，说明听课人之间的宽严度存在显著差异。

宽严度的Infit值表示听课人打分与听课人自身宽严度相符的程度。听课人很难按照一个恒定的宽严度打分，多面Rasch模型允许Infit值在0.5到1.5之间波动[11]，大多数研究设定为0.8到1.2之间[12]。听课人的Infit值在0.81到1.08之间，说明听课人自身对评分标准的理解和把握是比较一致的，没有出现对同一个人打分前后宽严度不一致和对不同的教师打分宽严度不一致的现象。

所以，本研究中宽严度不一致来源于不同听课人对评分标准的理解和把握不一致，而不是听课人打分与自身宽严度不符超过了一定范围。自身能力差的教师遇到了打分宽松的听课人，相对打分严格的听课人，分数有提高的可能性;自身能力强的教师遇到了打分严格的听课人，相对打分宽松的听课人，分数普遍要低。但是，本次研究的4位听课人是相同的，并且4位听课人的打分与自身宽严度是相符的，不同听课人之间的宽严度差异不影响对教师自身能力估计的准确性，但影响原始分数的大小排序，导致按照原始分数评价教师自身能力的准确度不够。

2.听课人对项目难度的把握程度

项目难度用于说明听课人在哪个测评维度上把握严厉（数值大），哪个测评维度上把握宽松（数值小），估计结果见表3。根据该校的课堂评分表，题项2为“讲授思路清晰，重点突出”，该项评分标准把握最为宽松;其次为题项8“理论联系实际，注重实际能力培养”，说明教师在这两个题项上容易得到较高的分数。题项4为“教案准备充分，课堂信息量大”，该项评分维度把握最为严格;其次为题项5“语言表达规范，师生双向交流”，说明教师在这两个题项上很难得到较高的分数。

项目难度的Infit值出现异常，合理的范围为0.5到1.5之间[11]，大多数设定为0.8到1.2之间[12]。题项1“为人师表，治学严谨”和题项7“课堂组织严密，教学纪律良好”小于0.5的临界值，题项3“课堂内容充实，讲授内容熟练”处于0.5到0.8之间，说明听课人在这些评分维度上评分过于一致，区分度不高。

听课人对三个评分维度把握不准确，主要表现为三个维度评分过于一致。原因可能有两个：一是因为听课人没有很好地理解和把握评分标准，分数不能体现教师在这项能力上的差异;二是教师在这三个评分维度上表现比较一致。这三个维度都是比较容易观察的，18位教师的教龄都在5年以上，一般都能达到这三项基本要求。

（二）剔除听课人影响后的教师能力估计值与排序

1.教师能力估计值

18名教师能力估计值范围为-0.92到1.05logits之间，全距为1.97logits。其中，编号为5的教师能力估计值最高，为1.05logits（S.E=0.17）;编号为12和9的教师能力估计值最低，为-0.92logits（S.E=0.16）;编号为16和17、编号为15和3的教师能力估计值是相同的，分别为0.11 logits和-0.99logits。分隔系数为2.89，说明评分整体是有效的。分隔信度为0.89，说明教师能力存在较大差异。 x2 （18）=157.2，p=0.0<0.01，说明教师能力差异具有统计学上的显著差异。

Infit值用于说明听课人评分的一致性程度，是用模型预期值和观测值之间的差异进行描述的统计量。Infit值可接受范围在0.5到1.5之间，具体取值视测评精度需要而定。如果测评精度要求比较高，可以考虑将Infit值设置在0.8到1.2之间。编号为4的教师的Infit值等于1.66，大于1.5的临界值，说明4位听课人对该教师评分非常不一致;编号为17、3、13、12、9的教师的Infit值为0.5到1.2之间，在可接受范围内，但也存在较大不一致;编号为16、1、15、18、14、10、7和2的教师的Infit值都小于0.8，说明4位听课人对这些教师的评分与模型期望相比过于一致。

2.教师能力估计值排序

将原始分数和教师能力估计值分别排序，1表示最高，2表示次高，依次递减。排序结果（见表4）显示，原始分数排序结果与能力估计值排序结果存在明显差异。编号为4、5、8和16的教师的原始分数排序与能力估计值排序是完全一致的。相比原始分数排序，编号为1、15、17的教师能力估计值排序提高了一个名次，编号为2、3、7、6、9、10、12、13和18的教师能力估计值排序提高了两个名次，编号为14的教师能力估计值排序倒退了两个名次。

（三）等级划分

利用SPSS20.0的聚类分析法对教师能力估计值和原始分数进行分类，根据每个类别的均值大小排序，并划分为若干等级，分析结果见表5。

说明：原始分数等级（a）表示按照固定分数段划分等级：90分及90分以上为优秀，80-89分为良好。原始分数等级（b）表示用聚类分析法将原始分数划分为4个等级，教师能力估计值等级表示用聚类分析法将教师能力估计值划分为4个等级。空格内的数字为划分到不同等级的教师对应的编号。

将不同等级划分方法得到的结果进行比较。按照固定分数段划分等级，教学质量评价分数一般分为优、良、中、及格四个等级，90分及以上为优秀，80-89为良好，70-79为中等，60-69分为及格。编号为4、5、8的教师被划分到优秀等级，其他教师被划分到良好等级。用聚类分析法将原始分数分为四个等级，编号为5的教师被划分到优秀等级，编号为1、3、4、8、15、16、17和18的教师被划分到良好等级，编号为6、10、11、13和14的教师被划分到中等等级，而编号为2、7、9和12的教师被划分到及格等级。用聚类分析法将教师能力估计值分为四个等级，相比原始分数划分等级的方法，编号为18的教师从良好等级下降到中等等级，编号为10的教师从中等等级下降到及格等级，编号为5的教师仍然被划分到优秀等级。

三、研究结论与管理建议

（一）研究结论

基于多面Rasch模型，利用某高校2014年5月至6月4位听课人对18位教师的72个评分数据进行了实证分析。结果发现，不同听课人之间打分的宽严度不一致并对三个评分维度把握不准确。因此，我们应该使用教师能力估计值结合聚类分析法划分等级，从而更加准确地对教师的教学能力进行评价。具体分析如下。

1.教师能力估计值对教师真实能力的估计更加准确

测量理论假设分数越高，能力越强，分数代表真实能力，其隐含的假设前提是不存在评委导致的非系统性误差。教师能力估计值是从原始分数剔除评委宽严度、项目难度以及等级难度等因素影响后的余值。如果听课人之间的宽严度一致，评分与自身宽严度一致，对评分项目的理解和把握一致，那么教师能力估计值等于原始分数。相反，教师能力估计值不等于原始分数。

在本次研究中，听课人的打分与自身宽严度一致、不同听课人之间打分的宽严度不一致的现象不足以造成评委导致的非系统误差，但是听课人对三个评分维度把握不准确导致原始分数对教师真实能力估计不准确，这是非系统性误差。因此，原始分数不足以代表教师的真实能力，教师能力估计值对教师真实能力的估计更加准确。

2.教师能力估计值等级划分比原始分数固定分数段划分的方法更准确

将不同分数划分为若干等级的目的是体现分数的相对高低，从而说明教师能力的相对强弱。按照固定分数段划分等级往往是人为规定的，无法体现分数分布状态对分数高低的影响，我们可以采用聚类分析法来解决这个问题。将教师能力估计值与聚类分析法集合起来，既能剔除听课人对分数的主观影响，也能体现分数的相对高低，从而体现教师真实能力的相对强弱。

（二）管理建议

本研究能为大学教师教学能力评价提供有价值的参考，建议将教师能力估计值结合聚类分析法用于大学教师教学能力评价，具体方法如下。

1.数据分析常态化

高校往往将课堂教学质量评价作为教学管理的日常活动，其数据可以作为评价教师课堂教学能力的数据来源。当课堂教学质量评价活动结束后，管理方应组织相关人员开展数据分析，将原始分数分解为教师能力估计值、评委宽严度、项目难度以及等级难度等因素，将教师能力估计值结合聚类分析法将教师分数划分为若干等级。

2.听课人管理制度化

多面Rasch模型可以用于发现打分异常的听课人。对于自身宽严度不一致、评价项目理解和把握不准确的听课人，要进行提示、培训甚至淘汰，建立对听课人的激励和约束机制，促进听课人认真履行职责。

3.评价项目动态更新

管理方应定期组织相关人员对评价项目开展分析，及时更新评价项目。对于分值很高的评价项目，应该将其总分分解为若干等级，并进行定义和描述，促进评委对评价项目的理解和把握。[13]对于区分度不高的评价项目，可以作为教师基本职业规范的评价项目，而不作为教师教学能力评价的项目。对于相关性比较高的多个评价项目，可以考虑利用因子分析法等统计学方法再次提炼，提高评价项目的科学性与合理性。

注释：

①本文的教师均指大学教师，能力均指课堂教学能力。

参考文献：

[1] 裴娣娜.论我国课堂教学质量评价观的重要转换[J].教育研究，2008（1）：17-22.

[2] 喻方元.高校教师课堂教学质量评价体系研究[J].高教发展与评估，2008（3）：80-85.

[3]董河鱼.课堂教学质量评价问题及对策[J].内蒙古师范大学学报（教育科学版），2010（3）：42-43.

[4]刘伟，孙林.基于支持向量机的课堂教学质量评价[J].合肥工业大学学报（自然科学版），2010（7）：968-971.

[5] 谢巍，柏宏斌.模糊评判在高校课堂教学质量评价中的应用研究[J].四川理工学院学报（自然科学版），2006（10）：109-111.

[6] 王振友，王振强，陈莉娥.基于层次分析法的课堂教学质量评价[J].广东工业大学学报（社会科学版），2010（6）：25-27.

[7] 张克非.课堂教学质量评价数据客观性处理及反馈机制探究[J].教学与管理，2014（3）：44-46.

[8] 钱存阳，李丹青.多元统计分析在课堂教学质量评价中的应用[J].数理统计与管理，2005（11）：40-43.

[9] 石志亮.多面 Rasch模型分析软件 Facets在英语测试中的应用研究[J].郑州航空工业管理学院学报（社会科学版），2011（4）：143-148.