在线考试与传统考试成绩等效性研究

时间：2024-05-07

【摘要】

在计算机科学与互联网技术飞速发展的背景下，以计算机为辅助手段的在线考试已经在学校得到深入应用与推广。过去几十年，国外不少实证研究比较了在线考试与传统考试成绩等效性问题，然而研究结果不一。鉴于此，本研究采用元分析方法，以2000—2020年发表的37篇文献中的55项研究为样本，对在线考试与传统考试成绩等效性问题进行了系统综述。研究发现：样本合并效应量为0.0657，表明在线考试成绩与传统考试相比无显著差异，但两者等效性受考试科目、考试场景、考生学段以及考生倾向等因素影响;从考试科目来看，在线考试最不利于数学科目;从考试场景来看，在固定场景进行的在线考试成绩与传统考试更具等效性;从考生学段来看，在线考试最不适合于小学生;从考生倾向来看，对在线考试倾向高的考生其在线考试成绩会更好。基于此，文章最后提出若干条有针对性建议，以期为我国更有效地开展在线考试提供相关参考与借鉴。

【关键词】在线考试;网络考试;成绩等效性;在线教育;互联网+教育;人工智能+教育;教育评价改革;元分析

【中图分类号】 G434 【文献标识码】 A 【文章编号】 1009-458x（2022）1-0073-12

一、引言

近年来，互联网、大数据、人工智能等现代信息技术得到了快速发展，并对教育领域产生了深刻影响。在线教育作为现代信息技术与教育深度融合所产生的教育新形态，受到党和国家的高度重视。2019年9月，教育部等十一部门印发了《关于促进在线教育健康发展的指导意见》，提出“到2022年，实现现代信息技术与教育的深度融合，在线教育质量不断提升，学习型社会建设取得重要进展”的发展目标（教育部， 2019）。2020年上半年，为应对新冠肺炎疫情，教育部提出了“停课不停学”的要求，鼓励广大师生充分利用信息化教育资源和平台合理开展线上教育。在线考试作为在线教育的重要组成部分，对促进学生学习、评价学生学习效果具有重要作用。2020年10月，中共中央、国务院印发《深化新时代教育评价改革总体方案》，提到要“充分利用信息技术，提高教育评价的科学性、专业性、客观性”（国务院， 2020）。在线考试作为技术赋能教育所产生的一种新型评价方式，其评价结果与传统考试相比是否具有等效性？在线考试能否测量出考生的真实水平？考生的在线考试成绩会受到哪些因素影响？为回答以上问题，本研究采用元分析方法对2000—2020年国际上开展的有关在线考试与传统考试成绩等效性的实证研究进行系统综述，力图为国内关心这些问题的学生、家长、教师和相关教育研究人员提供一些参考与借鉴。

二、文献综述

基于已有文献，本研究从在线考试与传统考试的特征比较、针对在线考试与传统考试成绩等效性问题已有的研究分歧以及产生结论分歧的可能性因素三方面进行文献梳理。

（一）在线考试与传统考试的特征比较

在线考试（online examination）是指基于网络教学平台或智能考试系统在计算机或移动终端进行的远程网络考试，也称“线上考试”“网络考试”“远程考试”等。在线考试的历史可以追溯到20世纪70年代初的美国（Drasgow， 2002）。然而，当时受有限的计算机数量和高昂成本的影响，在线考试形式并不多见。如今，随着网络技术不断发展以及计算机、手机、平板电脑不断普及，在线考试的应用也日益广泛和多元。例如，在美国高等教育中的研究生成绩考试（GRE）、托福考试等就采用了在线考试形式。在美国初等教育中，越来越多的州也开始将在线考试作为其K-12評估项目的一部分（Olson， 2003）。在我国，在线考试也被越来越多地用于学生心理测试、外语考试、计算机等级考试等场合中。

相较于基于纸笔的传统考试方式，在线考试具有智能出题、智能组卷、智能考务、智能阅卷和智能反馈等特点，以及降低成本、保障安全、自动保存、随时调阅等方面的优势（如表1所示）（Bayazit & Askar， 2012; Gvozdenko & Chambers， 2007）。

具体而言，在线考试对学生、教师和教学管理者均有不同层面的益处：对学生而言，首先在线考试可以使考生摆脱时间和空间限制，提高考试便利性;其次在线考试丰富、立体、快速的反馈有利于学生开展形成性评价与自我评价，及时发现自己的优势与不足（Nguyen，et al.， 2017; Smith & Caputi， 2007）。对教师而言，在线考试一方面可以提高工作效率、减少阅卷统计失误、保证考试公平;另一方面，教师可以及时查看在线考试系统反馈的数据分析报告（如学生作答数据、成绩数据、试卷知识点分析、难度分析等）用于教学改进。对教学管理者而言，在线考试可以减少试题打印与保管、考场安排与监考、试卷分发与收集等传统环节，提高组织效率和管理质量。教学管理者还可利用在线考试系统快速分析考试数据，查看不同班级、年级，甚至不同学校、不同地区的考试分析报告，从而进行确切的教学评估，有针对性地开展教学干预。

尽管在线考试有很多优点，但也存在一些缺点和限制：一、容易作弊。若在线考试在非固定的考试环境中进行，并且在线考试系统缺少身份识别和作弊监测等功能，在这种情况下在线考试在某种程度上等同于开卷考试。二、存在技术门槛。编制在线考试试题材料需要教师具备一定信息处理能力，实施在线考试也需要学生对操作考试系统较为熟练。三、易受外部条件影响。在线考试不仅需要具备良好的硬件设备、流畅的考试系统以及稳定的网络环境（杨宝山， 2010），而且对学生自身意志力也提出了更高要求。

（二）已有研究分歧

过去几十年，关于在线考试与传统考试成绩等效性问题国外已有不少实证研究。所谓“等效性问题”是指在同等条件下学生参与在线考试取得的成绩是否等同于参与传统考试所取得的成绩，即两种不同考试方式是否会造成考生成绩上的显著差异。然而，这些研究结论尚未统一，一些研究报告两者没有显著差异（Meade， et al.， 2007; Mason， et al.， 2001; Kim& Huynh， 2007; Hamhuis，et al.， 2020; Choi，et al.， 2003; Poggio， et al.， 2005; Ebrahimi & Seyyed， 2019; Seo & Jong， 2015），另一些研究报告两者存在显著差异（Coniam， 2006; Marcos， et al.， 2010; Pomplun， 2002; Nardi & Ranieri， 2019; Clariana & Wallace， 2002）。

1. 无差异

曼森等（Mason， et al.， 2001）研究发现，在线考试成绩与传统考试成绩相当。尤其是当学生掌握基本的计算机技能，并且在线考试系统为学生提供题目速览、跳跃作答、修改答案以及复习检查的机会时，学生在线考试成绩等同于传统考试成绩。同样，米尔萨普（Millsap， 2000）研究证实，当在线考试系统包含与传统考试完全相同的考试题目、顺序和布局时，不同考试方式对考生成绩没有显著影响。布拉西姆和塞耶德（Ebrahimi & Seyyed， 2019）同样发现，在两种不同考试方式下所有受试者的考试分数不但没有表现出显著差异，而且参加考试的男性和女性成绩也未发现显著差异。

在此基础上，有研究者对两种考试方式中的各个科目成绩进行比较，同样没有发现显著差异。例如，金和黄（Kim & Huynh， 2007）对韩国不同学校学生的代数和生物科目期末在线考试与传统考试进行对比，发现不同考试方式对两门科目的考试成绩没有显著影响。同样，汉姆等（Hamhuis， et al.， 2020）對荷兰532名四年级学生的数学和科学科目在线考试成绩与传统考试成绩进行对比，也未发现显著差异。霍凯等（Horkay， et al.， 2006）以八年级学生为研究对象探讨在线写作考试与传统写作考试成绩的可比性，结果显示两者平均分没有显著差异。霍克勒内特等（Hochlehnert， et al.， 2011）让98名大学医学生自由选择考试形式，也未发现两者成绩存在显著差异。这些研究结果表明，在线考试成绩与传统考试成绩具有等效性，考生在两种考试方式上所取得的成绩不存在显著差异。

2. 有差异

然而，国外有实证研究同样证实，考生在两种不同考试方式上取得的成绩会存在显著差异。其中一些研究者观察到，与传统考试相比，考生在线考试成绩会更高。例如，邦德森等（Bunderson， et al.， 1989）开展了三项实证研究，均发现学生在线考试成绩会显著优于传统考试成绩。同样，克拉丽安娜和华莱士（Clariana & Wallace， 2002）研究发现，学生在线考试成绩会显著优于传统考试成绩，并且优等生尤为明显。在此基础上，一些研究者对不同学段学生的考试成绩进行对比研究，也得出同样结论。例如，马科斯等（Marcos， et al.， 2010）将不同学校14～21岁的高中生和大学生分成3个实验组进行对比分析，发现选择在线考试的考生其考试成绩显著优于选择传统考试的考生。

与此相反，也有研究者观察到与传统考试成绩相比，考生在线考试成绩会更低。例如，侯赛因等（Hosseini， et al.， 2014）对伊朗大学一年级英语专业学生的两种考试成绩进行对比研究，发现参加在线考试的学生其成绩显著低于参加传统考试的学生。郑（Jeong， 2014）对韩国六年级学生的韩国语和科学科目的两种考试成绩进行对比，同样发现所有参与者在传统考试中的成绩更好。以上研究结果表明，在线考试成绩与传统考试成绩不具等效性，考生在两种考试方式上取得的成绩会存在显著差异。

（三）产生分歧的可能原因

根据已有文献，导致研究结论不一的原因可能与考试的题型、考试科目、考试设备、考试场景、考生学段、考生倾向和文献发表的年份等因素有关。

1. 考试题型

选择题、填空题或者主观题等不同考试题型可能是影响实验结果的一个重要因素（Ventouras， et al.， 2011）。正如科尼亚姆（Coniam， 2006）所说，进行在线考试时，当考试题型的作答要求较少时（例如选择题只需点击正确答案即可），考生对在线考试的态度是积极的。当在线考试题型有较多的要求时（例如填空题、主观题必须输入单词或短语），与传统考试相比，考生对在线考试的态度和在考试中的表现则会差得多。罗素和海尼（Russell & Haney， 1997）对中学生在两种考试方式下的多项选择题和简答题成绩进行了比较分析，发现考生在多项选择题上的得分差异不显著，但在开放式简答题上的得分差异显著，并且习惯于使用计算机写作的学生其在线考试成绩会更高。

2. 考试科目

考试科目的学科性质差异也可能是造成实验结果存在差异的原因之一（Prisacari & Danielson， 2017）。例如，对于数学科目而言，有研究发现学生在传统考试中表现会更好。因为在传统考试时，学生可以直接在试卷的空白处或草稿纸上进行计算，而在参加在线考试时，学生的注意力必须在计算机屏幕和草稿纸之间来回切换，这会造成更多的计算错误（Kingston， 2008; Randy， et al.， 2008）。此外，外语、语文等对阅读要求较高的科目其考试成绩也会受考试模式影响（Halamish & Elbaz， 2020）。例如，在对挪威小学生的研究中，曼根等（Mangen， et al.， 2013）观察到，参加传统考试的学生其阅读成绩会显著优于参加在线考试的学生，其中在计算机屏幕上频繁滚动阅读文本是造成在线考试表现较差的原因之一。桑切斯和韦利（Sanchez & Wiley， 2009）的研究也发现，频繁地屏幕滚动阅读会降低考生记忆容量，对考试成绩具有负面影响。

3. 考试设备

计算机、平板电脑、手机等不同的在线考试设备也可能是影响考生在线考试表现的又一关键因素。例如，达迪等（Dadey， et al.， 2018）发现，跟台式电脑相比，平板电脑和手机的虚拟键盘可能会增加在线考试的操作难度，导致更多的打字错误。同时，由于平板电脑或手机屏幕更小，考生所需的阅读时间会比台式或笔记本电脑更长，因而可能会造成更多的负面影响。此外，平板电脑或手机提供了许多额外的易使用功能（如内置摄像头），这也可能会分散学生对考试任务的注意力。

4. 考试场景

被试群体所在的考试场景也可能是导致研究结论不一致的关键因素。以往，学生的在线考试通常是在有专业人员监督的固定场景中进行（如学校的计算机教室）。如今，随着互联网技术的快速发展，以及便携式电脑、平板、手机等移动终端不断普及，学生参与在线考试的场景也变得灵活多样。同样是在线考试，考生在弹性灵活的考试场景与有监考人员监督的正式场景中的表现可能会有所不同。例如，伊尔加兹和阿达尼尔（Ilgaz & Adanır， 2020）发现在未经监考的在线考试场景中学生可能会使用额外的考试资源，导致在线成绩更高。

5. 考生学段

小学生、中学生或大学生等被试群体的不同也可能是造成以往研究结果不一致的重要因素。基于信息系统的在线考试需要一定的技术门槛，由于不同学段的学生对计算机技术的掌握程度不同，因此可能会产生不同的研究结果。尤其是低学段学生相对缺乏在线学习和考试经验，在进行在线考试时更容易出现注意力不集中、阅读疲劳等问题（Pomplun，et al.， 2006）。例如，有研究表明，小学生普遍认为在电脑上考试会比纸上更难作答，而高年级段的学生特别是大学生对在线考试则更有经验与信心，进行在线考试时有更好的专注力和自控力（Karay， et al.， 2015）。

6. 考生倾向

被试群体的考试倾向可能是导致以往研究结果不一致的另一个重要因素。在同等条件下，与随机分配或被迫安排进行在线考试的考生相比，那些对在线考试持更积极态度、自愿选择在线方式进行考试的考生往往能取得更好的成绩。例如，纳尔迪和拉涅利（Nardi & Ranieri， 2019）对学生在线期末考试的表现、感知和倾向进行了调查，结果显示，学生们的在线考试成绩与个人对在线考试的倾向和自我效能感呈正相关，其中自愿选择在线考试的考生其成绩会显著优于传统考试组的考生。

7. 文献发表年份

文献发表年份大致体现了作者开展实验研究的年份，由于受当时科技发展水平的影响，在不同时期进行的研究实验可能会得出不同的研究结论。例如，齐菲勒（Ziefle， 1998）的综述证明，考生在传统考试中的成绩会显著优于在线考试，因为计算机显示屏会使考生眼睛更易疲劳。然而，作者主要是基于20世纪八九十年代的研究进行的综述。进入21世纪后，随着计算机硬件和在线考试软件等的不断优化升级，实验结果可能也会随之出现不同。

综上所述，本研究将以上七个可能导致研究结论存在分歧的因素作为本次元分析的调节变量，分别检验不同调节变量对分析结果的影响。

三、研究方法与过程

为更客观地比较在线考试与传统考试成绩是否具有等效性，本研究使用国际教育技术研究中广泛应用的元分析（meta-analysis）方法。元分析是一种综合了多个实验或准实验研究结果并从中获得实验平均效应量的统计分析方法（Lipsey&Wilson， 2000）。每个实验结果均可呈现为一个或多个效应量（effect size），即实验组与控制组之间的标准化均差（standardized mean dfference，SMD）。通过将不同实验的各个效应量进行合并，得出这些研究的整体结论。本研究使用R（3.6.3）软件进行数据统计分析，用到的程序包有“esc”“meta”“dmetar”。

（一）原始文献检索

本研究以Web of Science、EBSCO、SpringerLink、ERIC、Scopus等英文数据库为数据来源，以在线考试和（与）传统考试为关键词进行检索，检索时间范围为2000—2020年。其中，“在线考试”关键词包括online test、online exam、E-examination、E-assessment、electronic exam、computer-based assessment、Web-based assessments、digital assessment等。“传统考试”关键词包括traditional test、traditional examination、paper-based testing、paper-pencil test等。为避免遗漏，本研究通过Google Scholar补充检索，同时借助相关文章的参考文献进行滚雪球式搜索，此次元分析的所有原始文献均为英文文献。

（二）文献筛选标准

由于初步检索的文献并不完全符合元分析设定的条件，因而需要对初始文献进一步“过滤”。结合元分析方法和研究需要，本研究样本筛选标准如下：

（1）原始文献必须是比较在线考试与传统考试成绩差异的研究，如果只是探究在线考试的特征、应用以及人们对在线考试的态度、偏好类的文献需排除。

（2）原始文献的研究必须是实验和准实验类的实证研究，并且文献中包含能够计算出效应量的完整数据，如实验组和控制组的样本量，各个组实验后结果的平均值、标准差，或者两組结果差异的F值、t值等。非量化类的实证研究以及数据报告不完整的文献需排除。

（3）原始研究的被试必须是在校学生，如小学生、中学生、大学生等，并且涉及具体的考试科目。被试群体为教师、职场人士或老年人群体的文献需排除，研究方法为问卷调查、心理量表测试类的文献需排除。

基于以上检索及筛选，本研究最终获得37篇有效原始文献，根据这些文献可以得到适用于元分析的样本55个（有些原始文献包含多项实验，可以计算出多个效应量）。根据元分析统计理论，在样本量不低于30的情况下进行元分析更能确保结果的准确性和可靠性（宋伟， 2013），因此本研究的样本量满足元分析标准。

（三）信息提取与编码

为更好地了解原始文献信息，找出潜在调节变量，作者对原始文献进行了系统梳理，从每篇文献中提取出相应的信息并进行编码，提取和编码的信息包括文献第一作者、发表年份、考试题型、科目、设备、环境以及考生的学段、倾向等（见表2）。

（四）效应量计算

在纳入的原始文献中，由于不同研究实验或准实验设计不同，测查工具不同，并且多数实验研究或准实验研究的样本量较小，因此选择Hedges’s g作为效应量更合适，发表偏倚更小一些。在具体的效应量计算过程中，如果一篇文献包含多项研究，不同研究之间相互独立且能反映在线考试的效果，则将每项研究作为一个单独的研究结果并计算其效应量。若文章中出现两个以上对照组，则将每个对照组和实验组的结果作为一个研究结果，并计算其效应量。如果Hedges’s g为正数，表明实验组平均得分高于控制组，在本研究中则为在线考试平均成绩高于传统考试平均成绩;负数则相反。Hedges’s g绝对值越大，则表明两者成绩差异越大。本研究使用R软件中的“esc”程序包对各项研究的效应量进行逐个计算。

四、结果检验与分析

根据元分析统计要求，本研究首先对纳入的原始研究样本进行发表偏倚检验、异质性检验和敏感性分析。在确保元分析结果稳健的前提下，选取适切的统计效应模型，对55项研究样本进行效应量合并计算，并依次对潜在调节变量进行调节效应检验。

（一）发表偏倚与异质性检验

发表偏倚指相对于没有统计显著意义的阴性研究结果而言，有统计显著意义的阳性研究结果更有机会或更快获得发表。这会使检索到的相关文献不能全面、系统地代表该领域的总体应用效果，进而影响元分析结果的可靠性，因此有必要进行发表偏倚检测和分析（Rothstein， et al.， 2005）。本研究采用定性漏斗图法和定量Egger法检测研究样本的发表偏倚。如果研究样本存在发表偏倚，则会出现不对称的漏斗图。漏斗图的对称程度直接体现了研究样本发表偏倚的程度。

本研究首先使用R软件“meta”程序包中的funnel（）函数，将55项研究样本的效应量和标准误数据绘制出漏斗图。如图1所示，所有研究样本的效应量基本围绕平均效应量对称散开，且大部分研究处于漏斗图中上部，分布于底部的研究较少，说明研究样本发表偏倚较小。为保证研究科学性，本研究进一步采用R软件“dmetar”程序包中的eggers.test（）函数，利用Egger法进一步检测发表偏倚，回归检测结果显示t = -0.384，P=0.70>0.05，表明研究样本间发表偏倚不显著。因此，本研究得出的合并效应量具有稳健性。

进一步参照Q统计量指标进行样本异质性检验，研究发现55个有效样本的异质性结果为Q=1027.85，P < 0.001，表明样本间具有较大异质性，因此合并效应量时需利用随机效应模型（random effect model）消除异质性差异，以避免出现系统误差。

（二）敏感性分析

为检验是否存在影响总体效应量的异常值，本研究进一步采用“逐一去除法”（leave-one-out-analyses）进行敏感性分析，检验所选研究样本的极端效应量对总体效应量是否存在显著影响。使用R软件“dmetar”程序包中的InfluenceAnalysis（）函数进行检验操作。如图2所示，在随机效应模型下，将55项研究样本的效应量逐一去除后从小到大进行排序，合并效应量均在0.0～0.1，并且紧密围绕平均效应量，意味着删除任何一项研究后都不会影响总体效应量的估计，表明本研究元分析的结果比较稳健。

（三）在线考试与传统考试成绩之间的整体差异

为比较在线考试与传统考试成绩之间的整体差异，本研究使用R软件“meta”程序包中的metagen（）函数进行随机效应模型下的效应量合并，并使用forest（）函数生成森林图，如图3所示。

在随机效应模型下，本研究的55个样本合并效应量Hedges’s g = 0.0657。依据科恩（Cohen， 1988）提出的效应量分析理论，当效应量在0.2～0.5，可以认为差异较小;当效应量在0.5～0.8时，可以认为有中等差异;当效应量大于0.8时，则认为差异很大。本研究的总体效应量低于0.1，说明在线考试成绩与传统考试成绩相比差异很小。并且合并效应量的95%置信区间为[-0.0663;0.1977]，预测区间为[-0.8774;1.0088]，均包含零。这表明，从已有研究的元分析结果看，在线考试成绩与传统考试成绩之间不存在显著差异，两者具有等效性。

（四）调节变量的调节效应检验

为检验调节变量是否对研究结果产生调节作用，在随机效应模型下，本研究使用R软件“meta”程序包中的update.meta（）函数依次对考试题型、科目、设备、场景、考生学段、考生倾向、发表年份等分类变量进行亚组分析。

1. 考试题型

本研究将原始研究样本按照考试题型分为两类：客观题（K=48），包括选择题、判断题和匹配题等;混合题（K=7），既包括客观题也有主观题。具体结果如表3所示。

从组间效应来看，差异比较结果为Qbet=0.170，P=0.679>0.05。这表明，题型不存在调节效应，即客观题、混合题两种题型对在线考试与传统考试成绩等效性无显著影响。具体来看，两种题型的效应量均为正值，其中客观题的效应量为SMD=0.073（P=0.323>0.05），稍微大于混合题的效应量SMD=0.017（P=0.878>0.05），表明學生在线考试中客观题和混合题的成绩都稍微优于传统考试，其中客观题成绩稍微优于混合题，但两者差异都不显著。

2. 考试科目

本研究将原始研究样本按照考试科目分为五类，即外语（K=16）、阅读（K=6）、数学（K=8）、自然科学类（K=19）和社会科学类（K=6），具体结果如表4所示。

从组间效应来看，差异比较结果为Qbet=11.381，P=0.022<0.05，达到显著水平。这表明，考试科目对在线考试与传统考试成绩等效性具有显著调节作用，即学生在线考试成绩会受到考试科目的显著影响。具体来看，数学科目的效应量最低，达到小效应（SMD=-0.329，绝对值大于0.2），并且显著（P=0.011<0.05）。这表明在线考试对学生数学科目成绩具有较小的显著负向作用。其他考试科目的效应量均为正值，其中社会科学类效应量最高且达到小效应（SMD=0.230>0.2），但不显著（P=0.100>0.05）。

3. 考试设备

本研究将原始研究样本按照考试设备分为三类，即电脑（K=50）、平板（K=3）和手机（K=2），具体结果如表5所示。

从组间效应来看，差异比较结果为Qbet=2.227，P=0.328>0.05，未达到显著水平。这表明，考试设备对在线考试与传统考试成绩等效性不具有显著调节作用，即学生在线考试成绩不会受到考试设备的显著影响。具体来看，三种考试设备的效应量均为正值，其中手机的效应量最高，且达到小效应标准（SMD=0.319>0.2），但不显著（P=0.055>0.05）。这表明考生利用手机进行在线考试成绩相对较好，但由于样本量较小，这一研究结果应谨慎看待。

4. 考试场景

本研究将原始研究样本按照考试场景分为两类，即固定场景（K=49）和非固定场景（K=6），具体结果如表6所示。

从组间效应来看，差异比较结果为Qbet=7.839，P=0.005<0.05，达到显著水平。这表明，考试场景对在线考试与传统考试成绩等效性具有显著调节作用，即不同的考试场景会显著影响考生的在线考试成绩。具体来看，两种考试场景的效应量均为正值，其中非固定场景的效应量最高，达到中等效应（SMD=0.728>0.5），并且显著（P=0.005<0.05）。这表明，在非固定场景进行在线考试对考生成绩具有中等程度的显著正向影响。

5. 考生学段

本研究将原始研究样本按照考生学段分为四类，即小学（K=12）、初中（K=7）、高中（K=8）和大学（K=28），具体结果如表7所示。

从组间效应来看，差异比较结果为Qbet=10.22，P=0.016<0.05，达到显著水平。这表明，学段对在线考试与传统考试成绩的等效性具有显著调节作用，即在线考试与传统考试成绩等效性会受到考生学段的显著影响。具体来看，高中和大学阶段的效应量均为正值，其中高中阶段最高，且达到小效应（SMD=0.249>0.2），但不显著（P=0.089>0.05）。小学和初中阶段的效应量均为负数，并且显著，其中小学阶段的效应量最低（SMD=-0.215）。这表明小学和初中阶段的考生在线考试成绩会相对低于传统考试，这种差异在小学阶段更为明显。

6. 考生倾向

本研究将原始研究样本按照考生倾向分为随机分配（K=48）和自愿选择（K=7）两类，具体结果如表8所示。

从组间效应来看，差异比较结果为Qbet=15.059，

P=0.0001<0.01，达到显著水平。这表明，个人倾向对在线考试与传统考试成绩等效性具有显著调节作用，即考生个人选择倾向会显著影响考生的在线考试成绩。具体来看，两种考生倾向的效应量均为正值，但自愿选择情况下的效应量最高，达到中等影响（SMD=0.782>0.5），并且显著（P=0.000<0.01）。这表明自愿选择在线考试的考生其在线考试成绩会显著优于其传统考试成绩。

7. 发表年份

本研究将原始研究样本按照发表年份分为四类，即2000—2005年（K=15）、2006—2010年（K=14）、2011—2015年（K=13）和2016—2020年（K=13），具体结果如表9所示。

从组间效应来看，差异比较结果为Qbet=2.999，P=0.391>0.05。这表明，发表年份不存在调节效应，即不同年份开展的实验研究对在线考试与传统考试成绩等效性无显著影响。具体来看，2016—2020年发表文章的效应量最高，且达到小效应（SMD=0.258>0.2），但不显著（P=0.184>0.05）。

五、结论与建议

为探讨在线考试成绩与传统考试成绩是否具有等效性问题，本研究采用元分析方法对2000—2020年国际上开展的55项实证研究结果进行定量综合分析。在此基础上，探究了不同考试题型、科目、设备、场景、考试学段、考生倾向和发表年份等调节变量对两者等效性的影响。研究发现：

第一，在线考试与传统考试成绩具有等效性，两者不存在显著差异

元分析结果显示，在随机效应模型下，纳入本研究的55个样本合并效应量为0.0657，远低于Cohen（1988）提出的最小差异标准0.2。这表明，考生在线考试成绩与传统考试成绩不存在显著差异，二者具有等效性。这与金斯敦（Kingston， 2008）的元分析结果一致。在线考试作为一种评价方式，具有灵活、智能、低成本等优势，受到越来越多大中小学的认可与使用。依托于信息技术的不断升级迭代，在线考试的弊端也在不断缩小，在线考试逐渐成为传统考试的补充或替代选择。需要注意的是，虽然现有证据表明，在线考试在评价学生成绩表现方面与传统考试方式无异，但是，这一结论离不开必要的前提条件支撑，即在线考试需要具备良好的硬件设备、稳定的网络环境、流畅的作答系统以及信效度与传统考试相同的试题资源。在线考试系统还需为考生提供允许提前浏览题目、跳跃作答、回头检查、随时修改、文字标记等方面的功能。

为更好地发挥在线考试在评价学生学习效果方面的优势，相关主体应共同努力，携手促进在线考试的发展和运用。教育管理部门应给予政策支持，出台在线考试标准（胡星， 2017），进一步鼓励各级各类学校灵活使用在线评价方式，充分发挥“互联网+教育”的优势。学校应结合自身实际，加强信息化建设，改革评价方式，探索不同在线考试方式的应用与实施，促进技术与教育的深度融合。教育科技公司应继续加强技术创新，充分利用自身在人工智能、5G、大数据等领域的技术优势，不断优化在线考试系统，让技术更好地服务学生的全面发展。学生、教师和家长则应增强对在线考试的信心，做在线考试的拥护者和践行者。

第二，考试科目对在线考试与传统考试成績等效性具有调节作用

从考试科目来看，不同考试科目对考生在线考试成绩具有显著影响。其中，考生参加数学科目的在线考试成绩最不理想，这与金斯敦（Kingston， 2008）和王（Wang， 2007）的元分析结果一致（两项研究的效应量分别为-0.060和-0.102）。可能的原因是，数学科目考试通常需要大量计算。在传统考试中，考生的注意力可以保持在同一平面内，但在在线考试过程中考生的注意力需要在电脑和草稿纸之间来回转换，这会导致更多的计算错误。约翰逊和格林（Johnson & Green， 2006）、哈尔斯特德和加德尔（Hallstedt & Ghaderi， 2018）的研究同样证实，虽然在线考试成绩和传统考试相比在整体上不存在显著差异，但在个别问题上存在显著差异。例如，数学考试中的图表题考察考生的逻辑推理能力，在线考试可能会使之受影响。相反，阅读、外语、自然科学和社会科学等科目在两种考试中的成绩差异不显著，这与郑（Jeong， 2014）的研究结论一致。

因此，学校在选择在线考试方式时应充分考虑考试科目的差异，提前认识到在线考试可能对某些科目存在不利影响，及时采取针对性措施，最大限度保障考生发挥真实水平。此外，教育研究者、教育科技公司应继续加强相关实验研究，针对不同学科性质差异设计符合不同科目需求的在线考试系统，将系统对考生产生的不利影响降到最低。例如，在进行数学科目在线考试时，系统应酌情给考生提供量角器、计算器等作图工具以及辅助线等提示。在进行外语、阅读和社会科学等高阅读需求的在线考试时，考试系统应注意字体的清晰度、大小、行距、布局设置并优化滚动或翻页阅读的方式，同时注意开发护眼模式，减轻考生视觉疲劳。

第三，考试场景对在线考试与传统考试成绩等效性具有调节作用

从考试场景来看，不同考试场景对考生的在线考试成绩具有显著影响。元分析结果显示，考生在相对固定、有监考人员监考的场景中进行的在线考试其成绩与传统考试相当。反之，考生在非固定、无人监考的场景中进行在线考试，其成绩与传统考试相比存在显著差异。这与德苏扎和弗莱明（DeSouza & Fleming， 2003）的研究结论一致。原因可能是，在非固定考试场景中，与考试要求无关的因素会相对较多（例如，考生可能不够重视考试，或者存在翻阅资料、查询答案、寻求场外人帮助等情况），导致考生在线考试成绩相对较高（Ilgaz & Adanır， 2020）。

因此，学校或教师在选择在线考试方式之前，应充分意识到考试场景对在线考试成绩的影响。对于比较重要的考试，为保障考试公平，应尽量优先选择有人监考的固定考试环境。教育科技公司、软件开发人员应加快研发在线考试防作弊监测系统。例如，在远程在线考试开始前，综合使用人脸识别、语音识别、指纹验证等技术手段对考生身份进行验证。在考试过程中，综合使用人工智能、大数据等技术手段对考生的作答状态进行捕捉和监测，防止考生出现利用网络检索答案、寻求他人帮助以及其他任何作弊行为，从而保障在线考试公平。

第四，考生学段对在线考试与传统考试成绩等效性具有调节作用

从考生学段来看，考生学段对其在线考试成绩具有显著影响。与传统考试相比，小学生和初中生的在线考试成绩相对不佳，其中小学生表现最不理想。高中生和大学生的在线考试成绩相对较好，其中高中生表现最为理想。这可能跟不同学段学生的个性特点、心理素质和信息素养水平有关。相较于高年级学生，低年级学生相对缺乏在线学习与考试经验，在考试过程中可能出现更大的心理焦虑与更多的操作失误。同时，低年级学生更易受电脑、平板、手机等考试终端的外在干扰，尤其是小学生自我控制能力较弱，出现注意力不集中情况的概率会更高。高中生和大学生媒介素养水平更高，对在线考试形式适应更快，同时相对不易受到外在干扰。受学习环境影响，高中生对待考试态度更为认真，组织纪律更好，可能是导致在线考试成绩相对较好的原因。

因此，学校在选择在线考试方式时，应意识到学段差异会影响考生在线考试成绩。正式考试前，应让考生提前熟悉在线考试操作流程，针对低年级学生，有必要提前进行多次模拟练习。家长和教师应加强低年级学生信息素养教育，引导其树立正确的媒介使用态度，防止沉溺电子产品，最大限度减少外在因素造成的不良影响。

第五，考生倾向对在线考试与传统考试成绩等效性具有调节作用

从考生倾向来看，考生的个人选择倾向对其在线考试成绩具有显著影响。元分析结果显示，自愿选择在线考试的考生其在线考试成绩会显著优于其传统考试成绩。这与希金斯等（Higgins， et al.， 2005）的研究结果一致。原因可能在于，自愿选择在线考试方式的学生具有更高的自我效能，对在线考试保持更高的信任与期待，而非自愿选择在线考试的学生可能会表现出严重的考试焦虑，影响其能力发挥。当然，由于本次研究样本较少，这一研究结论有待进一步观察。

学校或教师在选择在线考试方式时，应充分认识到考生倾向对在线考试成绩的影响，尊重考生个人选择倾向，灵活运用考评方式。同时，学校和社会应共同采取措施，创造良好的外部考试环境，减轻考生对在线考试的担忧与焦虑。例如，优化硬件设备，降低鼠标和键盘敲击声音;优化在线考试系统，减少卡顿或掉线等异常情况;加强安全保障，防止隐私泄露，等等。

六、结语

教育评价事关教育综合质量提升与教育改革方向。“互联网+教育”“人工智能+教育”催生了在线考试这种新型评价形式，为学习者提供了方便、快捷、有效的学习评价服务。本研究采用元分析方法，对在线考试与传统考试成绩等效性这一根本问题进行了系统综述。研究发现在线考试成绩与传统考试无显著差异，在线考试可以作为传统考试方式的替代与补充，但两者等效性会受到考试科目、考试场景、考生学段和考生选择倾向等因素影响。面向未来，需充分发挥在线考试的优势，采取各种措施消除在线考试的弊端，促进在线考试高质量发展，加快我國教育现代化进程。

[參考文献]

国务院. 2020-10-13. 中共中央、国务院印发《深化新时代教育评价改革总体方案》[EB/OL]. [2020-12-20]. http：//www.gov.cn/zhengce/2021-10/13/content_5551032.htm

胡星. 2017. 开放教育网络学习测评的实践探索与研究[J].中国远程教育（7）：69-76.

教育部. 2019-09-25. 教育部等十一部门关于促进在线教育健康发展的指导意见[EB/OL]. [2020-12-20]. http：//www.moe.gov.cn/srcsite/A03/moe_1892/moe_630/201909/t20190930_401825.html

宋伟，孙众. 2013. 数字化学习资源有效性的元分析[J]. 中国电化教育（11）：81-85.

杨宝山. 2010. 基础教育阶段网络作业与在线考试的现状分析[J]. 中国远程教育（8）：62-65.

Bunderson， C. V.， Inouye， D. K.， & Olsen， J. B. （1989）. The four generations of computerized educational measurement. In R. L. Linn （Ed.）， Educational measurement American Council on Education （pp.367- 407）， New York： Macmillan.

Bayazit， A.， & Askar， P. （2012）. Performance and duration differences between online and paper-pencil tests. Asia Pacific Educational Review， 13（2）， 219-226.

Cohen， J. （1988）. Statistical power analysis for the behavioral sciences （2nd ed.）. Hillsdale， NJ： Lawrence Erlbaum.

Clariana， R.， &Wallace， P. （2002）. Paper-based versus computer-based assessment： Key factors associated with the test mode effect. British Journal of Educational Technology， 33（5）， 593-602.

Choi， I. C.， Kyoung， S. K.， & Jaeyool， B. （2003）. Comparability of a paper-based language test and a computer-based language test. Language Testing， 20（3）， 295-320.

Coniam， D. （2006）. Evaluating computer-based and paper-based versions of an English-language listening tes. ReCALL， 18（2）， 193-211.

Drasgow， F. （2002）. The work ahead： A psychometric infrastructure for computerized adaptive tests. In C. N. Mills， M. T. Potenza， J. J. Fremer & W.C. Ward （Eds.）， Computer-based testing： Building the foundation for future assessments（pp.67-88）. Mahwah， NJ： Lawrence Erlbaum Associates.

DeSouza， E.， & Fleming， M. （2003）. A comparison of in-class and online quizzes on student exam performance. Journal of Computing in Higher Education， 14（2）， 121-134.

Dadey， N.， Lyons， S.， & DePascale， C. （2018）. The comparability of scores from different digital devices： A literature review and synthesis with recommendations for practice. Applied Measurement in Education， 31（1）， 30-50.

Ebrahimi， M. R.， & Seyyed， M. H. T. （2019）. Score equivalence， gender difference， and testing mode preference in a comparative study between computer-based testing and paper-based testing. International Journal of Emerging Technologies in Learning （iJET）， 14（7）， 128-143.

Gvozdenko， E.， & Chambers， D. （2007）. Beyond test accuracy： Benefits of measuring response time in computerised testing. Australasian Journal of Educational Technology， 23（4）， 542-558.

Higgins， J.， Russell， M.， & Hoffmann， T. （2005）. Examining the effect of computer-based passage presentation on reading test performance. Journal of Technology， Learning，and Assessment， 3（4）， 1-35.

Horkay， N.， Randy， E. B.， Allen， N.， et al. （2006）. Does it matter if I take my writing test on computer？ An empirical study of mode effects in NAEP. The Journal of Technology， Learning， and Assessment， 5（2）， 1-49.

Hochlehnert， A.， Konstantin，B.， Andreas， M.， et al. （2011）. Does medical students’ preference of test format （computer-based vs. paper-based） have an influence on performance？ Bmc Medical Education， 11（89）， 1-6.

Hosseini， M.， Abidin， M. J. Z.， & Baghdarnia， M. （2014）. Comparability of test results of computer based tests （CBT） and paper and pencil tests （PPT） among English language learners in Iran. Procedia-Social and Behavioral Sciences，（98）， 659-667.

Hallstedt， H.， M.， & Ghaderi， A. （2018）. Tablets instead of paper-based tests for young children？ Comparability between paper and tablet versions of the mathematical Heidelberger Rechen Test 1-4. Educational Assessment， 23（3）， 195-210.

Halamish， V.， & Elbaz， E. （2020）. Children’s reading comprehension and metacomprehension on screen versus on paper. Computers & Education，（145）， 1-11.

Hamhuis， E.， Glas， C.， & Meelissen， M. （2020）. Tablet assessment in primary education： Are there performance differences between TIMSS’ paper-and-pencil test and tablet test among Dutch grade-four students？ British Journal of Educational Technology， 51（6）：2340-2358.

lgaz， H.， & Adanır， A. G. （2020）. Providing online exams for online learners： Does it really matter for them？ Education and Information Technologies， 25（2）， 1255-1269.

Johnson， M.， Green， S. （2006）. On-line mathematics assessment： The impact of mode on performance and question answering strategies. The Journal of Technology， Learning， and Assessment， 4（5）， 1-34.

Jeong， H. （2014）. A comparative study of scores on computer-based tests and paper-based tests. Behaviour & Information Technology， 33（4）， 410-422.

Kim， D. H.， & Huynh， H. （2007）. Comparability of computer and paper-and-pencil versions of algebra and biology assessments. The Journal of Technology， Learning， and Assessment， 6（4）， 1-30.

Kingston， N. M. （2008）. Comparability of computer- and paper-administered multiple-choice tests for k-12 populations： A synthesis. Applied Measurement in Education， 22（1）， 22-37.

Karay， Y.， Schauber， S. K.， Stosch， C.， & Schuttpelz， B. K. （2015）. Computer versus paper--does it make any difference in test performance？Teach Learn Med， 27（1）， 57-62.

Lipsey， M.W.， & Wilson， D. B. （2000）. Practical meta analysis. Thousand Oaks， Calif： Sage.

Millsap， C. M. （2000）. Comparison of computer testing versus traditional paper and pencil testing. Unpublished doctoral dissertation， University of North Texas， USA.

Mason， B. J.， Marc， P.， & Daniel， J. B. （2001）. An examination of the equivalence between non-adaptive computer-based and traditional testing. Educational Computing Research， 24（1）， 29-39.

Meade， A. W.， Michels， L. C.， & Gary， J. （2007）. Are Internet and paper-and-pencil personality tests truly comparable？ An experimental design measurement invariance study. Organizational Research Methods， 10（2）， 322-345.

Marcos， L.， Hilera， J. R.， Barchino， R.， et al. （2010）. An experiment for improving students performance in secondary and tertiary education by means of m-learning auto-assessment. Computers & Education， 55（3）， 1069-1079.

Mangen， A.， Walgermo， B. R.， &Brønnick， K. K. （2013）. Reading linear texts on paper versus computer screen： Effects on reading comprehension. International Journal of Educational Research，（58）， 61-68.

Nguyen， Q.， Rienties， B.， Toetenel， L.， Ferguson， R.， & Whitelock， D. （2017）. Examining the designs of computer-based assessment and its impact on student engagement， satisfaction， and pass rates. Computers in Human Behavior，（76）， 703-714.

Nardi， A.， & Ranieri， M. （2019）. Comparing paper-based and electronic multiple-choice examinations with personal devices： Impact on students’ performance， self-efficacy and satisfaction. British Journal of Educational Technology， 50（3）， 1495-1506.

Olson， L. （2003）. Legal twists， digital turns： Computerized testing feels the impact of No Child Left Behind. Education Week， 12 （35）， 11-14.

Pomplun， M.， Sharon， F.， & Douglas F. B. （2002）. The score equivalence of paper-and-pencil and computerized versions of a speeded test of reading comprehension. Educational and Psychological Measurement， 62（2）， 337-354.

Poggio， J.， Douglas， R. G.， Yang， X. D.， & Andrew， J. P. （2005）. A comparative evaluation of score results from computerized and paper & pencil mathematics testing in a large scale state assessment program. The Journal of Technology， Learning， and Assessment， 3（6）， 1-30.

Pomplun， M.， Ritchie， T.， & Custer， M. （2006）. Factors in paper-and-pencil and computer reading score differences at the primary grades. Educational Assessment， 11（2）， 127-143.

Prisacari， A. A.， & Danielson， J. （2017）. Rethinking testing mode： Should I offer my next chemistry test on paper or computer？ Computers & Education，（106）， 1-12.

Russell， M.， & Haney， W. （1997）. Testing writing on computers： An experiment comparing student performance on tests conducted via computer and via paper-and-pencil. Education Policy Analysis Archives， 5（3）， 1-20.

Rothstein， H. R.， Sutton， A. J.， & Borenstein， M. （2005）. Publication bias in meta-analysis： Prevention，assessment and adjustments. Chichester： John Wiley & Sons Ltd.

Randy， E. B.， James， B.， Andreas， O.， et al. （2008）. Does it matter if I take my mathematics test on computer？ A second empirical study of mode effects in NAEP. The Journal of Technology， Learning， and Assessment， 6（9）， 1-38.

Smith， B.， & Caputi， P. （2007）. Cognitive interference model of computer anxiety： Implications for computer-based assessment. Computers in Human Behavior ， 23（3）， 1481-1498.

Sanchez， C. A.， & Wiley， J. （2009）. To scroll or not to scroll： Scrolling， working memory capacity， and comprehending complex texts. Human Factors： The Journal of the Human Factors and Ergonomics Society， 51（5）， 730-738.

Seo， D. G.， & Jong， G. D. （2015）. Comparability of online and paper-based tests in a statewide assessment program. Journal of Educational Computing Research， 52（1）， 88-113.

Ventouras， E.， Triantis， D.， Tsiakas， P.， & Stergiopoulos， C. （2011）. Comparison of oral examination and electronic examination using paired multiple-choice questions. Computers & Education， 56（3）， 616-624.

Wang， S.， Jiao， H.， Young， M. J.， Brooks， T.， & Olson， J. （2007）. A meta-analysis of testing mode effects in grade k-12 mathematics tests. Educational and Psychological Measurement， 67（2）， 219-238.

Ziefle， M. （1998）. Effects of display resolution on visual performance. Human Factors，（40）， 554-568.

收稿日期：2021-02-25

定稿日期：2021-06-28

作者簡介：窦营山，博士研究生，华东师范大学教育学系（200062）。

责任编辑单玲