分班自评的检验及思考*

时间：2024-09-03

刘超英北京大学对外汉语教育学院

提要国际上二语教学界关于自评分班的研究已进行了四十年，然而对于自评分班的准确性一直存在争议。从2016年起北京大学采用自评分班。本文从多个方面对这一实践的结果进行检验，结果表明：对于以提高汉语水平为目的的高校留学生群体，可以有效地使用自评分班，如果还有其他措施调节，效果更好。本文对于若干有争议的问题进行了讨论，提出检验自评准确性的标准不是与测试的相关性，而是分班的特定目标要求。

一、研究背景

（一）国际上关于自评分班的争论焦点

早在二十世纪七八十年代，当国际上的应用语言学家开始认真地思考二语学习中的自评问题时就开始了关于自评分班的研究，这一研究一直持续到现在（Summers 等，2019）。对于自评能否用于分班，长期以来学者们分歧很大。Oscarson（1978）、LeBlanc 和 Painchaud（1985）、Bachman 和 Palmer（1989）、AlFallay（2004）等认为学习者能比较准确地评价其语言能力，自评比较稳定有效，自评与测试在分数上有一致性，自评可以用来完成传统标准化考试的分班任务。Ross（1998）对60 篇有关自评的文章做了元分析，认为自评能提供稳健的效标共时效度。对于人员选拔来讲，自评所提供的能力图像过于朦胧；而对于一些低风险决策，例如在某个项目之内进行分班或做一个简略的需求分析，自评的精度是足够的。而另一些学者则持不同意见，Dieten（1989）、Peirce 等（1993）认为在自评和测试之间没有稳定的关系，二者间只存在弱相关，因而自评不适合作为分班评价。Fratter 和Marigo（2018）通过一项自评与分班测试结合的实验研究得出结论，总体上看大学语言中心的学生还不具备很好的自评技能，他们在决定自己的语言能力等级时还没有把握，还需要一些诸如测试的外部评价。只用自评，学生可能会高估或低估自己的语言能力，学生的自评能力需要培训。

关于自评分班的争论涉及很多问题，而焦点是自评的精度。但是自评的精度需要多高才能满足分班的要求，并没有说清楚。此外，除了LeBlanc和Painchaud（1985）等人真的在分班实践中使用了自评外，不少学者（尤其是持反对意见的学者）做的还只是可行性研究，因此他们无法回答一个非常直白的问题：“在难以对学生进行自评培训的情况下，在实际教学中使用自评分班能不能行得通，效果如何？”他们无法提供使用效度方面的证据。

（二）北京大学的探索

北京大学在外国留学生分班方面进行了多年的探索。北大的对外汉语教学以非学历的长期、短期进修教学为主1，此外还有预科教学、研究生的汉语教学等。长期以来北大都使用测试分班，每学期开学，考试分班都是一项十分耗费人力的大工程，但单靠考试分班，效果始终不理想。后来，学校在考试之后增加了一个确认教材的环节，首先根据考分预估学生使用的教材，然后师生一对一面谈，确认教材。长期班的换班率明显下降，但是短期班由于项目太多，人力有限，只能直接用考试分班。2015 年，研究者首先在短期班进行了自评试验，证明自评分班可行（刘超英，2017）。2016年，研究者又研制了长期项目汉语自评表，试验证明自评也可用于长期项目，但需要在使用中验证。从2016 年开始，除预科班之外的各汉语进修项目均使用自评取代测试进行分班，目前这一模式运行正常。

自评分班已显示出如下几个主要优点。

第一，节省人力、物力，使用方便。以往使用测试分班，需要印试卷、租考场、安排监考、组织评分、销毁试卷等，现在学生是在自己的电脑或手机上提交自评，上述繁杂的工作已经取消。

第二，能提前知道学生的汉语水平，提高了效率。由于学生的自评信息在开学之前就通过网络传输到了学校，教学管理者可以在学生到校之前就预估学生需要的教材。除了分班之外，学校招生部门也在使用自评系统，如果他们发现某个学生的汉语水平与该项目的多数学生差距过大，便会建议该生选择其他项目，节省教学成本。

第三，能得到学生听、说、读、写及其他多方面的信息。

当然，所有这些优点都必须有一个前提，即自评分数能够比较准确地反映学生的汉语实际情况。假如做不到这一点，以上这些优点就无法全面体现出来。因此，我们有必要对自评分班的有效性进行检验。

二、分班自评的检验

（一）自评表的设计

根据学生的特点，北大的汉语自评表分长期表和短期表，分别对应长期进修教学和短期进修教学。

长期自评表由听、说、读、写四个部分组成，每部分有15 个陈述性题目。如:

我能读没有拼音的中文课文。I can read Chinese texts without Pinyin.

题目内容是根据外国学生在课堂学习和日常生活中的情景设计的，难度分为初级、准中级、中级、高级四个层次，与教学中的九个难度的教材相联系。自评表有中英、中日、中韩三个双语版本供学生选用。每个题目有五个选项，选“总是这样（Always）”得5 分，选“多数情况是这样（In most cases）”得4 分，选“半数情况是这样（About half of the time）”得3 分，选“很少这样（Seldom）”得2 分，选“从来做不到（Never）”得1 分。每题满分5 分，共60 题，总分300 分。

短期自评表的结构与长期自评表大致相同，只是每个部分各10 题，共40 题，总分200 分。

（二）信度和难度

本研究主要使用的是2016—2017 年北大留学生长期、短期等项目的自评分班信息，其他信息做对比或补充。

由于每次自评的题目相同，分析信度和难度时我们将同年的数据合在一起，作为一个大样本。表1、表2 是2016 年长期、短期自评的信度和标准误。

表1 2016 年长期自评（样本量：289）

表2 2016 年短期自评（样本量：371）

数据显示，无论是长期还是短期自评，单项还是全卷，Alpha 信度系数都达到了0.96 以上，表明自评的内部一致性好，相当稳定。

自评与测试的难度含义不同，自评中的P 值表示的并非被试在试题上的答对率，而是自评者根据任务对自己能做情况的估计，同时也可以反映自评任务的难度。表3 是2016 年长、短期自评的P 值。

表3 2016 年长、短期自评各单项及总分的P 值

表3 显示，长期和短期自评题大致上都是中等难度。由于在自评表中，每一部分的题目难度都是从易到难排列的，例如长期自评表“听”第1 题最容易，第15 题最难，第16 题是“说”最容易的题，第30 题是“说”最难的题，依此类推。短期自评表只是题量不同，排列顺序相同。每一题的P 值见图1。

图1 2016 年自评中各题的P 值

图1 显示，无论长期还是短期自评，各题的P值均呈现出一种有规律的变化，题目P 值的变化与题目任务难度的变化是一致的。这表明，尽管学生在自评时对于选项的选择是完全自由的，没有外在的客观答案，但大多数学生并没有乱选，而是依照一个内在的客观答案在进行选择。

（三）师评

检验学生自评是否有效的一个方式是请任课教师进行评判。我们选择任课教师已经相当了解学生而又离开学时间不是很久的时间点，将每个学生的自评分数发给各班教师，请教师对每个学生做出判断。判断内容有两项。第一，该生的自评分数与其实际汉语水平是否相符，要求教师在“自评基本相符”“自评高估”“自评低估”中做出判断。第二，该生的水平是否适合学习该班的教材，要求教师在“适合学本班教材”“应学低班教材”“应学高班教材”中做出判断。之所以设计后一个问题是因为适合学习某一教材的水平是有一个范围的，即使有的学生自评有一定的高估或低估，但只要不超出某一范围，就应该认为是达到了分班的目的。

2016—2017 年几个项目的师评结果见表4—表9。

表4、表5 显示，有70%—83%的学生自评与其实际汉语水平基本相符，自评高估和低估的比例大致相当。适合学习本班教材的学生比例在81%左右，与自评基本相符率相当或比自评略高。

表4 学生自评的相符程度（短期项目）

表5 学生是否适合学本班教材（短期项目）3

表6、表7 显示，有64%—68%的学生自评与其实际汉语水平基本相符，比短期的低一些，高估和低估的比例有的相差较大。我们分析，部分原因是长期项目学生的构成更为复杂，要求更为多样化。与短期项目有明显区别的是长期项目适合学本班教材的比例明显高于自评基本相符率，达到了86%—90%，我们认为一个重要的原因是长期项目有确认教材的环节，起到了调整的作用。

表6 学生自评的相符程度（长期项目）

表7 学生是否适合学本班教材（长期项目）

除了长期和短期语言进修项目之外，一些主要用英语授课的留学生的研究生项目也开设汉语课，也使用自评分班。

表8、表9 显示，研究生项目自评基本相符率比进修生更高，达到82%—92%，适合学本班教材的比例与自评基本相符率接近，在91%左右。

表8 学生自评的相符程度（2017 年研究生汉语课）

表9 学生是否适合学本班教材（2017 年研究生汉语课）

师评结果表明，学生的自评与其实际汉语水平多数甚至大多数是比较相符的，根据自评确定的教材大多数是合适的。

（四）换班情况及教材变换幅度

1.换班情况

在北大，学生进入班级学习之后发现不合适可以要求换班，由教学负责人根据学生的情况决定是否可换及如何换。学生要求换班的原因复杂，但是教学难度不合适是一个重要的原因。换班率的高低在一定程度上反映了分班评价的效果。表10、表11 反映了2016—2017 年的换班情况。

表10 短期项目换班情况

表11 长期项目换班情况5

2015 年使用的是测试分班，2016 年和2017 年是自评分班。表10、表11 显示，实行自评分班后，学生换班率总体上并没有增加。2017 年秋季长期项目换班率偏高并非趋向，因为2018 年秋季的换班率为6.8%，总体上看自评与测试分班的换班率差别不大。比较一下短期与长期项目可以发现，长期项目的换班率明显低于短期项目，其原因我们认为是长期项目确认教材的环节起了作用。

2.教材变换幅度

长期项目在测试或自评之后，经过确认教材和个别学生的换班，即进入正常教学。尽管此后仍会有学生觉得不合适，但是从总体上说，到了这一阶段大多数学生的教材已能满足进行正常教学活动的要求，因此，我们把这一阶段的教材作为研究的一个参照点，称作“最终教材”，而把最初根据分数预估的教材称作“预估教材”。

观察从预估到最终的教材变动情况，能够检查测试分数和自评分数的预估精度和偏离的程度。

表12 显示教材的变动很有规律，教材一致及调一本教材的占大多数，其中2015 年测试教材一致及调一本教材的比例为95.58%，2016 年自评这一比例为85.31%，2017 年自评这一比例为90.25%。调两本及以上教材的比例有规律地逐渐减少。如果把最终教材作为基本合适的教材，可以看出一种误差分布的规律。比较测试和自评可以看出，虽然测试的精度高于自评，但是自评的精度已达到85%以上，已可以满足推荐教材的基本要求。2017 年自评经过调整分数线，教材一致及调一本教材的比例已经明显提高，达到了90%，与测试的差别不是很大了。

表12 从预估到最终的教材变动

再看一下长期项目教材变动的方向，见表13。

表13 教材变动的方向

表13 显示，自评与测试的教材变动方向很不一样，测试以向上换为主（换到难度更高的教材），而自评则以向下换为主。这种差别在2015 年测试和2016 年自评中表现得尤为明显。测试分数偏低是测试分班中比较常见的一种情况，即所谓没考好，一些学生已有的语言交际能力在测试分数中没能反映出来。自评分数偏高则有多方面原因。2016年自评后我们做了分析，认为主要是因为分数线设定不当。经过分数线调整，2017 年向下调的比例明显得到控制，但是总的趋势并没有变化。

长期项目由九个相互衔接、逐步递进的教材段构成：从低到高依次为《起步1》《起步2》《加速 1》《加速 2》《冲刺 1》《冲刺 2》《飞翔 1》《飞翔2》《飞翔3》6。我们把确认教材前各段的测试或自评的均分作为预估分，把确认教材及换班后各教材段的均分作为最终分，检查一下前后两组分数的相关性。

图2、3、4 显示，测试和自评的预估均分从总体上与最终均分相当接近，为强相关。

图2 2015 年秋测试的预估均分与最终均分

图3 2016 年秋自评的预估均分与最终均分

图4 2017 年秋自评的预估均分与最终均分

我们将每个学生的最终教材设定为分班的目标，用1—9 表示九个教材段，作为因变量，将每个学生的测试或自评总分作为自变量，使用一元线性回归分析来检查测试和自评分数对于学生最终教材的预测能力，结果见表14。

表14 模型检验7

回归方程的模型检验显示，无论是2015 年的测试，还是2016 年、2017 年的自评，方程的决定系数（coefficient of determination）R2都在 0.8 以上，表示根据测试或自评分数所做的教材预估的有效性达到了80%以上。此外，方差检验和T 检验均表明，无论测试还是自评，回归方程的线性关系显著，回归方程的系数显著。

比较自评和测试，尽管在数值上自评比测试还是差一些，但差距不大，能够满足预估最终教材的基本要求。

三、对分班自评问题的重新思考

国际上对于分班自评的研究很多、很细致，出了很多成果。然而仍有很多问题没有研究清楚，或者说还存在某些盲点。下面是我们对于两个问题的重新思考。

（一）分班自评的定义

关于二语学习中的自评，Mariani（2009）认为，“自评指的是完成一个元认知的过程，这是指跳到外面，保持一个距离，客观地看你的经验、你的生活，看的时候仿佛这不是你的。这过程既是认知的又是情感的，因为你从外部看你，你能看透你的自我知觉，你通常是那样自我感知的”。定义中提到了两个重要的概念——“元认知”和“知觉”。

二语学习中的自评是学习者对于自己语言能力的知觉（perception），这种知觉是以元认知（metacognition）的形式实现的。根据布朗（Brown）模型8，元认知由认知的知识和认知的调节构成，认知的调节有计划、监测、评估三种功能。自评是监测和评估功能的实现。由于元认知是对于认知的认知，是一种更为深层的认知活动。尽管评价的是目的语，但自评时不必使用目的语，一些学者还提倡使用学习者的母语，使学习者更容易理解问题。另外，既然自评是一种元认知活动，就有不同的层次，有需要更多的专业知识的自评，也有不需要专业知识的自评。正是在这一点上，学者们有不同的观点。

Brown 等（2014）认为：“包括数学、科学、第一和第二语言读写、医学等领域的研究者都进行过自评和客观性测量的研究，发现学习者完全能够对他们自己的能力做出很好的判断，但是只有当学习者在被评价的领域达到较高水平时判断的准确性才能提升。”有不少学者主张在高级阶段使用自评，其原因大致也是其认为在那个阶段学习者的目的语知识比较多。这种观点正确与否可以继续研究，但至少对于分班自评而言，只让高级阶段的学习者自评是不现实的，因为我们不知道谁是高级阶段的学习者，分班自评的目的就是为了了解学生的水平。

另一个与自评的准备知识有关的观点是，自评是一种能力，需要培训，使自评者掌握好标准。我们认为，培训对于日常教学中的自评是必要的，但在分班自评中是难以实现的，因为学生自己在网上自评时人还没有到学校，难以很好地实施培训。另外，作为分班自评，我们是否需要让学生掌握教学的标准呢？有人说学习者还没有能力为自己定级，问题是：是否需要学生为自己定级？

关于这个问题，Oscarson（1997）的观点很精辟，他认为：自评（self-assessment）这一术语还有若干自由变体，例如“self-evaluation，self-appraisal，self-rating，self-report”，但“self-assessment”是使用最广也是最为恰当的。他特别指出，“selfrating”和“self-evaluation”或许应该避免使用，因为这些词有明显的价值判断的内涵，而不是更为中性的“确定程度”或“估计水平”的含义，而这种中性含义才是在自评过程中真正要考虑的。LeBlanc 和Painchaud（1985）也认为，自评并不是自我定级。

应该说，对于分班自评来说尤其是这样，因为在分班自评过程中我们并不需要给学生定级，只需要估计其汉语水平。考虑到分班自评时学习者的语言水平差距很大，又很难进行有效的自评培训等现实情况，我们要求学习者对自己的汉语能力所做的判断不需要特别的专业知识，而只需要几乎每个学习者都有的一般的生活经验和学习经验，采用具体任务，使用“能做”描述的问题。关于这一点，不少学者都已有共识，Ross（1998）等就认为具体描述功能的自评题，例如“能做”描述的题目精度比较高，而抽象的总体水平的题学生比较难判断。

这种自评题学习者没有培训也同样能做，因为这样的自评就像是在进行一个结构性的书面访谈，自评者只需要根据所给的具体任务，回想一下自己能不能做、能做到什么程度，在几个选项中选一个即可。从这个角度，分班自评可以称作是一种结构型的自述（structured self-report）。

（二）分班自评的准确性要求及确定准确性的标准

分班自评的准确性是学者们争论的焦点。这里涉及两个问题：第一，判断自评准确性的标准是什么？第二，分班自评究竟要求有多高的精度？

很多研究者都把测试作为判断自评准确性的效标。分班自评的提倡者往往以自评和测试相关系数高作为论据来证明自评有效；自评分班的反对者的论据往往是自评和测试只有弱相关，数据往往相差很大。而更重要的是，自评与测试的相关系数究竟要多高才可以用于分班，没有标准。0.7 就可以吗？0.4 就不行吗？没有标准使人无所适从。

事实上，这种唯测试作效标的思想对于分班自评的发展已经起到了消极的作用，使得一些设计得很好的自评无法投入使用。例如，Summers 等（2019）做了一项关于分班自评的研究，希望通过自评在学生到校之前就得到有关其人数、水平的信息，为安排教学资源做准备。研究结果显示：自评设计及内部一致性方面都得到了很强的证据支持，自评的信度很高（0.95），在ACTFL 的大等级上设想的难度与实际难度一致。五度量表效果很好，能拉开各个相邻等级的距离。但是，自评与测试的相关系数不理想，“说”的相关系数为0.44（显著相关），“写”的相关系数为0.45（显著相关）。因此，研究者认为自评不宜单独用于分班，只能对测试进行补充。我们设想，假如直接把自评分数与教学需要挂钩，建立起对应关系，这个自评很可能就用上了。

我们认为，测试可以作为检验自评的一项参照指标，在我们的研究过程中也曾做过自评与测试的相关性分析（短期自评的person 相关系数为0.85，长期自评为0.76），但是我们认为测试分数不是效标。这是因为：第一，测试本身的有效性就有待检验。即使是很好的标准化考试也有误差，更何况在分班考试中，由于需要在短时间内得到分数，往往只能省略口语考试、简化写作考试，主观性考试往往也不能双评，存在多种误差源。在自评和测试的对比分析中，如果二者不一致，不一定都是自评不准。例如，在一项关于短期自评分班的研究中（刘超英，2017），有三位要求向下换班的学生，考试分数为25—28 分，但实际上是零起点。而他们的自评分数都是0 分，反映了他们的真实水平。第二，测试与自评是两种机制完全不同的评价方式，二者只可能在某些功能上接近（例如都可以用来分班），但由于机制完全不同，越细致分析越会发现二者存在着深层的差别。从评价机制上看，测试是考生通过一个使用目的语的表现提供一个有代表性的行为样本，我们对行为样本进行测量后得到一个分数，分数的方差反映了不同能力的考生在考试的表现行为上的差异，方差越大区分度越高。但是自评不一样，自评是自评者的一种反思行为，自评者看到某个交际任务后会判断自己能做的程度，选一个合适的选项，并不需要提交目的语的行为样本。我们也测量自评者提交的结果，但这不是其目的语的行为样本，而是其关于自己目的语能力的一个报告。我们测量的不是自评者的评价行为，而是其报告的内容。自评者的评价行为也是有差异的，比如自评能力的差异，但是这种差异对于自评测量来讲是误差，这种方差越小评价越准确。因此，测试不适合作为衡量自评准确性的效标。

那么，衡量分班自评准确性的标准是什么呢？我们认为，应该是自评分数在分班中的使用效度，即自评分数能否满足某一种特定教学的分班需要、效果如何。效度并不是某个评价工具本身的属性，而是包括分数使用在内的综合属性，因此，分班自评准确性的标准应该根据特定的分班要求来制定，检验准确性的证据应该到分班结果中去寻找。也就是说，自评分数应该跟分班的需要直接挂钩。在这个方面，北大将自评分数段与所使用的九种教材挂钩，证明自评能够满足预估教材的需要。

以分班的实际需要作为效标，既可用来检验自评，也可用来检验测试。北大2015 年测试和2016 年、2017 年自评的分析结果就是例证。值得注意的是，从教材变动的方向上来看，测试和自评的主要方向是相反的，是对于分班目标的两种不同的偏离，如果只是简单地用相关分析证明自评不准确显然不恰当，因为测试也有问题。

以分班的实际需要作为标准，自评需要多高的精度这个问题就很清楚了，因为这是特定的教学机构根据特定的教学项目的分班要求自己确定的。Oscason（1997）指出：“有一点人们已经达成了相当的共识，自评的准确性与恰当性在相当大的程度上取决于在每一种具体情况下的情境特点和评价要达到的目的。”

四、结论与讨论

通过本项研究我们可以得出以下几点结论。

（1）北大三年的实践及我们的检验结果表明，自评能够提供稳定的、具有区分力的信息，对于以提高汉语为目的的高校外国留学生群体，使用自评定位汉语水平、预估教材是可行的、有效的。如果能有其他辅助手段来调整，分班的效果会更好。

（2）在判定自评准确性时，效标不是测试分数，而是特定教学项目的实际分班需求。自评和测试的分班有效性都应以此进行检验。在本研究中，尽管自评的数据比测试还是略差一些，但是差距不大，可以满足特定项目的分班需要。

（3）分班自评不是学习者为自己定级，而只是一种关于自己汉语使用情况的结构型的自述。

分班自评仍有很多问题有待研究，例如以下几点。

（1）自评的误差源。自评的准确性会受到很多因素的影响，如文化差异、人格、认知能力、学习策略、自评训练等。哪些因素影响较大、哪些因素是可控的，需要研究。

（2）国际上广泛使用的具体任务的“能做陈述”容易理解，意义积极，但往往难以描述完成任务的语言质量，这会使得某些任务对于中级以上的学生难以进一步区分，尤其是在中国生活过的学生容易自评偏高。Bachman 和Palmer（1989）认为从学习困难的角度设问更准确，Burson 等（2006）认为学习者更了解其弱点而不是其优点。因此，学习困难的设问角度是一个很有价值的自评研究课题。

（3）自评能得到很丰富的信息，但由于分班需要快速决策，由于操作上的种种原因，目前实际在分班中使用的往往只是一个总分，听、说、读、写单项分等很有价值的信息还没有充分利用。如何将这些信息用到实际的分班程序中，需要研究。

附注

1 北京大学对外汉语教育学院的汉语非学历教育主要分长期和短期项目。长期项目每年2 月（春季）和9 月（秋季）开学，学习一个学期，班级和汉语教材的层次多。每学期开学初，需要使用测试或自评来评价新生的汉语水平，根据分数预估教材，再通过师生面谈，确认教材，进入教学。短期项目有春季和暑期两种，学生通常学习四至八周。每个项目开始前要进行测试或自评，确定教材。考虑到短期项目的特点，不单独确认教材，而是在发教材时及教学开始前几天进行微调。

2 听75 指听力部分满分为75 分，以此类推。

3 2016 年师评中没有“学生是否适合学本班教材”一项，2017 年部分教师未填这一项，因此两个问题的样本量有些不同。其他项目中也有类似情况。

4 2017 年暑期有一个项目由于非常规原因导致数据没有代表性，未纳入统计。

5 长期项目换班者中有个别学生由于上课时间冲突而换到相同教材的平行班，未纳入统计。

6 长期项目使用《博雅汉语》（第二版）系列教材，李晓琪主编，北京大学出版社2013 年出版。该系列教材包括：《初级起步篇I、II》《准中级加速篇I、II》《中级冲刺篇I、II》《高级飞翔篇I、II、III》。文中使用的是简称。

7 模型检验因变量为“最终教材”。

8 转引自张雅明著《元认知发展与教学——学习中的自我监控与调节》，安徽教育出版社2012 年出版。