面向不确定残缺数据的大学生成绩预测方法

时间：2024-05-04

曹歆雨+曹卫权+李峥+孙金德

摘要：大学生在课程规划方面有很高的自由度，这使得成绩数据较不规整，研究者很难对学生的前序课程成绩进行有效分析、利用。已有的成绩预测方法普遍未考虑学生前序课程成绩残缺的现象，从而导致预测准确性不佳。提出一种基于K近邻局部最优重建的残缺数据插补方法，该方法能够有效抑制前序课程成绩缺失对预测模型精度的影响。实验表明，该方法的补全效果优于已有的均值插补、GMM插补等方法，结合随机森林模型实现了有效的成绩预测，为学生成绩管理、就业能力预警提供了客观的参考。

关键词：成绩预测；缺失数据；数据插补；数据挖掘；机器学习；随机森林模型

中图分类号： TN911?34； TP391 文献标识码： A 文章编号： 1004?373X（2018）06?0145?05

Abstract： College students have high freedom on their course planning， which makes the score data irregular and in disorder， and makes it difficult for researchers to effectively analyze and utilize students′ scores of foreword curriculums. The score missing phenomenon of students′ foreword curriculums is generally not considered in the existing score prediction methods， resulting in relatively low prediction accuracy. Therefore， a missing data imputation method based on local optimal reconstruction of k?nearest neighbors is proposed， which could effectively suppress the influence of foreword curriculum score missing on the accuracy of prediction model. The experimental results show that the completion effect of the proposed method outperforms that of the existing mean imputation method， GMM imputation method， and other methods. Effective score prediction is realized by combining with random forest model to provide an objective reference for students′ score management and early warning on students′ employability.

Keywords： score prediction； missing data； data imputation； data mining； machine learning； random forest model

0 引言

高等教育问题是多年以来的社会热点，从“精英教育”到“大众教育”，高校扩大招生规模，面临着学生质量参差不齐，就业形势严峻等问题。如何准确评估大学生的学业完成质量，并进一步实现学业退步预警、就業质量预测等应用，逐渐受到数据分析研究者的关注[1?4]。学生成绩不仅是评估高校教学质量的重要指标，还与学生管理及就业指导密切相关。有效预测学生成绩并及时进行干预，可以为学生学习思想动态的引导和就业能力的评估提供重要的依据。

权小娟等基于985高校大学生的成绩数据，分析了大学生成绩的变化趋势及城乡差异[1]，分析结果具有一定的现实参考价值。但该文献属于描述性研究，仅分析了大学生群体成绩发展规律，但并未给出有效的成绩预测模型，故无法应用于大学生个体的成绩预测、预警。

龙钧宇等人提出基于频繁模式发掘大学科目之间的强关联关系，并预测学生未来若干课程的成绩[2]。该方法有两方面的局限性：首先，强模式关联方法决定了一门课程的成绩仅由当前的少数几门成绩甚至一门成绩确定，限制了其预测准确率的提升空间；其次，该预测方法将成绩分为4个等级，无法对成绩进行精准、量化预测。

陈勇将遗传神经网络应用于大学生成绩分析[3]，实现了精确的分值预测，并引入遗传算法来解决BP神经网络收敛速度慢、训练时间长的问题。然而该方法的实验并不完备，仅在16条成绩数据上开展神经网络训练与预测，实验结果不具统计可信性，也没有足够丰富的实证分析来佐证其模型方法的推广能力。

已有的相关研究重点集中在学生群体成绩预测、个体成绩基本趋势分析等方面，面向学生个体成绩的精确预测研究相对较少。学生先后所学课程间存在潜在关联性[2]，但随着高校教育宽口径、多样化理念的深入，学生的学习课程种类繁多且存在较大自主选择空间，专业课选修等进一步加大了学生所修课程的不确定性，很难保证同一专业所有学生均选修特定课程。此外，学生调整专业、缺考缓考等行为导致前序课程数据的缺失，给基于机器学习的成绩预测方法带来了极大的挑战。已有研究工作中往往没有考虑这一因素[3]。当学生并未取得预测系统所关心的强关联性课程成绩时，将这种情况称为数据残缺。如何在学生成绩数据存在不确定性残缺的情况下，仍能基于已有的部分科目成绩，推测其未来学业走势，是本文的主要研究内容。endprint

针对随机残缺数据，根據模型的精细程度，存在均值插补（Mean Imputation Method，MEI）[5]、GMM插补[6]、CMeans插补[7]等方法。本文提出一种基于KNN局部最优重建的插补方法，并对比了不同插补方法对成绩预测问题的增益，实验表明，该方法相比于已有插补方法更优，能够有效解决大学生自由选课情况下的成绩预测问题。

1 数据预处理与问题分析

1.1 学生专业与主修课程

本文以四川师范大学2009—2012级共4届本科生的全部成绩数据为基础，分析问题并验证所提出方法的有效性。基于学生选课情况，按照选课人数比率，统计出各专业在每一学期的热门课程，如表1所示。

在本文后续分析中，出于训练效率和“过学习”问题的考虑，针对任一学生，将只考虑其所在专业、对应学期的热门课程成绩，而不考虑其他冷门课程的成绩。

1.2 分学期成绩预测及其可靠性

针对任一热门课程[c]及其所在学期[pc]、专业[mc]，预测该课程成绩的输入特征变量包括如下课程集合对应的成绩：

[Ic=c′pc′

根据已有成绩数据和式（1）所示的预测规则，构建了大量的回归型（以区别于分类型）机器学习任务[T] ，每项学习任务的目标变量[y] 即学生在各学期热门课程[c] 的成绩[sc]，输入变量[xn×1]为该学生在课程集合[Ic]中取得的成绩。对于某学生未选修课程[c′∈Ic]的情况，则设置对应的字段[sc′]为缺失项。

基于随机森林算法[8]，对上述各学习任务进行训练、预测，得出各机器学习任务的均方根误差（Root Mean Squre Error，RMSE）。对所有RMSE估计一维概率密度[9]，得出RMSE的分布。

考虑到不同课程成绩的分散程度不同，需采用式（2）计算各课程成绩预测结果的相对均方根误差，该数值越小表明预测效果越好。

[RRMSET=RMSETVarsc] （2）

定义1 根据[RRMSE] 指标对所有的课程成绩预测任务进行排序，选出[RRMSE] 最小的部分课程集合[Cr]，称为可预测课程。

基于学生已有的成绩数据来预测[c∈Cr] 是有意义的；反之，预测[c′?Cr] 的误差较大，不具参考价值。

1.3 数据残缺问题

第1.2节测试得出的部分可预测课程及其数据缺失情况如表2所示。其中，对于可预测课程[c]，若其前序热门课程[Ic]至少有一项无成绩，则记录该样本为残缺样本。

由于其前序课程[Ic] 数量较多，因此对成绩预测系统而言，数据缺失是普遍存在的现象，且数据集的残缺情况相当严重，缺失率普遍高达40%～50%。

2 数据插补与成绩预测

K近邻法（KNN）是一种更有效数据插补方法[10]：该方法对于残缺样本[xi]，基于其已知的部分分量[Ac]寻找[xi]在完整样本集[Xc]中的KNN，然后利用k个近邻点的均值或众数来填充[xi]的未知字段[Am]。

2.1 KNN插补误差分析

首先考虑[xi]仅包含一维未知分量[xji]的情况。假定可以寻找到[xji]的K近邻（实际上[xji]在未知的情况下是无法搜索K近邻的），基于k个近邻点的均值来插补[xji]。设[xj?U0，1]，考虑完整样本集[Xc] 的元素独立同分布，则其第[m]个近邻点与[xji]差值[zm=xjm-xji]的概率密度函数为：

[gmz=1Bm，N-m+1?1-Fz+F-zm-1? Fz-F-zN-mfz] （3）

式中：[F?]，[f?] 分别为随机变量[xj-xji] 的概率分布函数和概率密度函数；[B?] 为Beta函数，如下：

[Bα，β=ΓαΓβΓα+β=α-1！β-1！α+β-1！] （4）

根据[gmz]可以求得利用KNN估计[xji]的均值偏移[Ezxji；k]以及方差[Varzxji；k]，进而利用式（5）、式（6）得出KNN插补的总体均偏与方差。一般地，[k] 越小则[Varz；k]越小，插补效果越好。

[Ez；k=EEzxji；k] （5）

[Ez2；k=EEz2xji；k] （6）

通过蒙特卡洛法[11]仿真不同分布函数下KNN插补残差，如图1所示。

注意到，在[xj]服从不同概率分布时，KNN插补残差随着k值的增加总是呈现先降低后升高的趋势。在k较小时，模型误差[ε]主导插补残差；在k较大时，则由较远的[zk，zk-1，…] 主导残差。KNN插补方法[10]简单地指定恒定的参数k，而未讨论如何选择最优的k值使得插补残差最小。

2.2 基于KNN局部线性重建的插补方法

针对待插补样本[xi]，假设已经基于其已知分量[Ac] 获取了k个近邻点，并将这些近邻点按列拼接为矩阵[Pd×k]，其中[d]为已知分量的维数。为了解决最优k值未知的问题，借鉴Kang等的最优重建思想[10]，通过求解式（7）所示的凸优化问题，赋予各近邻点最优权重[wk×1]。

[minwfw=12Pw-xAci2s.t. w0， w=1] （7）

上述优化问题可以利用序列最小优化（Sequential Minimal Optimization，SMO）实现快速求解。设优化问题的对偶变量为[αk×1]和[β1×1]，分别对应不等式约束和等式约束，则该问题对应的Lagrange函数为：

[Lw，α，β=12Pw-xAci2-αTw-β1Tws.t. α0] （8）

對应的KKT条件为：

[?L?w=PTPw-PTx-α-1?β=0] （9）

[1Tw=0] （10）

[αiwi=0， i=1，2，…，k] （11）

采用数值解法，求得满足式（9）～式（11）所定义KKT条件的解即为式（7）的最优解。

图1 插补误差与近邻点数量的关系

Fig. 1 Relationship between imputation errors and

numbers of neighbor points

在本小节描述的算法中，对任意变量[v]，[vm]表示该变量第[m]轮迭代的取值，[vi]表示向量的第[i]个元素，[vi→]，[vi↓]分别表示矩阵的第[i]个行、列向量。

利用SMO算法的思想，一次迭代仅优化[w]的两维分量，同时结合式（9）～式（11）的KKT条件，设计最优权重的快速求解算法，具体步骤如下。

1）查询任一破坏式（9）～式（11）KKT条件的分量[wi]，并随机选取另一分量[wj]，若未找到[wi]则优化终止；

2）限制[wm+1i+wm+1j=wmi+wmj=C]，限制其他[wm+1l≠i，j]保持不变；

3）采用解析法优化函数[fwm+1i]；

4）将最优解[wm+1i]限制在区间[0， C]；

5）更新[w]，[β]，[α]等，进入下一轮迭代。

为了保证上述算法可复现，需要分别在步骤1）明确如何确定破坏KKT条件的[wi]，在步骤3）明确如何优化函数[fwm+1i]，在步骤5）明确如何更新[β]与[α]。

在定义的KKT条件中，式（9）通过步骤5）强制满足，式（10）通过步骤2）强制满足，因此在步骤1）中，可以通过仅检查[αiwi>ε]来确定[wi]。其中[ε]为极小量，如[10-6]，使得算法稳定。

当按照步骤2）约束[wj]及其他分量时，目标函数简化为式（12）定义的一维二次函数，式中的[?]为常向量，在每次迭代时更新。

[2fw=l=1kPl↓wl-xAci2=Pi↓-Pj↓wi+?2] （12）

无约束条件下，最小化上述一维函数，可得步骤3）的最优[wi]，如下：

[w*i=-Pi↓-Pj↓-2Pi↓-Pj↓T?] （13）

最后，按照式（9）～式（11）的KKT条件更新[α]和[β]。采用上述解法有两项显著优点：一是求解速度更快；二是当[P]非列满秩，回避内点法的矩阵奇异问题。

2.3 成绩预测流程

结合本文第2.2节的数据插补方法，提出图2所示的成绩预测流程。

3 实证分析

3.1 数据准备与评估准则

本节以四川师范大学2009—2012级共4届本科生的成绩数据，验证所提出方法的有效性。参照第1.2节的做法，根据学生专业、选课情况、非插补条件下成绩先验预测结果，选出各专业学生对应的共17项可预测课程，其中部分可预测课程已在表2中列出。以待预测课程为因变量、以该课程对应的前序课程为自变量、以课程对应专业全体学生为样本集合，最终构成多项成绩预测任务。

针对每项预测任务，分别采用MEI插补[5]、GMM插补[6]、CMeans插补[7]、和本文方法对数据进行补全，并采用多种机器学习方法预测目标课程成绩，取各种机器学习方法预测RMSE的平均值作为数据插补方法的性能评估准则。本节采用的机器学习方法包括IBK、决策表、线性回归、M5P、随机森林等预测模型，每种数据插补方法和预测模型分别重复试验30次，并取均值作为性能度量，以保证实验结果的统计可信性。

3.2 插补效果对比

对比不同插补方法对学生成绩缺失状况的插补效果，如图3所示。其中，缺失率从0%～50%不等。

注意到，若直接舍弃含缺失项的样本，随着缺失率的增加，RMSE指标呈线性增长。对比不同的数据插补策略，本文提出的KNN插补方法能够在多项成绩预测任务中取得最佳的补全效果，较好地解决了学生成绩数据中普遍存在的不确定残缺问题。

3.3 机器学习算法对比

基于第3.1节的实验设置，对比不同预测模型的预测精度，结果如图4所示，其中所有预测模型默认采用本文KNN插补方法对成绩数据进行了补全。

对比图4发现，随机森林模型相比于其他预测模型精度更高。同时，得益于精准的数据插补方法，随机森林模型的预测误差随缺失率增长缓慢，结合两种方法预测学生成绩是一种可行的技术思路。

4 结语

本文针对高校学生成绩预测预警问题，分析了不同课程间的关联强度。由于学生选课自由度较高，学生部分前序课程普遍面临着成绩缺失的现象。针对这一问题提出了基于KNN局部线性重建的插补方法来补全原始数据，该方法解决了KNN参数选择的问题，具有较好的稳定性。实验结果表明，结合本文的KNN插补策略和随机森林模型，能够实现高校学生未来成绩的准确预测，为基于数据驱动的现代化学生管理提供可靠的参考。

参考文献

[1] 权小娟，朱晓文.大学生学习成绩变化趋势及其影响因素的实证研究[J].复旦教育论坛，2016，14（5）：45?51.

QUAN Xiaojuan， ZHU Xiaowen. The changing trend in college students academic achievement and its influential factors： an empirical analysis [J]. Fudan education forum， 2016， 14（5）： 45?51.

[2] 龙钧宇.基于壓缩矩阵Apriori算法的高校学生成绩相关性分析研究[J].现代电子技术，2014，37（24）：47?51.

LONG Junyu. Research on correlation analysis of college student′s achievements based on Apriori algorithm with compressed matrix [J]. Modern electronics technique， 2014， 37（24）： 47?51.

[3] 陈勇.基于遗传神经网络成绩预测的研究与实现[J].现代电子技术，2016，39（5）：96?100.

CHEN Yong. Research and implementation of result prediction based on genetic neural network [J]. Modern electronics technique， 2016， 39（5）： 96?100.

[4] 叶苗.大数据分析大学生就业率估计模型仿真[J].计算机仿真，2016，33（11）：183?186.

YE Miao. Big data analysis of college students′ employment rate estimation model simulation [J]. Computer simulation， 2016， 33（11）： 183?186.

[5] LEE T， CAI L. Alternative multiple imputation inference for mean and covariance structure modeling [J]. Journal of educational & behavioral statistics， 2012， 37（6）： 675?702.

[6] YAN Xiaobo， XIONG Weiqing， HU Liang， et al. Missing value imputation based on Gaussian mixture model for the Internet of Things [J]. Mathematical problems in engineering， 2015（3）： 1?8.

[7] TANG J， ZHANG G， WANG Y， et al. A hybrid approach to integrate fuzzy C?means based imputation method with genetic algorithm for missing traffic volume data estimation [J]. Transportation research part C： emerging technologies， 2015， 51（1）： 29?40.

[8] BREIMAN L. Random forests [J]. Machine learning， 2011， 45（1）： 5?32.

[9] NAGLER T， CZADO C. Evading the curse of dimensionality in multivariate kernel density estimation with simplified vines [J/OL]. [2018?01?27]. https：//arxiv.org/pdf/1503.03305v1.pdf.

[10] KANG P. Locally linear reconstruction based missing value imputation for supervised learning [J]. Neurocomputing， 2013， 118（11）： 65?78.

[11] JANSSEN H. Monte?carlo based uncertainty analysis： sampling efficiency and sampling convergence [J]. Reliability engineering & system safety， 2013， 109（2）： 123?132.

[12] WITTEN I H， FRANK E， HALL M A. Data mining： practical machine learning tools and techniques [M]. Beijing： China Machine Press， 2005.endprint