当前位置:首页 期刊杂志

决策树算法在高职学生学业目标评价中的应用研究

时间:2024-05-04

周璇

(天津商务职业学院,天津 300350)

0 引言

数据挖掘技术是一门在大数据背景下基于统计学、计算机科学和人工智能等多个领域生成的交叉学科,它从海量数据中筛选出有应用价值和研究价值的信息数据,深层次地分析多维度的信息数据的特点,揭示不同类別信息数据之间的内在关联,从而为决策者提供决策支持。数据挖掘技术包括关联规则挖掘、K-Means 聚类分析、贝叶斯分类分析、人工神经网络分析、决策树分类分析等[1]。决策树算法作为当前应用最广的数据挖掘算法之一,能够对数据进行分类和预测,其中C4.5 算法理论清晰、方法简单、学习能力强,是数据挖掘和机器学习领域中一个有效的数据处理工具[2]。

本文通过使用C4.5 决策树算法对影响高职学生学业目标评价的各项因素及内在关联进行数据挖掘与深入分析,提取分类规则并联系教学管理工作实际提出建议,以期为开展高职学生的学业指导工作提供决策基础和数据参考。

1 决策树算法

决策树算法是一种典型的分类方法,是一种类似于流程图的树状结构,其中心思想是IF-THEN 的规则,用于数值型因变量的预测和离散型因变量的分类[3]。通过构造决策树,可以发现数据当中蕴涵着的分类规则,它能够表示人们为了做出某种决策而进行的一系列判断过程,生成一套“在什么条件下会得到什么结果”的规则。

决策树算法简单直观、易解释,在实际应用中有着其他算法难以比肩的速度优势。一般情况下,一棵决策树包含一个根节点、若干个决策节点和若干个叶节点[4]:整棵决策树最顶端的节点被称为根节点,包含样本全集;每个决策节点表示一种特征或属性,包含数据集中满足从根节点到该节点所有条件的数据的集合;每个叶节点代表一种可能的分类结果,如果数据被包含在该叶节点中,则属于该类别。在沿着决策树由上至下的遍历过程中,每个节点都会遇到一个测试,每个节点对于问题的不同测试结果将导致不同的分支[5],最后到达一个叶节点,从根节点到每个叶结点的路径对应一个判定测试序列,表现出的是一种映射关系。

2 决策树的构造

构造一棵高精度、小规模、泛化性能好,能够高效、有效处理未知数据的决策树,通常有两个过程:第一个过程是通过预处理划分好的数据集构建决策树,即生成决策树;第二个过程是对构建的决策树进行检验和校正,即决策树剪枝。

2.1 生成决策树

将原始数据作为训练样本数据集,根据决策的实际需要对样本数据进行预处理,选择最能够体现样本特殊性的属性作为决策属性,并确定每个样本的决策属性取值;对训练样本数据集进行处理,选择影响决策属性是何取值的最主要属性作为根节点,根据根节点属性的不同取值,将完整的训练样本数据集划分为几个不同的数据子集;分别对每一个数据子集进行处理,在当前数据子集中选择对决策属性是何取值影响最大的属性作为一个决策节点,继续对当前数据子集进行划分,当某个数据子集中所有样本的决策属性取值都相同时则停止,并将该数据子集的决策属性作为一个叶节点;重复上述步骤,形成若干个决策节点和若干个叶节点,从而生成一棵完整的决策树。

2.2 决策树剪枝

随着决策树深度的增加,模型的准确度将会得到显著提升,但对于新的未知数据,决策树会出现过分适应数据的情况。而且,由于数据中存在着噪声和孤立点,许多分支反映的是训练数据中的异常,将导致对新样本数据的预测不准确的情况。为防止构建的决策树出现过度拟合,需要对决策树进行剪枝。

决策树的剪枝方法一般有预剪枝和后剪枝。预剪枝(Pres-Pruning)是指对划分前后的两棵树的泛化性能进行评估,根据评估结果决定该节点是否进行划分,事先指定决策树生长的最大深度,使很多节点没有提前展开,降低了过拟合的风险,也减少了训练决策树花费的时间。后剪枝(Post-Pruning)是在构造完成一棵完整的决策树后,从上至下计算每个节点的经验熵,递归地从决策树的叶节点进行回缩,通过计算与比较回缩前后的损失函数来判断是否进行剪枝。后剪枝可进行局部剪枝,通常比预剪枝方法保留了更多的分支。在一般情况下,后剪枝决策树欠拟合的风险很小,泛化性能优于预剪枝决策树,但训练时间会比预剪枝方法长。

3 决策树算法C4.5

3.1 算法思想

20 世纪80 年代初期,机器学习研究人员昆兰开发了决策树迭代二叉树3 代(Iterative Dichotomiser3,ID3)算法,使决策树在机器学习领域得到极大发展,他后来又提出ID3 的改进——C4.5 算法,成为新的监督学习算法的性能比较基准。C4.5算法在沿用ID3算法的信息熵和信息增益两种概念的基础上,又加入分裂信息熵的概念,使用信息增益率作为属性选择度量,选取具有最高信息增益率的属性作为每个节点的划分标准,寻找最佳分组变量和分割点,然后重复这个过程,直到生成的决策树能分类训练样本[6]。较ID3算法而言,C4.5算法能够处理非离散数据或不完整数据,能够应用于对新的未知类别的分类,提升了算法的有效性。

3.2 基本概念

1)信息熵

信息熵是对于数据集纯度的描述指标,用来描述数据集信息量的大小,是所有样本各种类别出现的不确定性之和。数据集的变量越不稳定,则信息量越大,信息熵值越高。数据集X={X1,X2,…,Xn}的信息熵Entropy(X)表示为:

其中,p(xi)表示数据为xi时的概率。

对于根据属性A划分的m个子集,各种类别出现的不确定性之和,即属性A的信息熵Entropy(X,A)表示为:

其中,Xi表示根据属性A划分的数据集X的第i个子集;|X|和|Xi|分别表示数据集X和子集Xi中的样本数目。

2)信息增益

信息增益是原本数据集的信息熵与划分之后的新数据集的信息熵之间的差值,用来衡量信息熵的期望减小值,表示在使用某种属性对样本进行划分之后,样本各种类别出现的不确定性的减少程度。信息增益越大,则信息熵的期望减小值越大。使用属性A对数据集X进行划分获得的信息增益Gain(A)表示为:

3)分裂信息

分裂信息用来将信息增益规范化[7],表示在使用某种属性进行划分时分支的数量信息和尺寸信息,通常将其称为属性的内在信息,类似于信息熵Entropy(X)。由数据集X划分成的对应于属性A输出的m个子集产生的分裂信息熵SplitEntropy(X,A)表示为:

4)信息增益率

信息增益和分裂信息熵的比值就是信息增益率。C4.5 算法选择具有最大信息增益率的属性作为分裂属性,将该属性作为决策节点。属性A的信息增益率GainRate(A)表示为:

4 C4.5在高职学生学业目标评价中的应用

4.1 确定研究对象与设计问卷

本文选定某高职院校大二年级学生作为研究对象,该年级的学生正面临着升学或者就业的选择,个体之间关于有无学业目标、是何学业目标等问题已经基本呈现出差异。

经过对学生的个人访谈可知,学生对自己学业目标的定位大致可分为参加升学考试、评选保送升学、专业就业、灵活就业、不升学不就业五种方向。本文将有升学和就业意愿的学业目标均评价为“明确”,将无升学和就业意愿的学业目标评价为“不明确”,选定自我效能水平、学业投入程度、时间管理倾向三个维度设计调查问卷(见表1),对学生的升学和就业意愿进行测量,以进行学生学业目标的评价。自我效能水平维度包含入学成绩、现在班级排名、是否任学生干部、是否获得奖学金、是否评得荣誉称号五个方面,学业投入程度维度包含职业技能竞赛获奖情况、专业实践活动参加情况、社团协会活动参加情况、专升本考试报名情况、职业资格考试报名情况五个方面,时间管理倾向维度则主要考量学生课余时间的分配情况。

表1 关于高职学生学业目标评价的调查问卷

4.2 数据采集与预处理

使用调查问卷共采集到80 份数据,从中筛选出73 份有效数据作为此次实验的训练数据集。在设计问卷时已对连续属性字段进行了离散化处理,为了方便后续处理,对收集到的离散化数据进行重新定义。

在自我效能水平维度中:将入学成绩400 分及以上定义为“高”,300 分至400 分定义为“中”,300 分及以下定义为“低”;将现在班级排名1~10 名定义为“优”,11~25名定义为“良”,26名及以后定义为“差”;在学业投入程度维度中:将职业技能竞赛获奖情况获得市级及以上奖项定义为“优秀”,获得校级奖项定义为“一般”,从不参加、未获过奖定义为“无”;将专业实践活动参加情况和社团协会活动参加情况两个题目的三个选项均依次定义为“经常”“偶尔”“从不”;将专升本考试报名情况和职业资格考试报名情况两个题目的两个选项均分别定义为“是”和“否”;将时间管理倾向维度的课余时间分配情况题目的作答情况作为目标变量,使用“学业目标”标识,包含有备赛备考或是实践实习任一选项的数据则表示有升学和就业意愿,定义为“明确”,否则定义为“不明确”。

为了简化训练数据表,将题目1~10 分别对应属性1~10。经过预处理的训练数据表(部分)和完整的训练数据表中各属性的数据量统计表分别见表2、表3。

表2 训练数据表(部分)

表3 数据量统计表

4.3 创建决策树

为了深入分析影响高职学生学业目标评价的各项因素及内在关联,使用训练数据集中的73条数据,生成一棵能够预测高职学生学业目标是否明确的决策树。

1)目标变量“学业目标”属性有“明确”和“不明确”两个取值,因此可将训练数据集划分为两个类,类“明确”有56 个样本,类“不明确”有17 个样本。计算训练数据集的信息熵:

2)计算各属性的信息熵:

依次计算出属性2 至属性10 的信息熵分别为:0.749、0.753、0.761、0.774、0.711、0.759、0.639、0.669、0.745。

3)计算各属性的信息增益:

依次计算出属性2至属性10的信息增益分别为:0.034、0.03、0.022、0.009、0.072、0.024、0.144、0.114、0.038。

4)计算各属性的分裂信息熵:

依次计算出属性2 至属性10 的分裂信息熵分别为:1.474、0.847、0.806、0.914、1.355、1.387、1.461、0.939、0.914。

5)计算各属性的信息增益率:

依次计算出属性2 至属性10 的信息增益率分别为:0.0231、0.0354、0.0272、0.0098、0.0531、0.0173、0.0985、0.1214、0.0416。

选取信息增益率最大的属性作为分裂属性,因此将属性9“专升本考试报名情况”作为决策树的根节点,用“升学考试”标识,并生成“是”和“否”两个分支。使用同样方法在每个分支上对其他属性进行进一步的处理,最终选取属性2、4、6、7、8、10作为决策树的决策节点,依次用“班级排名”“奖学金”“竞赛获奖”“专业实践”“社团协会”“职业证书”标识。根据各个属性取值的不同生成若干个分支,当分支上目标变量取值完全相同时则生成叶节点。通过后剪枝的方法剪枝后,最终生成的决策树如图1所示。

图1 高职学生学业目标评价决策树

4.4 提取分类规则

从决策树中可以提取出学业目标为“不明确”的分类规则如下:

IF“升学考试=是”AND“专业实践=从不”AND“职业证书=是”AND“奖学金=否”AND“竞赛获奖=从不”THEN“学业目标=不明确”;

IF“升学考试=是”AND“专业实践=从不”AND“职业证书=否”AND“班级排名=差”THEN“学业目标=不明确”;

IF“升学考试=否”AND“社团协会=偶尔”AND“专业实践=偶尔”AND“竞赛获奖=无”AND“职业证书=否”THEN“学业目标=不明确”;

IF“升学考试=否”AND“社团协会=从不”THEN“学业目标=不明确”。

4.5 数据分析

从决策树和上述分类规则可以看出:

1)影响高职学生学业目标评价是否明确的最主要因素是专升本考试报名情况,有意愿报名、参加专升本考试的学生普遍拥有着更明确的学业目标;

2)经常积极参与各项各类专业实践活动、社团协会活动和职业技能竞赛的学业投入意愿较强、程度较高的学生,普遍拥有着明确的学业目标;

3)不参加升学考试和职业证书考试,对各项各类专业实践活动、社团协会活动和职业技能竞赛均持中等意愿的学生,普遍拥有着不明确的学业目标;

4)参加升学考试或职业证书考试,但成绩落后、未评得过奖学金、未获得过竞赛奖项等自我效能水平较低的学生,普遍拥有着不明确的学业目标。

因此,在高职学生的培养过程中,教育工作者应当首先注重加强学生对升学考试和专业相关职业资格证书的认识,可以开展学生间的学业经验交流活动,同伴群体间的榜样作用能够帮助学生对学业目标产生更清晰的认知,其次要为学生创设更多参加专业实践活动、社团协会活动和职业技能竞赛的机会,让学生在实际参与的过程中认识到个人兴趣所在以及明确就业方向,提升学生学业投入程度的精度和深度,在经验增长的过程中,促使学生的自我效能水平也得到相应提升。

5 结束语

本文以某高职院校大二年级学生作为研究对象,设计高职学生学业目标评价的调查问卷并进行数据收集,利用C4.5 决策树算法进行数据挖掘,并对挖掘结果进行深入分析,认为影响高职学生学业目标评价是否明确的最主要因素是专升本考试报名情况,在进行高职学生的学业指导工作时,教育工作者应当注重为学生提供有关升学考试和职业资格证书的讲解与经验交流机会,积极组织开展更多专业实践活动、社团协会活动和职业技能竞赛,着眼于提升学生学业投入程度的精度和深度及其自我效能水平,引导学生在此过程中逐步明确其学业目标。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!