当前位置:首页 期刊杂志

数据挖掘在高职院校就业指导中的应用研究

时间:2024-06-19

陈海宇,郭晓伟

(罗定职业技术学院电子信息系,罗定 527200)

数据挖掘在高职院校就业指导中的应用研究

陈海宇,郭晓伟

(罗定职业技术学院电子信息系,罗定 527200)

提高就业率是以培养应用型人才为宗旨的高职院校重要目标.将C45算法应用于就业信息统计分析中,通过对就业数据预处理、就业决策树的构建和剪枝,从其抽取分类规则,并指出决定就业单位类别的决策属性,得到一些较实用的预测毕业生就业动态的规律,从而更好地服务于学生就业指导工作.

决策树;数据挖掘 ;维度表;规则

近几年,各高校的学生信息库逐步建立并得到完善、完整,可以对这些积累的学生管理中的数据以及通过技术实训、社会实践实际调查采集的相关数据进行挖掘,使得具有分类的预知性与离散性的就业数据,变成有价值的知识.利用挖掘的结果,一方面可以指导在校低年级学生的学习,另一方面可以指导不同类型的毕业生选择合适的就业途径,提高就业率.

1 数据挖掘与就业指导工作

数据挖掘(Data Mining)是从海量的数据中,抽取潜在的、有价值的规则或知识的过程,其本质上是一类深层次的数据分析方法[1].

将数据挖掘应用于高校的就业工作中,能从众多的学生信息库、学生就业信息库中挖掘出学生就业的基本规律,引导教育改革的方向,影响决策者的基本决策.在高等院校中,存在着大量的学生个人的教育信息和就业信息.对于教育信息,既和教学相关,如学业成绩、外语水平、计算机水平、普通话水平、获奖情况、实践操作能力等,又和非智力因素有关,如学生的性别、身体状况、性格特征、心理因素、职业道德等.毕业生就业信息则包括企业地域、企业性质、职位、行业、薪资待遇等.利用决策树数据挖掘算法从无次序、规律的学生个人教育信息和就业信息中推理出决策树型的分类规则,并且该算法具有数据分析效率高、直观易懂的特点,更能启发相应管理者因材施教,增强学生的综合竞争力,同时对毕业生做一个有效的就业指导,对提高学生的就业率将会有事半功倍的效果[2].

把数据挖掘技术应用到学生就业教育工作中,综合分析学生个人的综合信息和毕业后的就业动态,使隐藏在其中的信息外显.经过对学生相关数据进行分析,可以显示:影响学生就业的重要教育、个人因素,以及就业方向的影响,等每个教育者都急需知道的问题,这是传统评价方法无法做到的.

2 C45算法原理与决策树的生成

决策树是一种常用于预测模型的算法,通过将大量数据有目的地分类,从中找到有价值的、潜在的信息,特别适合大规模的数据处理.其采用自顶向下的方法对杂乱的学生综合信息进行决策挖掘,把无序的数据整理成一棵倒挂的树,从树根到叶结点所经过的一条路径形成一条选取的规则[3].C45算法是在ID3基础上发展起来的决策树生成算法,其采用信息增益率作为属性选择折度量标志,通过四个式子对相关数据进行预处理后,归纳得到决策树[4].假设T为事例集合,Ci为事例样本类标号,i=1,2,…m,熵的计算方法如下式(1)所示.

式一中:freq(Ci T)表示集合 T中属于类Ci的数目,|T|表示集合T中的样本个数.

若按照非类别属性X,选取n个不同值T1,T2,…Tn,产生的决策树信息量的期望值即条件熵如下式(2).

式中:T是按照属性X进行分区的集合,|Ti|是基于属性X的某个值的子树中每一类例子的数目.由此得到对属性X作为决策分类属性的度量值(互信息)即增益大的是要选取的节点,如式(3)所示.

用导致最大信息增益Gain的属性X作为扩展属性进行分枝,信息增益率为GainRatio(X)=Gain(X)/Split(X).C45算法需要对每个决策属性的信息增益率进行算,并通过属性的每一个取值建立由树节点引出的分枝,生成一棵完全的树后,要对决策树进行剪枝策略,删去最不可靠的树枝,消除训练集中的噪声,从而提高分类识别的速度和数据准确分类的能力.修剪后的决策树,可以进行决策规则的提取,每条分类规则都是走一条从根结点到叶结点的路径,用IF-T HEN形式表示[5],路径上的分支结点及边表示相应的条件取值,而叶结点表示由此取值得到的结论.

3 在就业指导工作中的应用分析

3.1 数据准备和预处理

采用自顶向下企业数据仓库可以从总体上把握整个数据仓库的规模、粒度的级别和元数据管理,是一种系统的解决方法,并能够最大限度地减少集成问题[6].构建星型模式(Star Schema)的数据仓库,它通过使用一个包含主题的事实表和多个包含事实的非正规化描述的维度表来执行典型的决策支持查询,是一种关系型数据库结构,模式的中间是事实表,周围是维度表,数据在事实表中维护,维度数据在维度表中维护.每个维度表通过一个关键字(一般情况下为主键)与事实表关联[7].

在C45算法中,采用近三年学校毕业生就业信息情况进行分类过半数据作为训练模型,其余的数据作为测试数据集用来测试模型准确度,如图1所示,实例中使用了学生就业统计表、学生综合测评表、学生自然情况表、学生奖罚情况表、社会实践情况表等,建立多维数据集后,方便在综合测评情况、获奖情况、受处分情况、课外实践情况下进行分析和选择.

图1 星型模式的多维数据集

学生就业统计表中,包括学生学号、姓名、工作单位等属性.目的是挖掘出哪些素质以及素质的水平与哪一种类型工作相关联,在学生综合测评、学生获奖情况表和社会实践情况表中提出若干素质项,如:学业成绩、技能水平(包括外语水平、计算机水平、普通话水平,取得资格考证)、实践能力、性格特征(包括外向开朗乐观有很强的责任心为优,外向开朗乐观为良,而内向没责任感的则为差)等作为决策属性.对工作单位属性进行量化,分为三种:学校(A)、公司企业(B)、自主创业(C)等,而每个工作单位分为三种工作种:中学教师(A1)、小学教师(A2)、大型公司企业(B1)、小型公司企业(B2)、创办工厂(C1)、开店铺(C2)等.

给出如表1所示的本校学生就业统计记录数据作为训练数据集,并进行分析,从而得出什么行业、什么层次的就业条件适合具备什么能力的学生.教育管理者根据导出的规则更好地对学生进行就业指导教育;并且以此为依据进行教育教学的改革与加强具体某专业的学生必须进行哪些方面技能与实践的培养,从整体提高学生就业层次、学校的就业率.

3.2 用C45算法构造就业决策树

在学生就业统计数据中选取属性:学业成绩、技能水平、实践能力、性格特征作为决策属性把工作单作为类别识.科、就业数据训练样本集S中,共有20个元组,其中选取A1中学教师A2小学教师、B1大型公司企业、C1创办工厂四个类别进行分析,该四类所对应的子集中元组个数分别为:R1=5、R2=8、R3=3、R4=2,则利用公式计算集合S分类的期望信息量.

表1 就业数据训练样本集

然后计算每一个决策性的期望信息量(熵值),其中i=1,2,3,4,5,6则对属性“学业成绩”,当学业成绩=“优”.

属性“学业成绩”的信息增益为:

Gain(学业成绩)=I(R1,R2,R3,R4)-E(学业成绩)=1.8164-1.2881=0.5283.

属性“学业成绩”的信息增益率为:Ratio(学业成绩)=Gain(学业成绩)/E(学业成绩)=0.4101

同理计算得到每一个决策属性的信息增益和信息增益率如表2所示.

表2 就业信息的属性信息增益和信息增益率

从上表2可知,属性GainRatio(学业成绩)=0.4101具有最大的信息增益率值,所以选择该属性作为决策树的根节点进行测试.重复上述,生成一棵决策树,可以采用前修剪方法和后剪枝方法对其采取剪枝策略,后剪枝方法比较常用,是指输入为一个未剪枝的树T,输出为剪枝后的决策树T1,T1是修剪了T中一个或多个子树后获得的树.实质是把就业训练集中的孤立点与噪声消除,经过修剪后得到的就业决策树的属性如图2所示.

决策树图2中,通过训练集得到决策树分类模型对新数据进行分类,可以比较容易地对学生就业的动态进行判断,从图中可以看出,专业成绩是学生就业方向中的关键,其次是技能水平.

3.3 决策树中提取规则知识

修剪后的决策树,对其根到叶子结点的每条路径创建一个规则,以IF-THEN形式的分类规则描述.由决策树提取的分类规则沿着其给定路径上的每个属性和属性像关联值形成规则条件IF的一个合取项,则叶结点包含类预测,形成结论 THEN部分.关键的第一层次单位类别,就业决策树中只提取A1、A2、B1、C1类的规则,从图2中可提出对应规则:

图2 修剪后的就业决策树

规则1 if学业成绩=“优”and技能水平=“一级”then在各地中学就业;

规则2 if技能水平=“二级以上”and性格特征=“优、良”then在大型公司企业就业;

规则3 if实践能力=“强”and专业成绩=“良”then自主创业;

规则4 if技能水平=“一级”and性格特征=“差”then在各地小学就业;

根据以上规则可以知道,如果要提学生各类别的就业层次,对于三种不同类型的就业单位,要求有差别.若是教育类专业学生想提高就业层次需要加强专业素质培养,还需增强技能水平的训练;对于非教育类学生,若外语专业学生则需要加强计算机和其它技能的培养,若计算机专业学生则需加强提高外语水平.实质上对于以大型公司与企业为就业目标的学生来说,需加强综合技能水平和实践能力的培养;如果是进行自主创业的学生,则需要有更强的实践能力,也需要一定的知识支持,才能取得创业的成功.

4 结 论

决策树是数据挖掘中的一个常用的算法工具,而C45算法是数据挖掘中的核心算法,在ID3基础上改进而生成的,适用范围比较广,构造简单、能正确分类、频率较高的决策树算法.根据就业数据具有分类的预知性与离散性的特点,选择决策树C45算法通过数据转换与预处理,参数和类选定,构造和修剪决策树,建构成就业决策树,生成分规则后,完成分类数据挖掘,为供决策者提供决策帮助.经过实验,效果较好,在今后的学习中,将考虑更完善地对其它属性如院校的知名度、所学专业、学生的职业道德、应聘技巧等进行深入研究,给以教师更多的就业指导提示,学生就业方向的选择.

[1]毛国君,段立娟,王 实,等,数据挖掘原理与算法[M].北京:清华大学出版社,2006.

[2]马秀红,宋建社,董晟飞.数据挖掘中决策树的探讨[J].计算机工程与应用,2004,40(1):185.

[3]杨学兵,张 俊.决策树算法及其核心技术[J].计算机技术与发展,2007,17(1):20-22.

[4]李 楠,段隆振,陈 萌.决策树C45算法在数据挖掘中的分析及其应用[J].计算机与现代化,2008,160(12).

[5]Han J.Datamining Techniques[R].Canada Montreal Proe 1996 ACM-SIGMOD Int Conf on Management of Data,1996.

[6]王曙燕,耿国华,周明全.数据仓库与数据挖掘技术的研究与应用[J].计算机应用研究,2005,(9):194-195,205.

[7]黎 娅,郭江娜.决策树的剪枝策略研究[J].河南科学,2009,27(3):320-323.

The Application of Data Mining in Higher Vocational Career Guidance

CHEN Hai-yu,GUO Xiao-wei

(Electronic Information Department,Luoding Vocational Technical College,Luoding 527200,China)

T o raise the employment rate is the important goal of vocational colleges whose purpose is to train practical talents.C45 algorithm is applied to the statistical analysis of employment information through the pre-employment data,employment,decision tree construction and pruning,its classification rule extraction.The decision attributes of employment unit category are decided and some of the more practical graduate employment laws are predicted to better serve the student employment guidance.

decision tree;data mining;dimension table;rule

TE258;T P183

A

1671-119X(2011)02-0056-04

2011-01-11

陈海宇(1978-),女,硕士,讲师,研究方向:计算机应用、软件工程.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!