当前位置:首页 期刊杂志

关联规则-在高职院校就业信息管理中的应用以广西农业职业技术学院为例

时间:2024-05-04

黄荣喜,粟圣森,邓江荣

(广西农业职业技术学院,广西 南宁 530007)

关联规则-在高职院校就业信息管理中的应用以广西农业职业技术学院为例

黄荣喜,粟圣森,邓江荣

(广西农业职业技术学院,广西 南宁 530007)

高校毕业生数量庞大,针对就业信息系统中存在的大量数据,通过数据预处理进行分析取样,获取毕业生信息中与就业信息相关的关键因素等一系列数据.文章利用Apriori算法,挖掘出相关联的数据,通过学生自身因素与就业情况信息进行比对,得出影响毕业生就业前景的相关数据.将其运用到高校就业管理系统中,对影响毕业生就业的关键因素进行分析,并加以验证,对毕业生就业指导起到了积极的决策作用.

就业信息;关联规则;就业决策;Apriori算法

目前,随着高职院校的快速发展,很多院校都有相关的校园网络,也有很多相应的管理系统,但通过调研了解,高职院校的就业信息管理系统还不完善,大量的数据基本都不进行统计分析,不仅影响工作效率,而且不利于就业工作的开展.高校很多相关的系统都是相关联的,特别是学生信息的分析,有些系统使用的时间比较久,比如学生管理系统、教务管理系统、学生成绩管理系统等,这些数据有什么样的关联,如何应用好这些数据,并将这些数据应用到学生的就业中,是非常有必要的.但由于人力物力有限,很少去挖掘这些数据的关联性,让有价值的信息得以利用.作为高校的就业管理人员,必须要考虑和改善目前的数据分析效果,并利用数据挖掘技术来挖掘相关联的数据,在学生管理系统、教务管理系统中,挖掘出对就业管理系统有用的数据,并进行就业导向的分析,为毕业生的就业方向作出正确的决策[1].

1 关联规则及在就业信息管理中的研究现状

关联规则算法主要由美国科学家Agrawal和Srikant提出,并将其应用于模型设计中.它的提出,在计算机对数据统计分析上起到了极其重要的作用,其发现在当时的科技界引起了巨大的反响,在很多领域上都有了高度的运用[2],本文主要研究其在就业信息管理中的一些应用.

1.1 频繁项集的高效挖掘算法

频繁项集挖掘算法主要有:Apriori算法,主要是通过对数据的大量扫描找出相关数据,并建立相应的频繁集.Eclat算法,主要是通过数据的频繁项交集来形成相关的数据,其主要在于内存空间占用较少.FP-growth算法,主要是采用多分枝策略,对数据进行比较压缩,以一棵树的形式保留相应的频繁项集.本文主要采用Apriori算法来对就业数据进行挖掘分析.

1.2 关联规则的挖掘

关联规则的挖掘主要体现在对数据的高效分析,并挖掘出有效的频繁项集,在这些项集中找出有价值的一部分,并通过这些相关的数据来分析毕业生的就业方向,为他们的就业作出正确的指导.

1.3 关联规则在就业信息管理中的研究

目前高校管理系统采用关联规则对数据分析的并不多,大多数高职院校都还没有做到这一步.目前对关联规则在数据分析上应用得比较多的有北京师范大学,其主要在就业信息的管理上采用数据的优化设计,并输出有价值的数据供管理人员参考.由于数据量庞大,对就业数据的挖掘有一定的难度,但如果结合其他的算法进行数据分析,就能取得更好的效果,比如与决策树进行对比分析等,这些数据的关联分析也是关联规则挖掘算法的研究热点.

2 关联规则对就业数据模型设计

2.1 设计步骤

2.1.1 确定好挖掘的目标及对象

找出需要挖掘的相关数据并解决相关的问题,在就业信息管理系统中挖掘出的数据,通过挖掘出来的对象属性找出一些预见性的结论,并通过决策树来进行对比分析,数据的挖掘虽然有偏差,但通过与实际的调研分析,还是有很强的说服力的,其预测的准确度也非常高,基本上达到了85%以上.在本系统的设计中,主要是针对学生就业信息数据的统计以及找出这些数据各方面的关联情况,看哪些数据对学生的就业影响比较大,通过这些数据作一些基本的预测,并根据提供的数据对预测的结果进行分析对比,得出所需要的数据.

2.1.2 数据信息的预处理

在信息的预处理上,主要有数据采样与数据转换.本文研究数据来源于广西农业职业技术学院学生管理系统、教务管理系统及就业统计上报数据库的信息管理系统,主要有学生信息表、综合成绩表、学生就业统计信息表.在这些数据表中进行对数据采样,并把这些表中的数据转换成数据模型,通过转换成符号的形式来分析处理数据.

2.1.3 关联规则模型挖掘

关联模型的建立是为了对就业信息管理系统中的数据进行研究构建.在构建的过程中找出相应的算法来进行设计分析,并找出满足条件的数据规矩模型,通过前面定义好的符号进行数据的关联转换,挖掘出有效的关联数据.通过不同算法的分析对比,本文所采用的关联属性挖掘值的算法主要是APriori算法.

3 就业信息关联规则挖掘设计

3.1 频繁谓词集的求取

3.1.1 单维、多维频繁谓词集的搜索

维是关联中一个重要的唯一属性,通过维的设置,可以找出所需要的相关数据,并可以找出有用的属性值,比如一个人的性格取向对就业的影响等.多维度的设计研究是本文的重要研究算法,主要是通过对数据的多方面的挖掘比较来对数据进行分析.本文主要采用APriori算法对数据进行设计,主要体现在对多维频繁维的收集处理上,对数据进行扫描存储分析.

3.1.2 Apriori算法在就业信息管理中的应用

APriori算法的应用已经非常成熟,数据的处理也比较可靠.在就业信息数据管理统计分析中,该算法扫描一次事务数据库D,并得到一个初始化的集合F1.在扫描得到相关数据后,将数据分布到一个线性的矩阵上,然后再运用对角线性的扫描方式进行扫描,对扫描到的数据进行动态的统计,并达到最大的维度,再通过"And"运算符进行"与"运算,找出所需的频繁项集,并对相关数据进行分析,得出相应的结论.

3.1.3 生成关联规则

关联规则的生成及其有效利用,是本文研究的重点,关联规则的利用主要体现在支持度上.其把相应的属性值通过与要研究的属性值进行对比挖掘,并设置好相关的置信度进行数据挖掘.通过对频繁谓词集的挖掘,找出满足条件的最小置信度,并产生强关联规则[3].

在这些挖掘出的数据关联中,找出研究中所需要的某一个属性维值,并作为在数据挖掘中输出的记录属性值,把它记录为X,并将其作为相应的结论属性值.另外的属性值作为输出的条件并记录为Y.X∪Y作为数据的频繁谓词记录项,并把相应的记录值保存到文件中.由Apriori算法的性质可知,X∪Y必须由X与Y作为相应的频繁项集,因此,这些记录在相应的过程中被保存到文件中,并做好相应的计数.

通过如下的公式计数而得:

4 关联规则挖掘测试及结果分析

4.1 挖掘测试

通过以上的数据模型设计以及挖掘设计后,设置好相应的数据表,找出相关的字段及相应的属性维,并根据相应的关联度来计算其数据的关联程度.通过设置相关数据的最小支持度来获取数据的关联性强度计算,在数据表中,如果选择的字段越多,其构建出来的关联数据也越多,分析的难度也越大[4].因此,为了降低数据的分析强度以及数据测试的最大可靠度,本测试选择了表中的4个属性值字段,即性格取向、综合排名、计算机能力、英语水平等进行分析设置,并设置好关联数据值,为了让数据的关联度更加紧密,把这个值设定为0.02,最后通过Apriori算法进行数据分析挖掘.

4.2 结果分析

通过就业信息管理系统的数据挖掘,可以得出很多有价值的信息,这也正是本文所需要研究的.

(1)通过对综合成绩、实践能力、计算机能力、英语水平的分析来判断其对就业的影响,通过相应的规则,分析得出的结果如表1所示.

可以看出,计算机能力及综合成绩较好的同学,其就业的单位会相对比较好.因此,作为教学部门,可以对学生有针对性地培养,为他们在今后的就业上打下坚实的基础.作为就业管理人员,也可以根据相关的数据,更好地指导学生就业.

(2)通过对同学的性格取向、高考成绩、毕业综合成绩等来预测毕业生的就业情况,其分析得出的数据如表2所示.

从表2的数据可以分析得出,学生的性格取向及毕业综合成绩对就业有较大的影响.高考成绩对高职院校的学生来说,在其就业中的影响并不大.因此,在今后的教育中,要培养好学生的性格取向及实践动手能力.

表1 综合能力对就业的影响

表2 高考成绩、毕业成绩以及性格取向对就业的影响

5 结语

在就业数据的分析研究中,本文通过将Apriori算法应用到就业信息关联挖掘中,挖掘出对毕业生今后的就业情况相关的属性以及影响比较大的属性,并进行结果分析.通过调研对比,其数据的分析统计具有很高的可靠性.因此在教学的过程中,不仅需要培养学生的学习能力,更要培训学生的兴趣爱好,通过不断地调整学生的发展方向来让其更好地就业.分析得出,学生的高考成绩对今后在高职院校的发展以及就业影响并不大.因此,对教学部门来说,从大一开始,就要作为一个新的起点,在教学上找准切入点,有针对性地提高教学质量,对高校学生的就业前景有一定的指导意义,对管理和决策者来说,具有很强的决策意义.

[1]张艺雪,黄毅杰.一种基于Map Reduce的Apriori改进算法研究[J].兰州工业学院学报,2014(6):13-16.

[2]陈志飞,冯钧.一种基于Apriori算法的优化挖掘算法[J].计算机与现代化,2016(9):1-5.

[3]李磊.基于云计算与大数据的Apriori算法的分析研究[J].信息技术,2016(9):93-95.

[4]李梅,张阳,蔡晓妍.关联规则挖掘在学生成绩分析中的应用[J].中国电力教育,2014(20):70-76.

Application of association rules in employment information management of higher vocational colleges: taking Guangxi Agricultural Vocational College as an example

Huang Rongxi, Su Shengsen, Deng Jiangrong
(Guangxi Agricultural Vocational College, Nanning 530007, China)

The number of college graduates is huge, aiming at a large amount of data exists in the employment information system,sampled and analyzed by data processing to obtain a series of data associated the employment information in the graduates' information.In this paper, the Apriori algorithm is used to dig out the associated data, compared with the employment situation of information through the students' own factors, to obtain the associated data which affect the employment prospects of the graduates. It is applied to the employment management system of colleges and universities, analyzes and proves the key factors that affect the employment of graduates,and has played a positive decision-making role in guiding the employment of graduates.

employment information; association rules; employment decision-making; Apriori algorithm

2016年度广西高校中青年教师基础能力提升项目;项目名称:基于WEB的高职院校就业信息管理系统的研发与应用;项目编号:KY2016YB685.

黄荣喜(1979- ),男,广西桂林人,讲师,硕士;研究方向:计算机软件开发.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!