普通高校招生信息处理中数据挖掘技术的应用探索

时间：2024-04-25

刘峰王玉吉周克复马英杰

摘要：随着信息技术在高校教学管理、学生管理工作中日益广泛而深入的应用，高校招生管理系统与教学管理、学生管理系统的信息对接显得尤为重要，只有对招生管理系统中的信息进行深度的挖掘，才能使教学、学生管理系统获得高质量的数据输入。高校招生信息的充分有效利用将有效促进高校教学、学生、招生管理工作的规范化、信息化、自动化水平，本研究对数据挖掘技术在高校招生数据中的运用进行了有益探索。

关键词：数据挖掘；招生信息

随着高校间生源竞争的日趋激烈，招生宣传工作越来越受到高校管理者的重视，而科学、深入地挖掘招生数据中潜在的、隐藏的规律，能够大大提高招生宣传工作的针对性，从而增强宣传效果。通过数据挖掘技术，可以对招生系统积累的海量招生数据进行挖掘和提炼，对简单的数据进行多维分析、合并归类和高度集成，从而挖掘出隐藏于数据间的潜在联系，获取有价值的信息。基于挖掘结果，高校教学管理、学生管理、招生管理工作者可以透视数据间的各种特征和关系，大大提高决策水平和管理水平，有效增强学校竞争力。

1、数据挖掘技术

数据库规模日益扩大产生了繁杂的海量数据，要从这些海量数据中发现潜在的、有用的信息，成为一项重要而艰巨的任务，而数据挖掘技术正是在这种需求的背景下应运而生。数据挖掘是指从海量数据中自动搜索隐藏的、潜在的、有用的信息的过程。数据挖掘的结果一般以概念、规则、规律、模式、约束、可视化图表等形式表现，通过决策支持工具提供给决策者使用。

数据挖掘的主要任务包括关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等等，数据挖掘的主要任务可以分为预测性任务和描述性任务两大类。数据挖掘的主要过程包括数据准备、数据挖掘和知识表示，数据准备包括对数据的集成和选择，数据挖掘阶段是最核心的环节，需要确定挖掘模式并选择合适的算法工具，知识表示是数据挖掘的最后也是最重要阶段，决定了信息最终将以何种形式呈现给用户。数据挖掘技术中常见的算法包括聚类算法、关联算法和归类算法等，聚类算法将样本点按照属性特征进行无指定标签归类，确保同类样本点的极大相似和不同类样本点的极大差异，关联规则算法则用于发现隐藏在大型数据集中令人感兴趣的关联，分类算法则通过一定的训练算法来学习分类知识，然后将分类知识用于样本集。

2、分析普通高校招生信息处理存在的问题

我国普通高等学校的主要生源来自普通高考，普通高考录取工作通过教育部组织开发的高等院校招生录取系统进行，该系统导出的数据规范、丰富、详细，但其功能仅限于网上录取工作，如何利用好系统导出数据却成为录取后续相关工作的软肋。按照现有管理模式，招生系统数据仅仅是在校内经过简单的传送、转发后流向相关职能部门，对于数据的利用也仅仅限于简单的查询、统计、备份，并没有充分发挥出其作用，现代化、信息化的高校教学和学生管理工作也迫切需要更有價值的信息作为系统输入，而数据挖掘技术恰恰能够较好地满足高校信息处理需求。将数据挖掘技术用于高校招生数据处理，是高校管理信息化、自动化、现代化的必然选择。

3、功能的实现

可以建立招生信息管理系统来对海量招生数据进行挖掘。招生信息管理系统的目的是承接全国网上招生系统数据输出，整合高校教学和学生管理部门数据积累，在海量数据的基础上，形成全校数据整合、集成、处理平台，向高校相关职能部门提供信息查询和决策支持。招生信息管理系统包含信息维护模块、信息查询模块、入校管理模块、决策支持模块四个基本功能模块组成，其中决策支持模块是实现数据挖掘算法的主要模块，该系统基于三层构架，挖掘算法逻辑运行于JugarCTS中间组件，可以大大提高运行效率。在数据挖掘的实现上，使用微软的SQLServer2000 AnalysisServices，该系统能够提供数据挖掘中间服务，对决策树、聚类算法等数据挖掘算法均能提供较好的支持。

4、普通高校招生信息处理中数据挖掘技术的应用

4.1挖掘的过程

数据准备阶段的主要工作包括将来自招生、教务、学生管理系统中的数据进行集成，然后根据实际需要对集成数据进行选择，以缩小处理数据量。实施挖掘阶段先采用发现型数据挖掘，为用户提出预先假设，然后选择合适的算法工具，在本文中主要采用了聚类算法、决策树归纳算法和频繁项集关联规则算法，进而由招生信息管理系统实现算法逻辑，最后依靠决策支持技术对挖掘结果进行整理后呈现给用户。在整个挖掘过程中，数据准备是十分重要的基础性工作，数据准备质量的高低，直接决定了挖掘工作能否达到预设目的。数据准备工作主要包括聚集、抽样、维归约、特征子集选择、特征创建、离散化和二元化、变量变换，聚集工作是数据对象合并过程，抽样工作将使挖掘工作集中于有意义的、感兴趣的数据范围内，维归约可以删除数据中不相关的特征并降低数据噪声从而避免维灾难，特征子集的选择去除了冗余特征和不相关特征，特征创建可以选择性地开发新的数据特征，最后，连续属性可以通过离散化来转换成适合数据挖掘算法的离散属性。

4.2生源关联分析和生源前景预测

使用关联规则对历年积累的生源信息进行深入挖掘，发现生源层次、专业、地域、毕业高中、科类间的潜在联系和规律，从而为招生宣传工作提供决策支持。使用Apriori频繁项集算法对学生数据进行挖掘并生成关联规则，可以发现和预测生源信息属性间存在的关联规律，从而支持教学管理工作中的生源特征分析和招生管理工作生源结构预测。使用决策树作为分类器，用信息增益度作为属性测试条件选择的度量依据，运用决策树算法构造决策树，在海量招生数据中提取知识，以预测可能的生源变化，发现测试属性对制定招生来源计划的影响，在此基础上，对专业设置和分省分专业招生计划作出合理调整。

4.3学生分班管理

使用聚类算法，综合新生高考总成绩、单科成绩、政治面貌、性别、地域等信息进行分析，在分班过程中注重属于不同组类学生之间的平衡，防止具有相同综合特征的学生过于集中于一个或某几个班级。由于新生数据属于低维数据，因此可以使用自下而上的聚合层次聚类算法，通过树状图对作为原子聚类的新生数据对象进行逐层聚合，直至聚合终止条件被激活。聚类算法对于分班管理具有重要意义，使用传统的分班方式容易导致“以偏概全”，即偏重于单项指标而难以达到整体指标的平衡，从而给后续教学、学生管理带来诸多问题。

4.4人才选拔管理

可以从系统数据和电子档案中抽取反映新生个性特征、兴趣志向、认知能力的数据字段，使用聚类算法对信息进行提取、分析、归纳、总结，从而发现符合特定特征标准的群体，在入校一段时间以后，还可以对学生日常成绩信息进行筛选、融合，对学生成长定位进行倾向性预测，达到增强人才培养工作针对性的目的。使用ID3决策树归纳算法对学生成绩信息、日常评价信息进行深入分析，并训练出学生发展定位前景分类器，根据此分类器可以对学生的发展定位特征做出预测，并在此基础上增强人才培养工作的针对性。ID3算法以决策树作为分析工具，将信息增益度作为条件测试属性选择的依据（决策树节点），该算法理论清晰，算法简单，具有较好的总预测准确率。

综上所述，数据挖掘作为将传统数据分析方法与处理大量数据的复杂算法相结合的新手段，已经成为信息管理和决策支持领域的前沿研究方向之一，应用将越来越广泛。高等院校招生数据积累量大，格式规范，因此非常适用于现有数据挖掘算法的使用，将数据挖掘技术应用到高校招生信息处理工作中，必将为高校教学管理、学生管理、招生管理提供有价值的决策依据信息，对于提高高校管理规范化、信息化水平，提高生源数量和质量具有显著意义，值得普遍推广应用。

参考文献：

[1] 许硕. 数据挖掘技术在民办高校招生中的探索[J]. 辽宁师专学报（社会科学版）. 2013（04）

[2] 孙晓莹，郭飞燕. 数据挖掘在高校招生预测中的应用研究[J]. 计算机仿真. 2012（04）