数据挖掘在高校招生信息化中的运用

时间：2024-05-04

邓有林

摘要：数据挖掘是一门交叉性学科，它注重潜在能量，我们可以从广博的数据库中，找到大量有价值的知识、图片、文字等重要信息内容。数据库技术、网络技术以及计算机硬件，是时代发展的科技结晶，它在贮存大量数据的同时，也扩大了人们采集数据的范围。经过多年的发展，数据挖掘已经在商业、金融、医疗等各个领域得到了广泛的应用。本文从数据挖掘的含义、功能出发，探究了数据挖掘的种类和内容，以及在高校招生信息化中的运用。

关键词：数据挖掘；数据库技术；信息化；运用

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）01-0001-02

数据挖掘又称为数据库中的知识发现，是指从很泛很杂且朦胧的数据提取，同时数据提取又是非常隐秘的，人们无法预知的，但是它又真实的潜藏在，有价值的信息传播过程中。

1 数据挖掘概述

数据挖掘是由统计学、人工智能、数据库、可视化技术等，与当代科技相融而成的，一门交叉性学科，是发现知识的重要工具。计算机硬件与数据库技术的持续增长，在一定程度上带动了，数据信息的发展，但与此同时，保存在数据库之中以及计算机磁盘里的容量信息，却在一步一步锐减。数据信息的肆意增长，渐渐蒙蔽了人们的双眼。然而，数据挖掘技术的出现，却妥善的消除了信息弊端，使人们在网络信息数据库中，找到了真正有实用价值的资源。

2 数据挖掘的功能

数据挖掘的具体功能主要分为以下几个方面：

概念描述可以分为两种，一是特征性描述，二是区别性描述，概念描述的真实含义，就是对指定对象的内在心理，进行语言描述，并说明这类对象的主要特点。特征性描述的是同一种事物的共性，区别性描述的是同一类事物的差异。描述数据的存在形式，可以是多样化的、朦胧式的，它的主要功能，就是用户的数据考察。

1）关联分析

数据之间的关联性，是数据库中存在的一种十分重要的，容易被人挖掘的信息资源。如果多个变量的取值之间，存在着强烈的逻辑性，那么它就被称为关联。关联通常会被分为三种，一是简单关联、二是时序关联、三是因果关联。关联分析是从大量的数据中，集结而来的微妙关系，也分为前后关系和因果关系，相互牵连。

2）分类与预测

分类数据的探究和摸索，是一项任重而道远的任务。分类的原因是受系统中的，分类函数和分类模型的影响。这种模型可以把数据资料库中的，数据项目传送到定类数据中，从而构成分类器，但要完成传输任务，系统这时就需要有一个模型样本数据集，作为传输工具。

预测是系统利用历史数据而设置的一个初步模型，再运用新的数据作为输入值，这样就可以得出未来的数据倾向值，或是结合评估和样本模型，才能获取具体的属性值或是值数的范围。

3）聚类

聚类的含义是指，同一种相似类型的数据，相互之间存在的差异性，依照数据的不同特点，通常意义上，要将他们归纳为不同的数据种类。其目的是在距离上缩小，同一种类型的数据差异，同时在另一个角度，要拉大不同数据种类之间的距离。聚类与分类的区别主要体现在：分类需要提前给数据一个定义类别和模型样本；而聚类分析就只有一个方向，那就是数据根源，不需要提前预定数据类别，也不需要模型样本，所有的传输记录，都会根据事物的相似性，汇集成同类数据。

4）偏差分析

偏差分析又名为比较分析，是对差异性和特殊个体的描述，揭示了个体区别于其他事物的反常现象，其根本思想就是，寻找到观测结果与参照值之间的具体差别性。偏差包含了分类中的反常事物、不符合事实的特例以及观测结果，甚至于对模型预测的差异性、数量值随时间的变化等。

3 数据挖掘处理过程

数据挖掘的过程是多样化的，需要细心分析，它大致可以分为问题定义、数据收集和预处理、数据挖掘，以及结果表达和解释等。

1）问题定义

数据挖掘的主要任务，就是要从大量信息数据库中，寻找到可使用的信息资源。知识应是数据挖掘的一个重要步骤，在问题定义阶段中，数据挖掘人员一定要，与相关知识的专家联合，确定挖掘目标，以及对数据统计的具体要求，最后通过不同的计算法则，选出最适合的计算方式。

2）数据准备

数据准备可以简单地分为三个步骤，一是数据选取、二是数据预处理、三是数据变换。数据选取的含义是，根据已有信息数据，从最初的原始数据库中，查找出适合数据挖掘的信息资源。数据预处理是对，数据信息贮存的再分类，这其中包含了数据检查的整体性，数据信息的统一性，以及数据内部结构，消除杂音、弥补数据遗失、删除过期数据等程序。数据变换的主要用途是，在一定范围内，消除和减少数据维数，其方法就是，从数据的最初特点中，寻找到可以使用的数据特点，使数据在挖掘过程中，最大额度的减少特征的变化和变量个性，尽量减少特征的变化和变量个性。

3）挖掘的主要种类

决策树包含着不同的种类，它大致可以分为以下几种。

决策树中的每一个非终结点在不同阶段，都预示着不同字体测试和不同选择。任何一个确定的分支，最终都取决于测试结果。它可以使用信息论中的信息增益，以获得数据库中最多的信息字体，然后建立一个决策树的节点，再结合不同字体取得建立树分支中的一个值；于每一个分支集体中，陆续建设下层节点和分支，最后可实现一个决策树的建立。决策树在使用上的最大优势就是直观、快速，缺陷也是相对的，随着数据多样性的提高，每一个分支点都在增加，管理的难度也会越来越高。

4）神经网络

神经网络系统的创立，最初是来源于，对人脑神经网络的结构理解，以及对一些工作机制的模型仿照。这种类型的计算机模型有一个特殊之处，它可以同时集结大量的计算单元，也叫神经元，连成大片网络区域，进行大规模计算。神经网络的设计原理，就是利用、变革神经元之间的连接强度，能对复杂问题进行精确的预测，但也存在相对的缺陷，一是神经网络难以琢磨、二是神经网络受到负面训练的影响。

5）粗糙集方法

粗糙集方法是由波兰逻辑家，所构思的一种数据分析法，主要运用于机器制造和 KDD 等领域，粗糙集方法在信息领域的主要功能，就是解决，信息存储当中的不稳定性和不真实性等信息问题。它的工作原理就是等价类思想，等价类中的微元素在粗糙集里是密不可分的，基本操作方法就是，用粗糙集近似的方法，把信息数据中的属性值进行相互分离，然后将每一个系统属性，归纳为等价类，再使用集合的等价关系，把信息内容进行简约化处理，得到一个最小决策关系，从而便于获得规则。

4 数据挖掘技术在高校招生工作中的应用

1）定义挖掘问题

学校在高考统招期间，需要单独查询，考生的个人信息和成绩数据，选用不同的方法，对学生的入学信息、生源信息及个人素质等，进行汇总分析，进而得出数据背后隐藏的宝贵信息。

2）数据系统

数据系统的建立，首先需要用到，多个子集数据库和源数据库，进行整合编排；其次寻找相关的数据资料，并从中筛选出，适合用于数据挖掘的应用数据；最后，要把之前所收集的所有数据进行调换，调换之后的数据，一方面要契合原数据的信息内容，另一方面又要符合挖掘算法的需求。在整个数据预处理过程中，调换工作就成为了一个重点难题，需要使用者，在系统建设中，不断总结、不断寻找、反复修改，最终完成数据调换的工作，并同时解决数据质量问题。

3）学生入学信息的预处理

姓名、性别、民族…是新生入学的基本信息数据，为了便于日后的信息查询，需要对个人资料进行总结、转化等预处理操作。然而在所有字段中，最难以操作的信息内容，就是学生的总成绩和生源地等信息。因为不同地区的，不同成绩，以及不同地区的考试内容，学校在各省的录取分数线也有一定的差异，所以学生的素质也不尽相同，不能仅仅通过总分数去衡量一个学生，只能转化标准分数。比如可以对不同学生的生源地信息，进行整体归纳。例如：按省份划分将同一省份的学生归为同一类；或是按照，生源城市划分为市区、城镇等，其中还包含了，学生的成绩、获奖等内容信息。

4）关联规则挖掘

数据关联和差异性指的是，信息对象在不同阶段的发展现状和发展结果，例如同一系别、同一年级、不同成绩的学生现状，这就是数据信息的关联性，然而在经过，大学的培训教育之后，所得到的不同教育成果，就是信息的差异性。

然后，学校可以根据，信息的关联性和差异性，总结、分析出，学生的发展潜质和综合技能，从而得到新的教育理念，为学校的招生工作，提供参考依据。

5 结语

随着数据挖掘技术的不断完善、不断发展，数据挖掘已经在多个领域，被人们所使用，在教学领域中，数据挖掘的范围，已经逐渐延伸到，学校的信息招生中，它的独特功能以及，快速处理信息的手段，总能有效的解决各种信息困扰，以前人们总是盲目跟风，使用别人的信息资源和信息技术，最后导致了信息管理的混乱，然而数据挖掘工具能够，有效的、快速的查找出，招生工作中的规律，为招生决策者提供重要依据。

参考文献：

[1]刘同明.数据挖掘技术及其应用[M].北京：国防工业出版，2001.

[2]邵峰晶，于忠清.数据挖掘原理与算法[M].北京：中国水利水电出版社，2003.

[3]陈京民.数据仓库与数据挖掘技术[M].北京：电子工业出版社，2002.

[4] 王志浩，数据挖掘在招生管理系统中的应用研究[D].山东师范大学，2007，

[5] 李升林，乌兰木其. 基于数据挖掘的需求分析研究[J].中国机械工程，2003，14（5）.