基于大数据驱动的研究生培养过程质量监测预警研究

时间：2024-05-04

何晓聪

摘要：运用大数据思维和技术对研究生培养过程质量进行监测预警，是建设研究生质量内部保障体系的有效手段。本文通过关联规则挖掘，揭示了研究生入学成绩与课业表现、前置学历毕业院校、图书借阅情况与学位论文成绩之间的关系，证明了通过分析研究生培养过程中产生的各种数据，可以为我们勾勒出研究生个体在学期间已有的学习轨迹，并预测其接下来的学业表现。

关键词：大数据；研究生培养；质量监测；质量预警

中图分类号：G643 文献标志码：A 文章编号：1674-9324（2018）37-0064-02

一、大数据及其相关技术

（一）大数据的内涵

Viktor Mayer-Schoenberge在《大数据时代》一书中指出：大数据不是随机样本，而是全体数据，即样本等于总体。但是，如果简单地把大数据理解为数量巨大，就容易陷入“只见树木，不见森林”的肤浅中去。因为大数据既包括了结构化的、可以存储在关系型数据库中的数据，更包括了半结构化甚至非结构化的数据。更主要的是，大数据给我们带来的是思维方式的革命，也就是在模糊、不确定性中聚焦数据之间的关联，通过数据揭示原先可能并没有被认识的关系，而非验证假设。“数据驱动”在这一分析过程中，大数据的价值被充分地发掘，从而引导决策行为从传统的“业务驱动”向“数据驱动”转变。因此，可以毫不夸张地说，大数据引发了核心竞争力关键因素的变革。

（二）大数据的技术

1.数据采集与预处理。数据采集是开展大数据应用的第一步。大数据的“大”，往往意味着全面、整体，也代表着数据来源结构和模式的多样性。文本、音频、图片、超链接等，都可以成为数据源。对于如此大量的异构数据，必须通过一定的方式进行集成处理或整合处理，通过整理、清洗、转换后，映射到一个新的数据集中去，为后续存储和分析处理提供统一的数据视图。

2.数据存储与管理。传统的管理信息系统产生的是结构化的数据，关系型数据库通过行列二维的表格可以存储结构化数据。但是对于大数据而言，半结构化数据甚至非结构化数据占比大幅度上升，要对这些数据进行内容检索、对比、挖掘，是关系型数据库无法实现的。目前采用的是MPP并行数据库集群与Hadoop集群混合的方式来实现巨量数据的存储和管理，这些数据往往达到PB、EB量级。其中，MPP提供强大的SQL和OLTP服务，Hadoop则支持对半结构化或非结构数据进行内容检索和深度挖掘。

3.数据挖掘与可视化。根据数据仓库中的数据信息，选择合适的分析工具，应用统计方法、事例推理、决策树、规则推理、模糊集，甚至神经网络、遗传算法的方法处理信息，得出有用的分析信息。这也就意味着，在数据挖掘的初始阶段，目标并不需要非常清晰，而是要依靠挖掘算法来找出隐藏在大量数据中的规则、模式、规律等。可视化就是把信息映射为可见图形的过程，它为人类与计算机这两个信息处理系统之间提供了一个接口。可视化对数据分析至关重要，它可以揭示出数据内在错综复杂的关系，在这一点上可视化的优势是其他方法无可比拟。现在的数据可视化技術的主要攻坚对象是如何在不贬抑数据价值的同时将数据从“数字、文字”转换为简洁的图表，进而方便数据挖掘和数据展示。未来的可视化效果，将继续在可视化效果上进行深度发展，大数据分析工具也将在数据可视化技术的推动下攀升到一个新的高度

二、基于数据挖掘的研究生培养过程质量监测预警

1.关联规则挖掘与算法。关联规则挖掘是从事务集合中挖掘出这样的关联规则，它的支持度和置信度大于最低阈值，这个阈值是由用户指定的。关联规则挖掘可以大致分为两步：（1）从事务集合中找出频繁项目集；（2）从频繁项目集合中生成满足最低置信度的关联规则。最出名的关联规则挖掘算法是Apriori算法，它主要利用了向下封闭属性，如果一个项集是频繁项目集，那么它的非空子集必定是频繁项目集。它先生成1-频繁项目集，再利用1-频繁项目集生成2-频繁项目集……然后根据2-频繁项目集生成3-频繁项目集……依次类推，直至生成所有的频繁项目集，然后从频繁项目集中找出符合条件的关联规则。

2.数据挖掘软件。WEKA的全名是Waikato Environment for Knowledge Analysis，同时WEKA也是新西兰的一种鸟名，其主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话，可以参考WEKA的接口文档，在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

3.实证分析。（1）数据采集。本文以某财经类高校的经济类专业研究生为研究对象，采集了2013—2015级研究生的入学信息、必修课期末考试成绩、图书借阅记录、学位论文盲审成绩等数据。其中，入学信息包括学生的前置学历毕业院校、本科所学专业、专业课初试成绩，图书借阅记录根据中图分类号分别统计学生借阅的各学科图书数量，必修课包括中级宏微观经济学、计量经济学等学位课程。（2）数据预处理。由于基于Apriori算法的关联规则挖掘以识别离散数据为主，因此要在进行挖掘之前先对原始数据进行离散化处理。考虑到在教务管理中通常将成绩分为优、良、中、差四个等级，因此，我们先对成绩进行排序，然后将分数排名在前25%的定义为“优”、排名在25%—50%的定义为“良”、排名在50%—75%的定义为“中”、排名在后25%的定义为“差”。对于学生的前置学历毕业院校也需要进行离散化处理，我们将“985”、“211”院校统称为“重点院校”，将独立学院或专科院校统称为“一般院校”，将其余的公办本科院校统称为“省市属院校”。将图书借阅记录的数据根据借阅图书所属学科数量多寡分为“以本学科为主”或“以跨学科为主”，从未借阅过图书的标记为“零”。（3）数据挖掘结果分析。数据挖掘是依据算法计算得出的，必须结合实际通过人工分析才能得到真正有意义的关联规则，并用于指导我们的实际工作。经过将离散化的数据输入WEKA分析软件，设置好相应的支持度和置信度，得出以下关联规则。规则1：专业课1初试成绩=差→计量经济学=差。专业课1根据研究生报考专业不同有所区别，经济管理类的考生专业课1均为数学。由此可见，没有良好的数学基础，学习计量经济学这门经济学的学位课程还是比较吃力的。因此，对于初试数学成绩不理想的学生，我们要在计量经济学的教学过程中给予重点关注；规则2：前置学历毕业院校=重点院校→学位论文成绩=良。这一规则体现了生源质量的重要性。来自“985”、“211”院校的学生，相对来说在学习习惯、知识掌握、文字表达等方面具有一定的优势，因而所撰写的学位论文质量能够有所保证；规则3：借阅图书=以跨学科为主→学位论文成绩=良。研究发现，广泛涉猎不同学科的书籍有助于研究生的论文撰写，这也解释了跨学科、多学科共同培养的必要性。通过不同学科知识间的融会贯通，有利于激发学生的创新思维。

三、下一步研究展望

从现有的实践看，异构数据源的采集和存储将是下一步的研究重点和难点。上面提到的成绩、借阅记录等信息，只是研究生培养过程所产生的数据集合的一小部分，只是露出水面的冰山一角。对于研究生管理部门来说，还有大量异构数据面临采集难、存储难的问题。例如，研究生的社交网络数据，如微信好友、QQ好友，由于涉及个人隐私，难以被管理部门收集利用分析。实际上，社交网络数据对于分析掌握研究生的思想动态是十分宝贵的第一手资料，例如同一宿舍的研究生之间将对方从好友名单中删除，这说明两人的关系趋于紧张，研究生辅导员如果第一时间掌握了这个情况，就可以及时介入进行调解，避免矛盾升级造成更严重的问题。在大数据技术日新月异的今天，利用大数据思维和相关技术，整合研究生培养过程中产生的各种数据，可以在个体层面为我们勾勒出研究生在学期间已有的学习轨迹，并预测其接下来的学业表现。这就可以为精准制定符合研究生个人特点的培养方案，实现教学资源的有效推送奠定基础。

参考文献：

[1]简析大数据及其在教育领域的应用.http：//fanwen.chazid 2016/10/30.

[2]耿学华，傅德胜.可视化数据挖掘技术研究.计算机应用与软件，2006，（2）.

[3]WEKA操作入门.http：//wenku.baidu.c，2017/01/04.

[4]李红林.基于Apriori算法的高校教学评价数据挖掘.中国科技信息，2010，11（21）.