当前位置:首页 期刊杂志

面向《多媒体技术》课程个性化教学的数据挖掘与分析

时间:2024-05-04

杨南粤

摘要:对多媒体技术在线学习平台中积累的大量教学基础数据进行挖掘与分析研究,建立了选课数据仓库雪花模型,通过Apriori算法挖掘出学生所选的各门媒体技术成绩与期末成绩之间的内在联系,利用k-means算法对实施个性化教学以来的所有学生成绩进行聚类分析,并对结果可视化处理,分析各类学生的特点,为改善个性化教学质量提供数据支持和决策参考。

关键词:数据挖掘,雪花模型,关联规则,聚类分析,个性化教学

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)08-0190-04

Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course

YANG Nan-yue

(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)

Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.

Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching

我校的多媒体技术公选课面向全校各年级各专业本科生开课,因此选修本课程的学生来源较复杂,其计算机基础参差不齐。过往统一步调的授课模式满足不了不同层次学生的需求,所以从2011年开始,本门课程实施教学改革,以多媒体技术在线学习平台为基础,结合课堂授课开展个性化教学,把多媒体技术包含的四大媒体技术课程:图像处理、音频处理、视频处理和动画制作做成讲座的形式,每一门课程分别包含两到三次的讲座,学生根据自己的情况选听选学。每门媒体技术不同难易度的学习资料都放在学习平台里,学生可以自由选择学习资源,并通过网络或课堂与同学和老师进行学习交流。考核方式为每一门课程最后一次讲座讲完后在学习平台上进行随堂考试,要求每位学生至少选考其中三门。本门课程期末考试也在学习平台上进行,要求全体学生都必须参加。本教改实施五年来,学生反应良好,同时多媒体技术学习平台网站上存在着大量学生成绩和教师教学及管理过程中的相关数据,那么这些数据之间存在着怎样的联系,是否蕴藏着教与学之间的知识和规律?由于数据挖掘技术能够发现隐藏在海量数据中的潜在联系和规则,从而预测未来的发展趋势[1],因此我们把该技术引入学习平台中的信息资源管理系统,把大量积累的教学基础数据建立数据仓库[2],在这基础上运用数据挖掘手段从中快速准确地提取出重要的信息和有价值的知识,找出影响学习成绩的因素,为进一步改善个性化教学的教学质量提供数据支持和决策参考。

1 数据仓库多维数据模型的建立

数据仓库的逻辑数据模型是多维数据模型。目前使用的多维数据模型主要有星型模型和雪花模型。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表[3]。雪花模型是对星型模型的扩展,将星型模型的维度表进一步层次化,原来的各维度表被扩展为小的事实表,形成一些局部的层次区域[3-4]。建立本课程数据仓库时,为了减少数据冗余,改善查询性能我们采用雪花模型结构,如图1所示。建立以学生选课为中心的选课事实表,三个主维度表“学生表”、“成绩表”和“时间表”分别通过“学生键”、“成绩键”和“时间键”与事实表直接关联。其中,主维度表中的“学生表”和“成绩表”都有各自的二级维度表,与事实表间接关联[5]。

2 采用Apriori算法的关联规则挖掘

关联规则用于揭示数据与数据之间未知的相互依赖关系,即在给定的一个事物数据库D,在基于支持度-置信度框架中,发现数据与项目之间大量有趣的相关联系,生成所有的支持度和可信度分别高于用户给定的最小支持度(min_sup)和最小可信度(min_conf)的关联规则。关联规则挖掘算法归结为下面两个问题:(1)找到所有支持度大于等于最小支持度(min_sup)的项目集(Item Sets),即频繁项目集(Frequent Item Sets)。(2)使用步骤(1)找到的频繁项目集,产生期望的规则。两步中,第(2)步是在第(1)步的基础上进行的,工作量非常小,因此挖掘的重点在步骤(1)上,即查找数据库中的所有频繁项目集和它的支持度[4]。本课题对多媒体技术课程学习平台中所有考试成绩进行关联规则挖掘,采用Apriori算法查找频繁项目集。

Apriori算法通过逐层迭代来找出所有的频繁项目集L。用户需要输入事物数据库D和最小支持度阀值min_sup。实现过程为:

1)单次扫描数据库D计算出各个1项集的支持度,得到频繁1项集构成的集合L1。

2)连接:为了产生频繁K项集构成的集合,通过连接运算预先生成一个潜在频繁k项集的集合Ck。

3)剪枝:利用Apriori算法“任何非频繁的(k-1)项集必定不是频繁k项集的子集”的性质,从Ck中删除掉含有非频繁子集的那些潜在k项集。

4)再次扫描数据库D,计算Ck中各个项集的支持度。

5)剔除Ck中不满足最小支持度的项集,得到由频繁k项集构成的集合Lk。

Apriori算法如下:

[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潜在频繁项集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潜在频繁项集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]

求出频繁项集L后,1)对于L中的每一个频繁项目集l,产生l的所有非空子集。2)对于l的每一个非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],则输出规则:S→L-S[4]。

本课题对近五年选修多媒体技术的学生所有成绩数据进行清洗,填补空缺值,去噪,类型转换,集成等处理后放入数据仓库中,系统采用Apriori算法找出所有的频繁项集。为了便于进行关联规则的挖掘,对成绩数据进行离散化处理,转变成标称型变量[5]。成绩score(简化为“s”)在85-100区间的表示“优秀”,标记为“1”,在70-84区间的表示“中等”,标记为“2”,在60-70区间的表示“合格”,标记为“3”。多媒体技术每门媒体技术课程:图像处理、音频处理、视频处理、动画制作和最后的期末考试分别用A、B、C、D、E表示。学生的学号用StudentID表示,那么每个学生选修的N门课和最后期末考试的成绩可以表示为{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范围是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示学号为2011204543021的学生,选修了图像处理,音频处理和动画制作这三门媒体技术,其中图像处理成绩为合格,音频处理成绩为优秀,动画制作成绩为合格,期末考试成绩为合格,该名学生没有选修视频处理,故没有这门科目的成绩。

设定最小支持度阀值min_sup为3%,最小置信度阀值min_conf为70%,系统采用Apriori算法进行数据挖掘,得到满足最小置信度阀值的规则和相应的置信度如表1。

挖掘结果分析:表1的关联规则体现学生选修的媒体技术课程种类、科目数量与期末考试成绩之间的相互关系。可以看到期末考试成绩属于中等(E2)或合格(E3)级别的,学生全选四门媒体技术比只选学三门的置信度高,即选课数量多的较容易及格或获得中等的期末成绩。另外,在选课种类方面,选B这门课,即选音频处理的学生比较多,是一个概率比较高的事件,可能这门课内容比较少和易掌握,因此选学选考的学生就多。但这门课的成绩对期末考试成绩影响不明显,说明教师这门课出的考题区分度低,没能反映出学生的水平层次。在最小支持度阀值min_sup为3%的情况下,选A(图像处理),C(视频处理)和D(动画制作)这几门课并获得优秀成绩(A1,C1,D1)的很少,即小概率事件被过滤掉了,没能挖掘出它们与期末成绩之间的关联性。但这几门课程成绩中等或合格与期末成绩存在内在关系,也就是说如果这几门课成绩都是中等的,期末考试成绩大部分都为中等,一小部分可以达到优秀。如果这几门课成绩都是合格,期末考试成绩就是合格。说明这几门课程的考题比较真实反映出学生掌握技能的实际水平,致使期末综合性的考试成绩与学生平时掌握程度相符合。这也意味着个性化教学具有一定的成效。

本课题对近五年的学生多媒体技术每科成绩与期末成绩进行聚类分析,把学生划分到若干不同的类中,分析各个类的特征,从而考察实施个性化教学后的效果。设定85分,75分和65分为三个初始的聚类中心,对学生的所有成绩进行聚类分析,找出同一类别学生的学号,以此为索引,查找到该类中各个学生的专业与年级,绘制出饼状图,再绘制出该类学生所选各门媒体技术的平均分柱状图,通过这几个图表考察不同专业不同年级学生在本门课程优秀中等合格若干成绩区间的分布情况,从而检查实施个性化教学的效果,为今后的改进方案提供参考。例如调整后得到的最终聚类中心为82分的学生,各门媒体技术的平均分和专业、年级分布如图3~图5所示。

从上面几个图可以看出,成绩为优秀的学生主要来自美术、计算机和电信这几个专业,大三、大四的学生比较多。分析其中的原因,主要是美术学院很多专业课需要用二维、三维图像软件或视频软件进行制作和处理,他们对这门课程已经有一定的基础,所以学起来比较轻松,也容易取得高分。而计算机和电信专业中高年级的学生学习和使用软件的能力比较强,因此掌握多媒体技术各个媒体软件较其他专业学生快,并且能够灵活运用,因而较易取得比较优异的成绩。

最终聚类中心为64分的学生,各门媒体技术的平均分和专业、年级分布如图6~图8所示。

从图中可以看出,这个类别的学生主要来自文科方向的专业,年级分布差异不大,大四所占百分比稍微比其他三个年级略高,有可能是学生们最后一年为了修满选修课学分而选了这门课,目的是混个及格拿到学分,因此学习积极性和学习态度不佳,导致大部分成绩徘徊在60来分。还有一种可能性是大四学生毕业在即,需要写简历找工作,做自我介绍作品等,觉得掌握一些多媒体技术可以作为辅助工具因此选了本门课程。可惜有效学习时间明显不如前三年充足,加上文科方向的同学计算机基础和软件学习能力较理工类学生薄弱,因此成绩不太理想。

4 总结

本文以多媒体技术在线学习平台为基础,对该门课程近几年积累的大量教学基础数据进行整理并建立数据仓库,将数据挖掘技术应用到此数据仓库,为评估该课程实施个性化教学的效果提供定量分析的依据[7],也为今后进一步提高个性化教学质量提供数据支持和决策参考。

参考文献:

[1] 孟卫平,张丽萍. 民办高校选课决策支持系统的研究[J]. 电子测试, 2014(S2):241-245.

[2] 侯毅. 基于数据挖掘的开放教育个性化教学系统的构建[J]. 福建电脑, 2011(5):128-129.

[3] 雷启明. 超市数据仓库雪花模型的设计与应用[J]. 商业现代化, 2008(9):40-41.

[4] 李於洪. 数据仓库与数据挖掘导论[M]. 北京: 经济科学出版社, 2012.

[5] 侯亚荣,万雅奇,张书杰,等. 教育考试数据挖掘的研究与实现[J]. 计算机工程与应用, 2008,44(16):132-134.

[6] 黄佳彬. 数据挖掘在实践教学信息网中的研究与应用[D]. 北京:北方工业大学,2014.

[7] 张美华,欧云. 关联规则在高校评教系统中的应用[J]. 电脑知识与技术, 2016,1(12):31-34.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!