时间:2024-09-03
肖卓宇 宋 艺
(1.中南林业科技大学涉外学院,湖南长沙410200;2.长沙民政职业技术学院,湖南长沙410004)
随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网、雾计算、边缘计算、区块链等的应用更加丰富。更多的传感设备、移动终端接入到Internet,由此产生的数据及增长将比历史上的任何时期都要多、都要快。IDC预测到2020年,全球数据量将会达到44ZB,而中国产生的数据量将会达到8ZB,也就是说2年之后中国产生的数据量将会占到全球的五分之一[1]。大数据时代的脚步悄然而至,清华大学计算机系教授武永卫去年透露了一组数据:未来几年,中国需要180万大数据技术相关人才,但目前只有约30万人,仅数据分析专业人才需求就达到几十万人以上[2]。MIT等四所著名高校于2000年提出了CDIO(Conceive Design Implement Operate,CDIO)工程教育模式[3-4]。CDIO侧重项目实践,并在我国众多高校取得了较好的教学效果。
从中南林业科技大学涉外学院本科专业布局和科学定位角度看,大数据技术基础课程将丰富我院IT类相关专业学生的知识体系,有助于人才培养模式的优化,更便于我院教学体系与市场需求的无缝对接。我院属于中南林业科技大学的独立学院,学生理论基础普遍较弱,故基于CDIO的大数据技术课程项目实践将有助于我院学生更好地掌握大数据相关知识,也为后续数据科学与大数据技术专业的申报奠定基础,具有积极的意义。
目前我院开设了软件工程、计算机科学与技术等IT类相关专业,但目前的教学大纲为6年前制订的版本。中央电视台于2014年首次播报了两会大数据与春运大数据的相关新闻,此后,大数据越来越多地出现在公众的视野,并被国家放到一个战略的层面进行大力扶持。由于大数据人才极度匮乏,众多国内外著名高校依托行业背景进行了数据科学与大数据技术专业的申报工作。2016年,北京大学、对外经济贸易大学、中南大学三所高校成为首批申报成功的高校;之后,2017年,中国人民大学、电子科技大学等32所大学成为第二批申报成功的高校;2018年又有包括独立学院、高职在内的近250所高校申报成功[5]。
本文前期教学改革以计算思维为导向对学院大学生程序设计能力培养进行了研究,学院学生多批次获得国家二等奖、三等奖及湖南省程序设计大赛一、二等奖,教学改革取得了较好的效果[6]。但是,目前由于科学数据与大数据技术课程师资缺乏,我院目前仅在软件工程专业进行基于CDIO的大数据技术课程试点。
基于CDIO的工程实践教学思想,以软件工程专业为试点,从教学方法与课程体系等方面全方位进行教学改革。
由于学院在大数据方向的师资比较缺乏,目前并无直接对口的数据科学与大数据技术专业教师,故前期学院选拔了中青年优秀教师多批次参与了国家教育行政部门、教指委、国家行业协会的大数据相关课程的学习培训工作。此外,由于软件工程专业的培养目标、课时等诸多条件的限制,并考虑到独立学院学生相对较弱的理论基础,故教学改革不应直接照搬重点高校系统化、专业化的数据科学与大数据专业课程体系,而更应立足于实践,探索符合我院特色的大数据技术课程体系。
图1 大数据技术课程知识体系
由于目前我院并未开设数据科学与大数据技术专业,考虑到大数据专业从业人员的巨大缺口,故当前的教学改革首要目标是在软件工程专业培养方案中融入大数据技术相关课程,并以此为契机,为数据科学与大数据技术专业奠定基础。
大数据技术课程体系设置方面将部分相对重要及工程实践性较强的课程进行了精简。图1将大数据技术课程知识体系分为大数据基础、大数据存储、大数据处理3个部分。大数据基础部分主要简介了大数据Volume(大量)?、Variety(多样)?、Velocity(高速)?、Value(价值)?的 4V特征。此外,还包括大数据在金融、物流、生物医学、餐饮等行业典型应用,以及大数据技术要使用到的主流工具,如 :Hadoop、Spark、HDFS、HIVE、PIG、Mathout、Zookeeper、Flume、Sqoop、Hbase、Kafka等。大数据存储部分侧重介绍HDFS运行机制、Hbase数据模型、原理、运行机制;NoSQL介绍CAP三大基石与键值、列族、图和文档数据库的特征与区别;云数据库主要介绍云数据库的优缺点及特性。大数据处理部分以Wordcut为例,以案例式教学对Hadoop的MapReduce与HDFS执行原理与过程进行介绍,此外,也进一步介绍Spark与Storm的特征。
依据教学改革体系与人才培养方案,大数据相关课程理论与实践的比率为1:1。教学改革分为3个步骤实施,详见表1。
表1:基于CDIO的大数据技术实训任务
大数据基础阶段主要对前置课程Ubuntu Linux中涵盖的重要命令进行梳理与实训,此外,还侧重关注学生对Hadoop平台配置流程的掌握情况,涵盖APT、SSH、java环境JDK、伪分布式Hadoop模式与基于Dock容器的Hadoop模式等。
大数据存储阶段首先需要了解HDFS操作常用的Shell命令,如:Hadoop fs、Hadoop dfs、HDFS dfs等,之后,通过相关Shell命令实现本地环境与HDFS之间的上传、下载、授权、复制、移动等的综合实例。此外,存储阶段将仔细分析SQL、NOSQL、NEWSQL之前的区别,并对列族数据库Hbase、键值数据库Redis、文档数据库Mangodb、图形数据库Neo4j进行项目实践;最后,通过基于MaperReduce、HIVE、MYSQL、Sqoop 等工具的综合实训实现对数据的分析与传输,从而进一步加深学生对大数据存储过程的理解。
大数据处理阶段将在学生熟悉MaperReduce与HDFS原理的基础上,通过Hadoop处理平台统计全球温度项目,该项目属于Wordcut项目的进阶项目,有助于帮助学生从数据采集、数据预处理、分布式计算、数据分析、大数据可视化5个阶段全方位参与到基于CDIO的工程项目实践。此外,该阶段也将对Spark处理平台进行介绍,让学生掌握 Spark RDD、Spark SQL、Spark Streaming、Spark MLlib库,并进一步以KNN等数据挖掘技术对某电影网站用户性别进行预测;最后,基于流计算对淘宝网双12数据分析与预测,从而让学生全过程参与和理解批处理计算、实时批处理,交互式处理、流处理的优缺点与适合场景,从而让学生对大数据的认知上升到一个新的高度。
基于CDIO的IT类大数据相关课程体系的教学改革已应用于学院软件工程专业,从整体反馈情况来看,学生普遍对大数据技术相关课程具有认同感,项目实训取得了较好的效果,递进式的工程项目大大激发了学生团队的创新实践能力,部分学生得以进入知名IT企业实习与工作,后期工作将进一步对课程体系进行改革,并将Storm、Flink计算平台、以及基于TensorFlow的深度学习引入到工程项目中来。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!