当前位置:首页 期刊杂志

基于云件服务的新一代大数据工程实训平台

时间:2024-05-04

王 伟,刘 伟,崔海波,

( 1.同济大学 计算机科学与技术系,上海 200092;2.湖北大学 计算机与信息工程学院,湖北 武汉430062;3.武汉理工大学 计算机科学与技术学院,湖北 武汉 430070;4.湖北省教育信息化工程技术研究中心,湖北 武汉430062)

1 背 景

随着计算思维的推广、大数据时代的来临、工程认证的履行及新工科概念的提出,基于互联网与云计算的工程实践平台的势在必行,需要逐步重新构建教育信息化基础设施,以支持新一代工程实践平台的建设。

现有的传统教育的基础设施出现了诸如配置部署复杂、安全性难以满足、软件硬件升级成本高、机密数据分散等问题,不便于数据的集中管理和维护,需要逐步重新构建基于云计算的教育信息化基础设施,以支持下一代教育信息化公共服务平台的建设。另一方面,大数据领域持续发展,各行各业都在积极地应用大数据设施处理和分析数据,为了适应大数据时代的新状况,大数据相关的理念、处理方法、操作的教学与实践势在必行。

近年来,随着实时互联网、微服务、云端渲染、容器等技术和理念发展的不断深入,软件(software)形态将进一步朝着云件(cloudware)形态的方向发展[1-2]。构建基于云件服务的新一代大数据工程实训平台,简单来说,就是将所有实训软件全部迁移到云端,并通过浏览器为终端用户提供大数据实训服务。这为大规模重构教育信息化基础设施、为下一代教育信息化公共服务平台带来了新的方法和机遇[3]。

该实训平台针对高校工科类实训场景,通过将传统桌面软件和大数据软件云端化,使得用户通过浏览器就可以方便使用Matlab、Hadoop等大型软件环境,使得传统软件无需修改,即能做到为广大师生提供大规模SaaS化的实训服务。基于云件系统的大数据实践平台改变了传统试验方式,节约了机房场地及试验设备,丰富了教学形式,简化了教学过程,提供了便捷高效的工程实践环境。

2 相关工作

目前,有云计算驱动的教育信息化基础设施的改造主要体现在虚拟化桌面上面。虚拟化桌面,即虚拟桌面基础架构(virtual desktop infrastructure,VDI),是近年来虚拟化技术由服务器虚拟化向桌面虚拟化延伸的一种技术,是云计算的一种应用模式。然而,随着大规模教育信息化的推进,基于虚拟桌面的基础设施难以满足海量、轻量级、定价便宜甚至免费的教育场景。教育不同于商业场景,对基础设施的灵活性、即用即走、价格、海量部署、长尾效应等特性有着特殊的需求。因此,教育信息化的公共服务基础设施不能按照目前既有的云计算基础设施构建的思路,需要一个全新的思路。软件和应用的轻量级虚拟化技术将成为一个可行的解决方案,它将是未来云环境下软件的主要形态,使得在任何时间、任何地方通过浏览器使用任何软件成为可能。图1展示了从传统虚拟桌面到软件上云方式的变革。

图1 基于云件技术的软件上云的方式

有了软件上云,用户可以一键使用部署好的软件,以此提供大数据的基础设施和环境,平台采用微服务架构设计,具有较好的可扩展性、容灾和灵活配置等特性,易于规模化部署。同时,基于高校应用场景,搭建教师管理系统和学生作业系统,为课程学生提供工程软件的训练,为面向工程设计与计算创新设计的学生提供学习和实践,教师可以在平台上直接布置作业、检验作业。

该平台基于新一代微服务架构和自主研发的云件服务技术,在互联网、软件服务、教育3个交叉领域进行软件服务创新。将传统的PC桌面软件(如Matlab、SPSS等)和服务器端分布式软件(如Hadoop、Spark等)全部进行云端化,使得用户直接仅仅通过浏览器就可以访问这些软件服务或编程环境,将大数据实训的各个环节连接到一起,最终做到大数据工程实训服务的触手可及、 随时可用、 秒级启动、 用完即走。

3 构建基于云件系统的大数据工程实训平台

3.1 云件与云件服务平台

随着云计算和虚拟化技术的兴起,越来越多 的软件逐渐把软件主体放在云端,而客户端只需要通过互联网技术使用云端软件的服务即可,使得软件不再依赖于终端软硬件资源,这样的软件形态称为云件,更多地体现为一种服务[1-2]。

云件也是SaaS的一种服务方式,是通过互联网技术使用云端的服务,但是与传统的SaaS服务,例如网盘、邮箱和在线办公相比,其主要差别在于传统SaaS软件往往是将桌面软件进行大量的改造,大部分需要相应的客户端程序,大量的计算还需要本地软硬件的支持,比如某些在线制图的工具,将传统桌面制图软件用HTML 5和Flash等相关技术进行了Web重构,这是非常繁重的工作,且需要本地渲染的支持。而云件则是将终端的操作系统和运行环境迁移到了云端,传统桌面软件可以不做任何修改进行云化(cloudalization),客户端采用统一的交互平台(如浏览器)来实现交互功能,最终实现与本地同样用户体验但不依赖本地资源的软件模式。

首先构建一个面向云件服务的PaaS平台,它是云件开发、测试、部署和运维的集成操作平台,既面向开发者提供云件开发工具和云件运行环境,也面向用户提供云件服务;然后在上面构建大数据实训环境。图2展示了构建在云件平台上的大数据工程实训模块示例。

图2 构建在云件平台上的大数据工程实训模块

基于该云件服务平台支撑的相关核心技术包括:基于松耦合冯偌伊曼模型的计算分散化范式、面向云件的云端操作系统、实时交互式渲染技术以及云件系统性能检测与容器化调度技术,具体支撑技术的细节可以参见参考文献[1—2]。

3.2 大数据工程实训平台的设计

基于微服务架构和云件技术,针对高校需求,设计并实现了基于云件系统的大数据实践教学平台,该平台主要包括如下功能模块。

(1)教师端功能:定制课程实验内容、上传文件、实验管理、学生管理、查看学生算法、成绩管理、报告管理。

(2)学生端功能:查看实验内容、阅读实验指导书、算法演示、改进算法(例如R/Python)、算法对比分析、提交算法、提交报告、查看成绩、修改个人信息。

(3)平台管理功能:查看资源、查看计算作业、节点运算管理、创建容器环境、管理容器环境、恢复容器环境、查看进度、强制关闭。

(4)开发环境:提供相应的开发环境,如R、Python、Matlab、Hadoop、Spark 环境。

(5)算法库:提供数据分析和挖掘的常用经典算法,以及基于R/Python实现的源代码。

(6)综合实验项目案例库:提供不同行业的数据资源库,提供综合实验项目案例,供课程选用。

(7)数据资源库:提供多种数据资源库,包含真实数据和模拟产生数据,供算法及案例选用。

大数据工程实训平台的微服务总体架构如图3所示,大数据工程实训平台的部署方案如图4所示。

图4 大数据工程实训平台的部署方案

平台用户分为教师、学生和管理员3类。

(1)教师端。教师登录平台后,以菜单的方式可以看到课程、内容、环境。课程管理中包含系统提供的基础课程,教师可在此基础上,根据实际情况进行内容筛选和排课;教师通过内容管理模块可对知识点内容进行编辑管理,也可进行课程拓展;通过环境管理模块完成容器镜像维护。

(2)学生端。学生登录平台后,可以看到与他相关的课程列表,点击相应课程的学习,进入相应课程的学习;课程包含知识点分类列表,知识点实训的实验指导书、实验环境及实验成果的提交等菜单项;进入实验环境,也可以方便地查看实验文档,包括相关参考文献、实验笔记、实验视频;提交实验成果后,学生可查看老师的评分,并查看实验笔记。

(3)管理员。管理员进行平台后,可以看到环境、课程、内容、用户。环境管理模块主要完成对系统、设备、容器等的状态检测;课程管理模块主要对基础和拓展的课程进行管理和维护;内容管理模块对系统提供的和教师提供的内容进行维护;用户管理模块主要管理教师和学生账号。

新一代大数据工程实训平台的构建,有利于为学生和老师提供一个完整的实训平台,主要优点包括:

(1)独享。学生能够独享自己的实验环境,不用跟不同时间段上机的同学共享一台PC。可以在实验环境中下载自己的代码文件,对系统进行定制,实验环境更加安全可控。

(2)快速。学生只需打开浏览器,1秒钟内即可创建新的实验环境,省去本地搭建开发环境的麻烦,可以在线编写、提交实验报告。

(3)经济。无需采购大量硬件,同时也省去了对大量PC环境的运维工作,所有实验运维工作都在Web页面进行操作,老师及管理员可以为所有学生定制统一环境。

(4)高效。资源的利用率更高,一台服务器可以提供几百个甚至上千个容器环境,满足多名学生实训需要,全部实训在云端进行,不再受本地计算机配置限制,可以方便支持大数据这类需要分布式环境的实训类别,如图5所示。

(5)灵活。只要有互联网,学生可以随时随地访问自己的实训环境,在宿舍也能继续上机课的实训任务,做到全天候随时随地访问实训环境的效果。

图5 一键开启Hadoop实验环境

图6 大数据工程实训平台主页面示范

图7 平台整体服务网络架构

3.3 大数据工程实训平台的最终呈现形式

大数据工程实训平台以Web系统的方式最终呈现,通过互联网PC端和移动端均可以通过浏览器进行访问。通过在云端构建完整的微服务容器运行环境,实现规模化部署、容灾和灵活配置,系统的部署和运行也以微服务形式架设在IaaS云计算系统上。图6、图7展示了大数据工程实训平台主页面范例和平台整体服务网络架构。

4 大数据工程实训平台在实际课程教学中的使用

2015年国务院常务会议通过的《关于促进大数据发展的行动纲要》中强调开发应用好大数据这一基础性战略资源,教育部高等学校教学指导委员会也将“大数据”列为“十三五”期间高等学校的教学改革和教学建设的重点,同时教育部高等教育司也于2016年在普通高等学校本科专业设置中增加了“数据科学与大数据技术”专业(专业代码080910T),以及面向高职的“大数据技术与应用”专业(专业代码 610215)。

基于上述背景,本文所提出的大数据工程实训平台作为同济大学全校本科和研究生大数据类课程“大数据原理与实践”与“数据科学通识导论”的支撑建设平台。团队指导老师从2016年开始,面向全校本科生建设大数据类课程,同时课程建设团队开设了“嘉数汇”微信公众号,辅以互动交流、课件发布、材料补充等,取得了良好的效果。团队同时开通http://bigdata.tongji.edu.cn域名为课程的实训平台做好准备。其中“大数据原理与实践”也入选了2017年的Google支持教育部产学合作协同育人项目;而云件基础技术项目“未来互联网云件服务平台”也荣获了2016年第二届全国高校云计算应用创新大赛一等奖。

目前在该平台上陆续构建5类实训模块:①基础语言学习实验(4个子模块,42个实验);②数据分析与挖掘实验(4个子模块,28个实验);③大数据基础实验(4个子模块,13个实验);④大数据挖掘实验(2个子模块,12个实验);⑤案例分析实验(3个子模块,18)。

5 结论与展望

笔者结合实际的教学经验,将所有实训软件全部迁移到云端,并通过浏览器为终端用户提供大数据实训服务,具体包括学生端、教师端、平台管理、开发环境、算法库、综合实验项目案例库、数据资源库等功能,为高校大数据人才培养提供一个全方位的触手可及、 随时可用、 秒级启动、用完即走的大规模工程实训服务平台。未来的重点工作将基于高校应用场景,构建更大规模的实训平台,为大规模重构教育信息化基础设施、为下一代教育信息化公共服务平台提供核心技术支持。

参考文献:

[1]Guo D, Wang W. Cloudware: An emerging software paradigm for cloud computing[C]// In Proceedings of the Internetware 2016,Beijing, China, September 18, 2016: 1-10.

[2]Guo D, Wang W. Towards cloudware paradigm for cloud computing[C]// In Proceedings of The 9th IEEE International Conference on Cloud Computing, 2016, San Francisco, USA, June 27 - July 2, 2016: 164-171.

[3]钟登华. 新工科建设的内涵与行动[J]. 高等工程教育研究, 2017(3): 1-6.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!