时间:2024-05-04
王庆福
摘要:云计算的系统架构能够适应大数据量的快速处理和数据分析,分布式的系统架构特别适用于大型复杂的智能化校园系统组成结构。本章从云计算的架构研究出发,分析了当前云计算技术进行数据分析的常用技术工具。
关键词:云计算;智能化校园;数据处理
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2019)06-0216-03
传统的智能化校园系统因系统中各个部分缺乏数据交互导致数据孤岛问题的产生,数据孤岛问题产生的原因一方面是欠缺统一的账号体系,另一方面是数据处理方面存在一定的难度,数据的来源方可能是系统中任何一个系统部分,数据的格式也千差万别,这给数据规则化和数据收集都带来了很大不易。
云计算技术主要用于应对大批量的数据处理,云计算能够将多个独立环境下的数据进行收集和汇总,快速的数据交换和数据处理方式非常适用于当前的系统架构,智能化校园系统的系统环境逻辑上分成多个部分,每个部分都可能定义自己独特的数据格式,利用云计算的分布式架构多端采集数据并进行格式化处理能够很好地解决校园系统的数据孤岛问题。
1 云计算技术简介
云计算是相对于传统的服务体系结构而言,互联网的不断发展催生出大量的数据聚集在网络平台上,传统的服务方式已经无法对数据进行完整的存储和使用,随之而诞生的分布式系统曾经一度在一定程度上缓解了这种情况,然而现代计算机网络每天的数据都呈现TB级增长,分布式系统对于如此快速的数据增長规模已经无法胜任,云计算正是在这样的环境下应运而生。云计算服务通过虚拟大量的机器资源进行数据存储和计算,数据使用方不用关注数据的具体存储位置,云服务只需要保证数据在用户需要访问时能够快速获取和访问即可。云服务的存储能力和计算能力非常惊人,云计算可以让用户体验每秒10万亿次的运算能力,用户可以通过移动终端,笔记本,手机等多种方式进行无转换快速接入数据中心,用户可以根据自己的需要定制需要的计算模式。根据美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式[1-3],这种服务方式以用户和用户定制的资源池为单位,用户的资源池耗费的资源越密集则需要更多的费用支出,同时云服务本身的资源池可以根据用户进行动态调配,动态调配的资源包括网络、带宽、服务器、软件、应用服务,这些资源能够快速被系统感知被适度分配给用户,系统管理员本身只需要付出极少的精力进行管理工作。
云计算作为一个技术概念,在它之中包含了多种技术,云计算是大数据时代下的产物,根据传统的数据处理和分析方式,单机已经难以适应如此庞大的数据量,因此在数据处理时需要将任务根据一定的规则进行分发,分发到不同机器上的数据进行并行处理和分析。因此云计算是分布式计算的前身,只是云计算在分布式计算上有了许多新的技术更新。总体来说,云计算(Cloud Computing)是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、 网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、热备冗余(High Available)等传统计算机和网络技术发展融合的产物[4]。
2云计算技术架构研究
云计算架构的设计原则应当是服务于复杂的网络体系,云计算服务面向大流量的数据资源和用户计算要求,因此在提升云计算系统能力时也主要着力于提升整个系统的存储能力和运算能力,致力于提升整个系统的利用率。具体而言,应当着眼于服务器利用率、服务器的部署密度、数据存储成本和基础设施建设等方面提高云计算系统中心的存储和运算能力。云计算系统要求整个系统具备良好的扩展性、伸缩性、自动化、多租户、资源的利用率和对虚拟化的支持。
云计算的架构大体可以分为服务和管理两部分,管理方面主要包括机器的动态上线和下线,机器资源的动态调整,整个系统的服务监控,管理服务的功能是为了保证整个系统能够稳定、正常的运转,并且能够有效被管理;服务方面主要是基于本身系统资源对外提供服务,提供服务包括数据存储资源、数据计算资源、应用软件服务等。
云计算的数据存储是一个非常重要的研究点,在云服务中,如何实现数据存储的快速访问和快速应答是一个非常实际的问题,在实际环境中,云服务在数据存储时需要将数据离散的存储在多个磁盘甚至是多个物理机上,为了达到分布式存储的目的,目前主要采用两种方式实现,其一是采用Google公司提供分布式文件系统(GFS),另一种是基于块设备存储区域网络SAN系统。GFS系统是Google公司设计主要应用于分布式环境下的数据存储系统,整个的GFS存储系统采用Master/Slave模式进行,Master/Slave模式是分布式环境和云环境下的常用设计,整个系统包括一个或者Master节点,多个Slave节点,Master节点只负责整个存储系统的调度任务,即分配数据分发到具体的磁盘或者物理机,Master节点本身不进行数据存储,因此在Master节点中通常存储控制文件,控制文件中存储每个文件的数据存储大小,数据存储的偏移量等,同时为了保证数据的高可用性,当某个Master节点出现宕机时,其他Master节点拷贝宕机Master节点的控制文件从而整个存储系统的正常运转。云计算的架构图如图1所示。
在图1中可以看出,整个的云计算架构可以分为计算资源、存储资源和网络资源,每个资源都独立负责云计算中独立的功能并通过协议进行数据和消息交换,计算节点负责数据的逻辑处理和物理计算,网络资源负责数据的动态调度,存储资源则负责具体的底层数据存储。
3云计算数据分析工具研究
云计算目前已经是相对成熟的技术,针对云计算各个部分都诞生了非常多成熟的技术框架和技术工具,利用这些工具能够快速高效地进行数据分析和数据处理,具有极大的便利。
(1)Hadoop
Hadoop是开源的云计算框架,主要为了大型的数据分析和数据计算任务而编写设计,它并不适用于小数据量的在线数据处理任务。Hadoop框架是HDFS和MapReduce的结合,所谓Hadoop是集成了云计算存储框架和云计算计算框架的一套综合服务框架,理论而言,Hadoop处理的数据能够胜任任何形式的数据,相对而言,对于结构化和半结构化数据Hadoop能够具备更好的处理性能,其处理的数据单元为KEY/VALUE数据对,相对于传统的关系型数据库,Hadoop更加具备数据转换和数据计算能力,若需要适配关联型数据库,则可以采用HIVE进行同步代替。
·HDFS
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是在Google提出的GFS文件系统的基础上进一步发展而来,在吸收了GFS许多优良的特性并结合云计算自身的一些特点之后,Apache推出了自己的云计算文件存储系统,它是一个高度容错的文件存储系统,部署在廉价的机器上同样可以稳定运行并且效率良好。HDFS能够提供非常高的系统吞吐率。其在设计时保留了许多非常优良的特性:适用于大容量的数据存储,理论而言,数据量越大越适用;文件的多磁盘多机器存储,HDFS能够将文件均匀地打散之后分布到多台机器上,当发生数据读取任务时,又同时可以从多台机器上快速的读取,而且它还保持了多机读取的速度;云计算文件系统的特点时数据一次写入之后,多个任务都可以同时读取这部分数据,然而仅仅限于读取数据,HDFS并不支持数据的重复修改,它只保证数据的末尾追加;HDFS对存储服务器的要求很低,通常很廉价的机器即可以搭建一套简易的HDFS系统,并且能够稳定地提供服务;作为支撑云计算服务的底层数据存储系统,HDFS能够实现非常好的数据容错性,当某台机器硬盘发生故障时,其他机器能够很容易的形成数据备份。
· MapReduce
Google作为分布式系统的先驱,它提出了许多非常优良的分布式设计理念,其中MapReduce即是他在分布式计算时提出了一个非常重要的概念,整个的数据计算过程可以概括为:数据分发、并行计算、数据合并、分布式存储。MapReduce即是很好地遵循了这个框架,它从海量地数据中按照此类规则提取数据进行运算。
MapReduce并行的读取分布在多个磁盘多台机器上的文件,所有文件并行的在各自的机器上完全计算,本地计算完成之后再按照KEY/VALUE格式进行归并,归并来自多台机器上的数据分片,归并之后的数据即是最终需要的数据资源。
(2)Spark
Apache Spark是加州大学伯克利分校自行研发的云计算处理框架,其主要区别于Hadoop格式的数据处理模式,Hadoop处理的数据必须是严格的KEY/VALUE结构,一次Hadoop任务的周期即是一次KEY/VALUE结构的合并,Spark突破了这一限制。
Spark相对于Hadoop的处理方式,Spark拥有更加快速的数据处理效率,经过实际数据检验,Spark比Hadoop的处理效率甚至高出百倍。Hadoop主要基于磁盘的数据操作,一次的Hadoop任务即需要完成磁盘读取数据,数据回写磁盘,磁盘再次读取数据,数据再次回写磁盘至少四个步骤,当一个任务无法用一个Hadoop周期完成时,则数据读写磁盘的时间会成倍增加,这无疑为数据处理效率打了很大折扣。Spark主要为了解决Hadoop在处理数据严格的KEY/VALUE限制并且多次回写磁盘,Spark将任务定义为数据的循环利用机制,理论上只需要在任务启动时一次性读取需要的数据即可,Spark将数据存储在机器内存中,因此极大地提高了数据处理的效率。另外一方面,由于Spark将数据存储在内存中,因此一次任务可以多次利用数据,而不需要如Hadoop一般一次任务处理完成之后回写磁盘操作。
Spark本身提供了多种的类型的数据接口,由于将数据存储在内存中,因此Spark能够实现快速的数据响应,Hadoop主要用于处理大数据量规模的离线任务,Spark则除了处理离线任务以外,还可以处理在线数据处理任务,Spark-streaming能够支持多种消息队列的接入,非常适用于线上的在线任务处理。其支持多种语言接口,java,scala,python都是非常主流的编程语言,Spark提供多他们的支持无疑是正确的。
(3)Storm
相对于Hadoop和Spark而言,Storm是一个高容错、高可用性的分布式高速计算框架,相同的是,Storm和Hadoop、Spark一样,都是分布式环境下大数据处理框架,Storm在保证高可用的同时还需要保证数据的及时有效处理,理论上说Storm数据处理的时间延迟基本可以忽略。
Storm采用Zookeeper进行资源的集中配置和管理,对于机器的动态变更可以自动同步到Zookeeper配置中,極大了降低了数据和计算的耦合性。Storm的拓扑结构包括调度节点和计算节点,Storm从源数据中读取数据,Storm将读取的数据放入topology中,topology负责数据的具体分发和处理。Storm中两个重要的概念是Spouts和Bolt,Spouts节点服务数据的发射,即将接收到数据分发了具体的计算节点,即Bolt节点,Bolt是最终的进行物理计算的最终节点。Storm采用topology的目的是为了能够清晰了明白整个Storm集群的拓扑结构,topology节点能够快速的构建出了当前Storm节点之间依赖关系,当前数据分发的数据流向、数据处理的速度以及各个节点的数据拥堵情况都可以在拓扑结构中进行反映。
Storm本身并不适用于Hadoop方式的大批量离散处理任务也不适用于Spark的数据处理框架,Storm作为一个消息队列的处理工具,它主要为了数据的在线快速处理而生,其本身并不会涉及非常复杂的数据交叉任务和数据存储任务,它只需要简单地将接收到数据分发到Storm集群中计算节点,同时将计算节点的数据写入磁盘或者进行下一步的计算任务。
(4)Kafka
Apache Kafka是分布式发布-订阅消息系统。它最早由LinkedIn研发而成,最后最早的一批消息处理工具,因其快速的数据处理效率而广受好评。其主要用于云计算环境中日志收集、数据复制和消息分区等服务。
Kafka与传统的消息队列模式存在一定的区别,它自开始时即被设计为一款在分布式环境下的日志处理工具,能够支持多个消息订阅者,能够将数据持久化到磁盘,方便进行批量时消费。Kafka的存储设计相对简单,每个话题都会为之分配一块存储空间,存储空间对应了云计算环境中一块存储位置,当有新的消息产生时,即会将数据追加到存储空间的末尾,这一点和HDFS有一定的相似性。相对于传统的消息队列,Kafka并没有为消息分配消息id,数据的寻址通过在数据偏移量完成。
消费者对Kafka队列的消费即可以同步进行也可以异步进行,消费者只需要提供需要消费的Kafka队列的话题id即可,如此轻量级的数据消费接入方式极大地提高了Kafka队列使用率,当前消费者陷入沉默或者其他休眠状态时,Kafka队列会保留当前消费者的状态,当消费者重新开始消费时可以非常轻松地继续上一次的任务,如此的设计极大地简化了因需要维持数据标志导致的资源开销。
参考文献:
[1]余珊珊,苏锦钿,李鹏飞. 基于改进的TextRank的自动摘要提取方法[J]. 计算机科学,2016(6):240-247.
[2]沈光美.高职智慧化校园建设的特点与趋势分析[J]. 兰州教育学院学报,2016(5):105-107.
[3]王超. 智慧校园系统的考勤管理子系统的设计与实现[D].北京交通大学,2016.
[4]董奇峰. 面向智慧校园的基础通知服务的研究与实践[D].燕山大学,2016.
【通联编辑:王力】
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!