当前位置:首页 期刊杂志

云计算背景下的大数据处理技术分析

时间:2024-05-04

史志杰

(山西职业技术学院 计算机工程系,山西 太原 030006)

0 引言

在各行业与各产业向着信息化方向发展的过程中,各产业从监控、传感器等信息化设备中获取的复杂信息内容,让各产业需要处理的信息规模不断扩大。各地的地质数据状况、气候变动情况、人口大数据统计等详细信息都产生了大量的数据处理需求。 而在各产业生产与经营的过程中,对产品生产线的监控、对用户商业购买情况的记录等大数据内容也在影响着各企业在经营策略与运营方向上的转变。 因此,大数据处理技术对于各行业与产业而言都是非常重要的,如今的时代可以被称为信息化时代,也可以被称为大数据时代。

1 大数据处理技术概述

大数据处理技术是在云计算技术之后信息科技领域出现的一个研究焦点。 在信息化时代,随处可见的传感器和微处理器成了数据的主要来源,且其涉及各个领域与学科。 如在科学研究领域,气象数据、地理数据、生物信息数据等是传统的海量数据集;在制造业领域,很多机器上都安装了一个或多个微处理器来采集生产数据;在商业消费领域,网上购买记录、消费评价等数据。 各国政府的海量统计数据和文件也因计算机技术的发展而成为亟待分析处理的大数据问题。 有研究报告称,2011 年全球被创建和被复制的数据总量为1.8 ZB,而到了2020 年,全球数据总量则达到了惊人的35 ZB。 在大数据时代,如何合理利用大数据处理技术就成了社会广泛关注的焦点。

目前为止,世界范围内针对大数据的具体定义尚不统一,信息处理领域的头部企业及机构均对大数据进行了定义,其主要包含以下几种:一是麦肯锡。 麦肯锡将大数据定义为超过了传统概念尺度的数据信息,即常规的数据库技术难以实现捕捉、存储、管理和分析的数据信息。 二是IBM。 IBM 认为,大数据具有规模性、多样性和高速性的基本特征。 规模性指的是大数据的整体规模较大,超过了PB 级别;多样性是指大数据的数据来源广泛,种类多样,且涉及了多个领域与学科;高速性指的是大数据对于数据处理技术的要求较高,数据处理技术必须达到较高的速度才能够满足大数据的实际需求。 三是EMC。 EMC 简单使用“大”字对大数据处理技术进行概括。 “大”本身就是大数据处理技术的基本特征,常规的数据库规模一般超过10 TB。 多用户把多个数据集放在一起,形成PB 级的数据量。 同时这些数据来自多种数据源,以实时、迭代的方式来实现。

2 云计算技术与大数据处理技术的联系

云计算技术是通过网络,将供应方庞大的数据处理与存储资源提供给用户在网络云端使用。 这样的特性让云计算技术拥有可靠性较高且运营成本较低的特点。 同时,以云计算技术为基础,诞生专属于云端技术的数据处理方式,也让数据云端化发展的优势逐渐明显。 从某种角度来看,大数据技术是在云计算技术基础上延伸发展出来的新型技术。 对于一般的数据处理技术而言,由于数据信息的样本数量较少,计算难度较低,其对于技术本身的要求也相对较低。 但是,大数据技术自身的大规模特征就决定了一般的计算技术无法满足其实际的计算需求,而云计算技术的出现却能够有效满足大数据技术的基本需求。 整体大量数据的传输与运算,也让大数据可以更顺利地进行处理,不仅解决了大数据处理技术对数据量与存储大小的要求,也让大数据分析系统的安全性与稳定性有了对应的保障。

总体上来看,云计算与大数据之间处于相互合作但又相对独立的状态。 云计算负责为大数据处理技术提供较强的运算能力,而大数据则可发挥数据量庞大的特点,让计算出的结果能够为单一产业或企业提供在经营方向、风险预测等方面的信息化数据内容,以便于企业进行风险问题的规避与处理,以此形成一套完整的对数据处理与分析系统。

3 云计算技术与大数据处理技术内容分析

3.1 Hadoop 技术与Open Stack 技术

Hadoop 技术属于大数据分布式处理技术,这一技术就是利用云计算的高算力与大数据处理技术数据量庞大的特点。 同时向数据的多个目标方向进行计算与处理,若发生计算失败的情况,就迅速对失败情况加以处理,并重新选择计算处理目标,以此来实现对庞大信息数据的迅速处理与管理。 这一方式的应用对于提升数据处理效率有一定的帮助,且可以让各平台更顺利的利用大数据处理技术。 Open Stack 是对各类型构件技术进行组合使用的数据处理平台,这一平台所涉及的模块化技术包括NOVA,SWIFT 等内容,将此平台与Hadoop 技术加以结合后,就可以让数据信息的利用率得以提升,减少因为单项运算出现失败而导致数据信息内容浪费的情况。

3.2 大数据采集技术

数据采集就是通过软件或硬件的形式将单一设备内所产生的数据加以收集的技术。 在全面信息化发展的当下,信息采集技术会采集到大量精确度高、涉及范围广的信息内容,这些信息会应用于大数据分析工作,为需求方提供相应的帮助。 从某种角度来看,大数据处理技术的核心在于对大量数据的标准化处理,依据处理结果总结规律或者分析现象,进而为实现某种既定目标奠定数据基础。 而想要实现这一目标,基本的前提条件就是实现数据信息的收集工作,收集到的信息总量越大则意味着分析结果的准确性越高,收集信息的速度越快则意味着数据分析过程的耗时越短。

信息采集的方法分为集中式与分布式。 其中,集中式采集是在统一的数据库内直接进行数据信息的收集与分析,在信息的处理上更注重信息内容的综合性与全面性。 而分布式采集则是先根据需求,将数据内容划分为不同的区域类型,然后在不同的区域内开展数据的收集与分析。 这一方式能够对各类型数据进行针对性的挖掘,更注重数据在单一方向的信息深度。这两种信息采集方式在通过云计算后,就可以在云端进行全程的数据处理与信息存储,是大数据处理技术最基础的应用。 另外,因为云计算技术在进行数据收集时,并不会过度侵犯用户的隐私状况,所以也能够避免用户对频繁的信息采集产生厌烦。

3.3 大数据存储技术

传统的数据存储方式属于单点式存储,整体虽然在信息数据的索引与阅读方面存在一定优势,但因为大数据时代对数据存储量的要求不断提高,这种单点式存储方式已经很难应对。 单点式存储在信息响应速度上也较为迟缓,进行大量数据的访问与处理时经常会造成时间上的延误,已经不符合信息化时代对信息存储的需求。 而云计算凭借自身的运算能力,会在进行存储时,自动将数据内容划分到不同的信息列中存储,需要进行访问时,根据访问关键词,就能够直接访问对应的信息列,不仅避免了大量数据造成的访问压力,也让数据的处理效率得到了明显的提升,使存储系统的性能得到优化。 同时,各信息列之间的排列也会按照相关性进行分配,具备相关性的信息列会存在一定的数据互通性,在进行大数据分析时,就会根据信息列之间的共同数据进行综合性分析,避免分析结果存在信息局限性,确保信息内容的处理足够全面。

3.4 大数据联机分析技术

大数据联机分析技术是在传统数据联机分析技术的基础上,通过技术层面的递进发展,降低了技术层面的难度,可以对一些数据量庞大,且数据关系复杂的信息内容进行综合性分析的技术。

大数据联机分析技术在应用时,会对整体的数据内容进行综合性分析,并结合大数据信息内容的关联性,建立起相应的信息结构模型,通过模型来判断信息数据间的相对关系。 通过这一技术的应用,就可以在数据分析的过程中,避免因为信息复杂程度较高对数据分析结构造成的影响,对于大数据处理技术的发展有着重要的意义[1]。

3.5 大数据挖掘技术

大数据挖掘技术是采取云计算与大数据相结合的方式,在大量重复性高、可利用价值低的信息数据中,提取出对企业或个人有一定价值的数据信息,并对这些信息进行二次的数据加工,让信息内容具备实际应用价值的一种方式。 这一技术是以大数据庞大的数据库与云计算强大的数据分析能力为基础运行的。 在处理的过程中会更加注重信息的整体性,一般会将大量信息进行全面的处理,并对可能存在价值的信息进行存储与整合,对整合结果加以优化,以此得到存在价值的信息内容[2]。

因为大数据挖掘技术所消耗的运算能力与存储空间较为庞大,所以在信息挖掘前,首先需要明确信息挖掘的方向,让大数据分析能够拥有一个整体的方向,以这一方向作为判断信息有效性的基础,确保大数据挖掘可以正常展开。 整体方向越清晰,其挖掘结果的针对性与准确性就越强。 确立方向后,应当选择具体的挖掘方式,挖掘方式可以简单地划分为直接与间接两种,直接就是根据数据算法对信息内容进行简单的运算与加工,并直接得出数据挖掘的结果。 间接就是在信息基础算法的基础上利用网络等信息算法技术对信息进行二次加工,可以得到处理结果更为精准的大数据信息内容。

3.6 大数据可视化技术

对于大数据的分析也不能仅仅停留在数据分析的层面上。 利用大数据处理技术与云计算的方式,可以将数据性的内容以视图的形式,更形象地加以展现,利用这一技术的企业可以在数据分析的基础上,加以图像化的内容与立体的建模方式,更全面地展现数据内容。 避免因为传统数据信息复杂性强的特性,导致信息判断的结果产生一定遗露,使大数据分析的结果更具应用的价值。 让信息的分析工作不再局限于大数据与云计算单纯的数据分析,将信息在图像层面与建模层面的内容进行进一步的分析与挖掘,全面了解大数据信息内容。 从某种角度来看,大数据可视化技术的原理与一般的数据可视化技术的原理相同,但是由于大数据的数据总量较大,其对数据处理和归类整理能力提出了较高的要求。 此外,大数据可视化技术所采取的样本总量巨大,这也意味着最终的分析结果将更为精确,精度级别更高。

3.7 大信息安全技术

云计算因为依托于网络,所有的信息访问与信息处理对于应用技术的企业而言,无论是数据的传输还是处理都会存在一定的风险,这也是大数据与云计算技术目前最具争议的信息安全性问题,对云计算技术的发展有着一定的制约作用。 一般对于网络传输的数据内容,都会使用信息提供方的信息加密算法进行加密处理,以这种方式来确保上传云端的数据内容足够安全,这一方式也是目前大部分信息的安全处理手段,主要应用于对信息内容进行单纯的加密处理的情况,当需要对信息进行重复访问并重复加密时,这一普通的信息加密方式在易用性与安全性上会受到影响,需要采取双向加密的方式,在确保数据安全性的同时,让信息可以得到有效应用[3]。

企业在进行云计算信息加密时,最常见的就是内容感知加密技术。 这一技术的优势在于可以由企业自行选择信息加密的具体内容与使用的加密形式,让关键信息的安全性有一定的保障。 这一技术的实用性与安全性较高,且应用难度较低,是较为主流的加密形式[4]。

内容感知加密技术在成熟应用的基础上,进一步的发展就是保格式加密技术。 格式加密技术可以自行判断数据内容所需要的加密形式,并以非常高的效率完成全部文件的加密,且不同加密内容之间在内容独立的同时,能够同时进行大数据处理技术与云计算技术的处理与存储,让信息处理效率得到了进一步的提升,且在这一过程中也不会出现数据丢失等情况,无论对于数据安全还是完整性都有较好的保护效果[5]。

4 结语

通过云计算与大数据处理技术的应用,企业可以通过更简单的方式完成数据的存储与管理,并对数据的信息内容加以分析,为企业的发展提供实质性的帮助。 因此,企业需要积极地利用云计算技术与大数据处理技术,让企业的数据处理能力能够符合大数据时代的需求,推动企业发展。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!