当前位置:首页 期刊杂志

电信运营商大数据引入策略分析

时间:2024-05-04

陈斌

【摘要】 本文通过分析大数据发展现状和主流大数据技术架构,研究了大数据在电信运营商大数据平台部署策略

【关键词】 大数据 电信运营商 4V Hadoop Spark 流计算

一、引言

大数据的应用是在互联网的高速发展中诞生的。谷歌提出了一套以分布式为特征的全新技术体系,即分布式文件系统(GFS,Google File System)、分布式并行计算(MapReduce)和分布式数据库(BigTable)等技术。这些技术奠定了当前大数据技术的基础,可以认为是大数据技术的源头。

二、大数据发展现状

近年大数据的发展呈现以下两个特征:1)互联网公司引领大数据发展。互联网公司在搜索、广告领域积极采用大数据技术优化既有业务。二是今年以来陆续推出一系列面向第三方的大数据服务。2)传统企业大数据应用仍处在探索期,发展渐趋理性。传统企业在大数据应用的思路上也在纠偏,更加务实。一是更加注重更干净、结构化小的数据。二是更加注重企业自身沉淀下来的内部数据的价值挖掘。三是更加注重根據业务需求把Hadoop 与传统数据仓库结合起来用。

三、大数据关键技术

1)大数据存储管理。传统的单机文件系统和网络系统要求一个文件系统的数据必须存储在一台物理机上,在冗余性、可扩展性和容错能力和并发能力上难以满足大数据的需求。2)大数据计算能力。传统的数据计算能力的提升依赖于扩容单机的CPU性能、增加内存、扩展磁盘等方式,难以支撑平滑扩容。以MapReduce为代表的分布式并行计算技术可以通过低成本的通用服务器搭建系统。通过添加服务器扩展系统的总处理能力。3)大数据分析技术。大数据分析主要在两个方面,一是对海量的结构化和半结构化数据进行高效率的深度分析,如从文本网页中进行自然语言分析;二是对非结构化的语音、图片和视频进行机器可以识别的分析提取有用的信息。

四、大数据的主流技术

1、Hadoop。Hadoop是基于Java语言开发,以分布式文件系统和Mapreduce为核心。其特点如下:1)可扩展性:Hadoop运行在基于X86结构的普通PC服务器或刀片服务器上,硬件和软件松耦合在一起,可以很方便的增加计算节点。2)可靠性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,确保能够针对失败的节点重新分布计算。3)低成本:Hadoop架构在廉价的硬件服务器上,不需要昂贵的硬件作支撑。其软件是开源产品,不需要授权费用。4)高效性:相比传统并行计算结构,Hadoop的计算和存储是一体的,实现任务之间无共享,I/O开销小。

2、Spark。Spark拥有MapReduce的优点,但不同于MapReduce的Job中间输出,其结果可以保存在内存中,从而不再需要读写HDFS。其有以下特点:1)速度快。Spark支持内存计算,对于小数据集能达到亚秒级的延迟。2)易于使用。Spark支持Sscala、Java和Python编写程序。Spark提供了超过80个高级运算符,以便于更容易的构建并行应用程序。3)与HDFS底层兼容。Spark能够运行在Hadoop 2.x的YARN集群管理器上,并且能够读取任何存在Hadoop数据。

2、流计算。流式数据是指将数据看作数据流的形式来处理。数据流是在时间分布和数量上无限的一系列动态数据集合体;数据记录是数据流的最小组成单元。流计算的技术特点如下:1)实时性。流数据是实时产生、实时计算,结果反馈往往也需要保证及时性。2)易失性。在流计算环境中,数据流往往是到达后立即被计算并使用,只有极少数的数据才会被持久化地保存下来,大多数数据往往会被直接丢弃。3)突发性。在流计算中,数据的产生完全由数据源确定,由于不同的数据源在不同时空范围内的状态不统一且发生动态变化,导致数据流的速率呈现出了突发性的特征。

五、主流技术方案比较

目前大数据平台建设最常见的是基于Hadoop平台和MPP数据库的两种方案。Hadoop、MPP数据库和传统数据库并非是互相取代的关系。因此,在很多大数据解决方案中,单一大数据技术无法满足所有的要求,而是要根据实际场景采用不同的技术方案或采用混搭架构进行综合处理。

六、电信运营商大数据部署建议

大数据平台建设目前有两种方式,建议采用第2种方式:1)以现有分析系统BI为基础,进行扩展,构建统一开放数据平台。2)以统一数据管理为契机,通过数据统一采集、存储与处理入手,新建大数据平台。方式2可迅速汇聚数据,不影响现网各系统的运行,后期可将经分,性能管理等系统上移为数据集市,专注于专业分析。各数据源仅将数据送往大数据平台。

大数据技术架构建议按照“松耦合、标准化、分层开放”的标准进行方案选取。而在数据层面,运营商面临数据规模大,数据处理复杂,数据结构多样化等多种挑战。无论是传统数据库还是分布式数据库,均难以单独满足数据存储和分析的需求。大数据平台建议采用Hadoop作为大数据的主要存储平台,各分析集市、应用系统可根据数据分析的深度,实时性采取Hadoop,Spark或MPP混搭架构。

参 考 文 献

[1] Tom White.华东师范大学数据科学与工程学院译.Hadoop权威指南(第3版)(修订版).北京:清华大学出版社.2015.

[2] 工业和信息化部电信研究院.大数据白皮书(2014).2014.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!