当前位置:首页 期刊杂志

电信大数据下运营管理平台的搭建探究

时间:2024-08-31

吴怡 陆圣师

摘   要:随着无线通信技术和移动互联网的快速发展,用户的需求逐渐呈现多样化和个性化,电信行业数据也出现了爆发式增长,能否有效分析和利用这些数据,成为市场竞争的关键。本文主要以中国移动海南公司搭建的大数据公共服务平台为切入点,基于网络运营数据,介绍了平台框架和相关技术,最后阐述了电信运营商大数据在交通、旅游、治安、教育、海洋等方面的应用。

关键词:电信  大数据  运营  数据分析

中图分类号:TP302                                 文献标识码:A                        文章编号:1674-098X(2019)08(a)-0144-04

Abstract: With the rapid development of wireless communication technology and Internet, the diversification and individualization of user demands has led to the explosive growth of data in the telecommunications industry. Whether these data can be effectively utilized and analyzed becomes the key to market competition. Based on network operational data, the paper takes the big data public service platform to produce platform framework and related technologies in China Mobile Hainan. Finally, the paper introduces the applications of telecom big data in the transportation, tourism, public security, education, oceans etc.

Key Words: Telecom; Big data; Operation; Data analysis

随着无线通信技术、互联网技术、以及物联网技术的不断发展,智能终端也变得越来越普及,智能化和信息化的沟通、娱乐、办公方式促使了大数据时代的来临[1]。在这个信息为王的时代,电信运营商自身以其独特的天然优势,拥有着海量的用户数据,这些数据资源可以为运营商在市场營销、业务管理、需求分析等方面提供科学的判断依据。因此,谁能够在这个新环境下有效地利用这些数据,就能在市场中把握先机。电信数据虽然在质量上面还存在一些缺陷,但是相对于其他数据,电信大数据仍然具有其自身独特的优势和发展潜力[2]。电信大数据的优势可以体现在以下三个方面:(1)大体量:极高的用户覆盖率、大规模的用户量、以及全面的业务类型、日均数据量可达到T级别;(2)多样性:数据维度多样,以不同的事件参数或周期来记录用户行为,刻画更加立体和全面;(3)时效性:在很小的时间粒度下,快速处理、采集、记录用户行为,并实时进行统计运算和分析。因此,运营商可以通过对海量电信数据的全量采集、实时监测、安全管控、多元分析,打造新洞察能力,并融合现有的交通、电力、教育、旅游等行业数据,从而提供网络大数据公共服务。

本文的结构如下:第2节,描述大数据公共服务平台架构;第3节,在平台架构的基础上,介绍了大数据公共服务平台关键技术;第4节,给出了大数据公共服务平台应用举例;最后,总结全文。

1  大数据公共服务平台架构

本文以中国移动海南公司搭建的大数据公共服务平台为例,以功能模块的形式来分析该平台的主要架构。该大数据服务平台主要可以分为三个模块:数据管理模块、算法分析模块、以及公众服务模块,如图1所示。

1.1 数据管理模块

数据管理模块不但需要对移动通信领域的各类用户和业务数据进行采集、处理、以及整合,还需要提供各类数据的接入和分析的接口,为上层的算法分析模块做准备。此外,该模块还必须兼备数据存储、维护和管理的工作。

1.1.1 数据采集

数据采集的首要工作是根据大数据服务的需求来确定目标客户、数据范围、采集目标、以及调度安排[3]。其次,该模块需要负责将不同平台采集的各类数据进行提取、分解、转换等操作,并汇总到数据处理模块中。本平台数据采集主要分为两个方面,一是中国移动海南公司自身的平台优势,直接从集中性能平台接入和采集2/3/4G信令、MRO、GPRS、网管数据、交易数据等原始数据;二是根据不同的公众服务,与相关行业进行合作来获取用户和行业数据,例如交通、电力、教育、旅游、治安、海洋等业务数据。为了满足不同的数据需求,数据采集主要是通过DPI识别技术、智能爬虫技术、实时采集、人工测量等方式。

1.1.2 数据处理

经过不同接口机输入的数据,由于采集的海量数据具有不同的格式、特征、粒度、来源等,因此数据处理模块首先必须具有存储和处理不同类型数据的能力。首先,本服务平台使用Hadoop实现分布式的数据云计算和共享服务[4]。其次,使用HDFS、Hive、Zookeeper、HBase、Sqoop、Spark等数据库来处理和分析不同类型、规模和来源的用户数据,如LTE、MC、CSFB、Volte、DPI、GN等数据。最后,根据数据处理场景的特点,使用Kafka和Strom等组件实现数据的批处理和流处理。

数据处理模块还需要根据具体的需求,进行不同维度的数据整合,如时间、业务场景、粒度等。数据整合主要的操作步骤可以分为:数据清洗、数据关联、数据计算、以及数据的标准化等操作。数据清洗可以滤除不完整和错误数据;数据关联可以将不同来源和种类的数据通过相同的标签进行捆绑分析;数据标准化可以实现多种数据之间的比较和计算,为数据挖掘做准备。

1.2 算法分析模块

算法分析模块主要是根据数据处理模块输入的数据从不同维度、层次、以及内容上进行挖掘,从而对客户行为进行分析,为上层应用提供科学的支撑和服务。

数据挖掘是依赖现有的用户数据,对用户的已有行为进行分析,从而预测用户下一步行为和隐藏的需求。本平台主要挖掘和分析用户属性数据、通信数据、位置信息数据、时间特征数据、以及频率统计、上网数据等来分析用户的通信行为、上网行为、用户偏好等[5]。基于基础数据,本平台利用聚类分析[6]、决策树、回归分析、统计分析[7]等数据分析方法来发现数据规律和现象,从而提供决策的量化依据。例如,本平台根据用户的小区信息以及接收的信号强度计算出用户位置,并持续观察和统计大量的用户位置信息。基于大数据信息,利用聚类分析算法得到人流的习惯路线,并结合数据库中的道路规划数据,实现智能交通管控。

1.3 公众服务模块

数据通过算法分析模块之后,公众服务模块需要将客户所关心的分析结果通过一站式的WEB服务展示出来。由于公众服务模块与用户直接接触,因此界面必须实现直接、简洁、美观、友好。本平台中公众服务模块主要包括的服务有公共交通、社会治安、海南旅游、社会民生、海洋渔业、以及国漫分析,因此可以对公共事业管理提供更深层次的支撑。

2  大数据公共服务平台关键技术

在大数据公共服务平台的功能模块的基础上,该平台主要涉及的关键技术有智能化网络爬虫技术、数据处理存储技术、数据挖掘技术。

2.1 智能网络爬虫技术

中国移动海南公司独立研发的智能网络爬虫技术,可以达到实时与全面进行兼顾的目的,全方位监控全网,重点网站15min发现舆情并上报。本平台使用分布式爬虫服务器集群,并结合Kafka来实现任务队列的对接,平台可以实现对人工定义的20万重点站点中的新闻、论坛、博客 、微博、微信等信息以及全国主要平面媒体电子版的快速全面的抓取。其次,平台根据抓取的页面信息,结合深度学习算法去智能化地提取网页价值信息[8],如标题、时间等,无需再手动规定规则。虽然智能化解析会存在一定的差错,但是却可以大大地提高工作效率,这对于体量如此之大的电信数据来说是非常重要的。此外,该爬虫技术还支持多编码(如GBK 、UTF-8、BIG等)和多语言,并能抓取境外网站信息、封闭系统等信息。

2.2 数据处理存储技术

由于电信数据的来源和种类都非常丰富,因此数据挖掘的过程中常常面临上百TB甚至PB的异构数据[9],因此需要一套完善的数据处理和存储机制来保证数据挖掘的正确性。本平台主要分为流处理(实时数据)和批處理(统计数据),从而实现不同数据需求。

流处理:数据接口机接入数据采集模块发送过来的数据,经过SendKafka服务将数据发送到Kafka集群,并根据数据类型做数据分区及负载均衡,最后Storm集群主动拉取Kafka中的数据,从而实现实时数据的获取。

批处理:数据接口机接入数据采集模块发送过来的数据,经过HDFS分布式文件系统分别发送到MapReduce、HIVE\TEZ、以及Spark存储系统中。由于MapReduce适用于大规模的数据分析和运算,因此MapReduce将数据进行大批量的计算后,加载到适合毫秒级查询的Hbase中,这里主要用来存取爬虫数据。经过HIVE\TEZ和Spark处理后的数据共同传送到Sqoop数据库,最后Sqoop把需要展示的指标数据同步到传统数据库中。

2.3 数据挖掘技术

本平台涉及到的聚类算法有聚类分析、神经网络、统计分析、关联规则、回归分析等。

聚类分析可以根据指定的维度,对不同的观察对象按照相似度进行群组划分,被分为同一群组的对象认为具有较高的相似性,不在同一组的对象则认为具有很高的相异度[10]。在本平台中,聚类分析常常用来分析人流的聚集情况,用户的异常行为,常住人口的变化情况等。

神经网络算法具有大规模批量处理的特点,具有良好的容错性、自适应性,只要输入的数据够多,它就可以给出足够精确的分析结果。例如,在本大数据平台上,可以使用神经网络针对用户的上网行为和通话行为对用户进行分类,不同标签的用户代表对运营商的忠诚度。此算法不但可以预测潜在的流失用户,还可以根据用户的不同标签准确地评价用户流失的原因。

在本平台中,统计分析主要指的是展示数据信息,统计数据的特征值(平均值、众数等),对比数据变化程度,异常值报警等。通过对网络核心数据的实时跟踪,网管人员可以随时了解网络运行情况,并对突发情况做出及时反应。

3  大数据公共服务平台应用举例

基于大数据公共服务平台目前已经投入使用,并对用户面数据、信令面数据、以及软测数据等进行了深入的挖掘和分析。目前该大数据公共服务平台已经服务于交通、电力、教育、旅游、治安、海洋等行业,本文以交通和治安为例进行分析。

在交通行业方面,数据分析的主要来源是道路规划数据,人流习惯线路,以及出行习惯方式。其中,人流习惯线路是对用户的位置信息进行数据挖掘得到,出行习惯方式和道路规划数据是通过相关资料和调查得到。在平台中,交通拥堵重点防治地区,主要防治线路人流拥堵情况都可以通过GIS直观展现,可以实现分钟级的道路拥堵预警,如图2所示。此外,该平台还可以实现交通肇事路段实时呈现、交通事故发生路段拥堵示警、交通事故频发路段预警、上下班高峰路线预警、公共交通热度实时在线呈现、公共交通集中路段、时段示警、叫车行为热度实时在线呈现、叫车集中路段、时段示警等功能。

在治安方面,主要从骚扰电话、聚众突发事件、以及治安案件三方面对社会治安进行维护。该平台已经实现了准实时呈现人群快速聚集区域,并对30min以内骤增100人以上的区域进行告警呈现,对聚众闹事等突发治安事件提供预警支撑,人群骤增区域预警如图3所示。该平台还可以实现地图上直观展现历史报案频发区域,重点区域人流变化预警染色,展现历史消防敏感区域,骚扰电话统计等。

目前该大数据平台主要還是侧重于服务客户方面,因此该平台的服务可以从深度和广度方面进行完善。运营商凭借自身的优势,可以获得用户多维度的数据,因此大数据服务平台可以提供的服务也不止于此,不但还可以延伸到医疗、金融、社交等行业,还可以根据客户特点推出相关周边产品和增值业务,实现精准营销。就深度而言,大数据平台还可以对数据进行深入挖掘,这就不仅需要对单维数据进行分析,还需要对不同维度之间的关联性进行挖掘,更加精准地预测用户行为和特征,有利于提高用户体验,增加客户粘性。

4  结语

随着数字化和智能化时代的到来,传统的运营商也面临了前所未有的挑战。在这个数据爆炸的社会,运营商凭借自身优势管理着大量的用户数据和业务数据。中国移动海南公司利用电信大数据搭建了一套完整的大数据公共服务平台,该平台主要分为数据管理模块、算法分析模块以及公众服务模块。该平台利用大量的大数据采集、数据处理技术以及数据挖掘技术,为海南公共交通、社会治安、海南旅游、社会民生、海洋渔业等方面提供了智能化的管理方法,助力政府实现数字化、智能化、智慧化管理。

参考文献

[1] 王文学,陈天池,徐海燕.大数据在电信行业的应用研究[J].信息通信,2019(3):241-243.

[2] 韩玉辉,高洁,成晨.电信大数据在交通行业的应用探讨[J].邮电设计技术,2018(10):15-19.

[3] 李冰,孙鹏.电信行业大数据应用分析及实例展示[J].山东通信技术,2017,37(2):35-36.

[4] 刘晓波.通信运营企业大数据平台的建设探究[J].通讯世界,2019,26(5):111-112.

[5] 周彬.数据挖掘在天津联通内部审计中的应用研究[D].天津大学,2017.

[6] 姚黎强.大数据在运营商中的应用[J].电信工程技术与标准化,2018,31(9):56-59.

[7] 叶倩.大数据技术及其在通信领域的应用[J].中国新通信,2019,21(7):38.

[8] 杨心红.移动互联网时代运营商大数据IT支撑企业发展策略研究[D].北京邮电大学,2018.

[9] 郑吉妮,曾长江.节假日通信保障移动网络大数据分析建模[J].中国新通信,2019,21(6):42-43.

[10]刘昭,张海峰,李玮,等.运营商发展大数据技术及建设模式展望[J].电信工程技术与标准化,2015,28(3):12-16.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!