时间:2024-08-31
周 莹
(辽宁行政学院,辽宁沈阳,110161)
基于云计算的海量网络流量数据分析处理研究
周 莹
(辽宁行政学院,辽宁沈阳,110161)
随着互联网技术的迅速发展,在我们的生活中网络已经成为我们不可以缺少的重要的组成部分。网络流量监控技术是对网络中海量的流量数据进行分析的重要工具和技术。基于云计算的网络流量监控技术可以对网络流量数据和用户的特征进行更好的分析,可以对用户的上网行为进行深入的挖掘,更好的为用户推荐喜欢的网络内容。本文结合互联网的发展现状对海量网络流量数据分析技术进行了分析,在基于云计算的基础上提出了海量网络流量数据分析的几个关键性技术,对基于云计算的海量网络流量数据分析技术进行了分析和研究。
云计算;数据分析;流量监控技术;互联网
我国互联网应用范围及用户数量增长越来越快,互联网的发展需要网络基础资源作为支持的基础。移动智能终端技术的发展,用户对移动网络的需求越来越多。我国为了更好的满足网络用户对互联网的需求,不断的进行互联网设施的建设和完善。应用云计算技术对海量的网络流量数据进行分析,更好的了解互联网用户的上网行为和特点,有利于互联网技术的可持续发展。网站是用户使用互联网的主要应用,对用户网站数据分析处理,分析用户的上网行为,是基于云计算的海量网络流量数据分析的主要部分。
Hadoop是在海量数据中进行分布式计算处理的一种软件框架,Hadoop软件框架是开源的。Hadoop框架的可扩展性非常强,并且支持PB等级的数据量。正是因为Hadoop技术具有可扩展并且具有开源的特点,基于Hadoop的云计算技术才可以在很多领域中得到具体的应用。随着云服务的出现,阿里巴巴和微软等大公司都为用户提供了云计算服务,云服务现在成为了诸多科技应用领域中的一项新的技术。Hadoop技术中的MapReduce是程序处理的框架,可以对大规模集群的海量数据进行并行计算处理。Hadoop技术中的Hadoop Common主要功能是提供支持作用的,为Hadoop的整个框架进行服务。Hadoop技术中的HDFS是一种分布式的系统,可靠性高,而且具有强大的吞吐量;在HDFS上主要是实现对Hadoop框架数据的存储,HDFS分布式文件系统数据访问是流动模式的,超大文件也可以在HDFS分布式文件系统上进行存放,并且具有自动的容灾恢复能力。在HDFS架构中主节点是NameNode,NameNode主节点的功能是完成对HDFS分布式文件系统的管理。HDFS架构中还设有备份主节点Secondary NameNode。HDFS架构中的对数据进行存储的节点是DataNode,DataNode节点主要是对数据进行保存的,当然这些数据都是存放在HDFS文件系统里面的。
2.1 互联网海量流量数据分析关键技术研究
互联网流量数据分析是在海量的数据中挖掘出用户行为特征,海量流量的原始数据是在互联网中直接得到的数据,原始数据量比较大而且存在冗余的特点,所以我们在对原始数据进行分析处理之前要对海量的原始数据进行预处理,通过数据的预处理把原始数据的冗余数据消除,并对数据进行过滤和筛选然后对数据进行归一化处理等。流量数据分析技术是数据挖掘技术和分布式计算等领域技术知识的结合,根据数据的实际内容对数据进行分析并且设计出数据挖掘方法。传统的算法很难满足海量数据分析的需求,我们要把云计算中的Hadoop技术引入进来。Hadoop技术和数据挖掘技术实现了对数据进行高效的分析处理,基于云计算Hadoop技术的数据分析系统可以实现互联网海量流量数据分析处理。聚类算法可以把对象间的共同相似的特性描述出来,并且把具有共同特点的对象结合成簇,实现簇内各个对象之间的距离最小,簇与簇之间的对象的距离最大化的结果。如果在数据分析中对象的类别不清楚的情况,那么我们就可以采用聚类分析的算法进行计算,从对象集中把具有相似特性的对象通过数据挖掘技术都找出来。分类算法可以通过学习分类数据来获得分类模型,分类算法可以优化分类模型中的数据参数,我们对数据进行分类的时候就可以采用优化过的比较优良的分类模型。当数据分析过程中对类别有准确的规则定义的情况下,我们采用分类算法对数据进行分析,按照分类模型对数据集中的对象进行分类分析和处理。
2.2 基于Hadoop云计算技术移动互联网网站数据分类系统架构研究
基于Hadoop云计算的海量互联网网站流量数据分类系统架构图如图1所示,系统架构包括六层,第一层是数据导入层,把系统外界的原始数据导入进系统内部的HDFS文件系统中进行存储;第二层是文件存储层,把海量的网络流量的记录进行分块处理,然后存储在HDFS中;第三层是数据存储层,完成对海量数据的管理和存储;第四层是模型编辑层,作为系统的核心部分,完成数据分析和数据挖掘的关键算法;第五层是数据分析层,系统的数据分析工作人员通过这一层完成数据分析,挖掘用户特征数据等;第六层是系统管理层,实现对整个系统的监管。系统每个层之间相互协作,构成基于Hadoop云计算的移动互联网网站分类系统。
通过云计算技术对网络中海量的流量数据进行分析处理,对网络用户的行为特征进行分析,了解网络用户上网行为,实现了对网络的优化。基于云计算的海量网络流量数据分析处理研究具有一定的研究价值。
图1 系统架构图
[1]赵卫中,马慧芳,傅燕翔,史忠植. 基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学.2011(10).
[2]刘小俊,徐正全,潘少明. 一种结合RDBMS和Hadoop的海量小文件存储方法[J]. 武汉大学学报(信息科学版).2013(01).
[3]李志鹏,虞鸿,刘允才,刘富强. 一种改进的用于城市主干道行驶时间短时预测的自适应指数平滑(IAES)模型(英文)[J].自动化学报. 2008(11).
[4]孙彦良.面向下一代无线通信系统的多天线信道建模和仿真技术研究[D].北京邮电大学 2015.
[5]陶彩霞,谢晓军,陈康,郭利荣,刘春. 基于云计算的移动互联网大数据用户行为分析引擎设计[J]. 电信科学.2013(03).
全面助力万物互连时代的IC设计创新——R&S公司将参展第15届中国国际半导体博览会暨高峰论坛 (IC China 2017)
中国国际半导体博览会暨高峰论坛(ICChina)将于2017年10月25-27号在上海新国际博览中心盛大举行,经过15年的发展,已成为国内外具有一定影响力的半导体业界盛会。“ICChina”为从事集成电路设计、芯片加工、封装测试、半导体专用设备、半导体专用材料、半导体分立器件的海内外厂商,企事业单位搭建了一个展示最新成果,打造产品品牌的平台。聚焦产业政策解读,涵盖“体制创新、模式创新、技术创新”等内容的高峰论坛和专题研讨会,在业界有着极佳的口碑和知名度。
市场推动产业发展,应用引领技术创新,“IC China2017”继续力邀国内外优秀半导体企业参展、参会;精心组织物联网、智慧城市、智能家居、便携终端、汽车电子、LED、健康医疗等IC应用展示,共同推进“系统应用-半导体-专用设备、材料”全产业链的发展。
罗德与施瓦茨公司(Rohde & Schwarz,R&S)作为全球电子和无线移动通信测试设备厂商之一,将在IC China上展示其领先的针对IoT和通用IC设计与测试的产品和解决方案,包括IoT芯片测试技术,射频微波芯片测试技术,收发机芯片测试技术,收发机芯片产线测试方案,先进相位噪声测试技术,调制解调器测试技术,先进时域测试技术等方案。同时,针对频域,时域和信号域的测试,R&S公司带来了7款产品用于现场的演示和交流:
CMW500 无线通信测试仪
ZNB20 矢量网络分析仪
SMW200A 矢量信号发生器
SMA100B 模拟信号发生器
FSW 信号与频谱分析仪
FSWP 相位噪声分析仪
RTO 数字示波器
通过参观和交流,来宾将体验到R&S公司的一流产品、服务以及先进理念,领略R&S公司打造的全方位的IC测试方案平台,特别包含可以加速IC设计的独有方案,期待与您分享,敬请您的光临。
Research and analysis of massive network traffic data processing based on Cloud Computing
Zhou Ying
(Liaoning Academy of Governance,Shenyang Liaoning, 110161)
With the rapid development of Internet technology, in our life, the Internet has become an important part of what we can not afford Network traffic monitoring technology is an important tool and technology for analyzing large amount of traffic data in the network Better analysis of the features of network traffic monitoring technology of cloud computing to data traffic network and based on the user’s online behavior of users can conduct in-depth mining, better recommendation for users love web content Analysis technology has carried on the analysis to the current development of the Internet network traffic data in this paper, based on the cloud computing on several key technical analysis data of network traffic is proposed for cloud computing massive traffic data analysis based on network technology is analyzed and studied
cloud computing; data analysis; traffic monitoring technology; Internet
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!