时间:2024-05-04
张靓 黄克彬
基于云计算的移动互联网大数据用户行为分析引擎设计
张靓 黄克彬
中国移动通信集团广东有限公司,广东 广州 510630
很多装备制造业领域的企业信息化程度已经很高,以各式各样的系统业务分析报表为代表的五花八门的数据充斥着企业,一些来自机器传感器,一些来自商业系统,一些来自报告分析,还有一些来自外部网站和社交媒体。面对这些数据,企业没有正确的工具来管理和分析它们,商业价值的最终数据被忽略。然而,大多数管理者的日常工作和决策依赖于当地的数据进行分析。因此,设计并实现了一个互联网用户行为分析系统,设计了系统的总体框架,系统由捕获模块、数据分析模块、数据图生成模块框架及系统接口模块组成,并使用Java语言进行编程。此系统生成的网络用户行为分析结果为网络用户管理提供了科学依据。移动互联网大数据时代的到来给企业经营者带来了巨大的挑战。因此,在大数据的背景下,提出了用户行为分析引擎的设计方案,有利于供应商的新业务的开发。
用户行为;行为分析;网络协议
近年来,我国移动互联网技术得到了全面发展。这使我国的互联网运营商面临着一个新的发展机遇,开始走从话务量经营向流量经营转变的道路,并深入分析用户的行为规律,发掘市场与广大用户的真实需求。为了能够充分满足用户日新月异的需求变化,运营商必须不断开发、推出新产品,充分发挥计算机技术的功能。云计算技术正是这样一种能够满足海量数据分析与处理的强大引擎系统。
这项研究中主要使用云计算技术的海量数据计算。移动互联网数据挖掘分析系统应建立实现互联网用户行为分析的引擎,并根据用户的喜好及上网习惯和行为,为用户提供有针对性的个性化服务,使数据收集、分析、服务类型及营销策略能够形成一个统一的有机整体,提升企业的营销效率。此外,云计算系统主要通过FTP服务器实现数据采集,然后是分布式计算的系统接口以及数据批处理,大数据应存入Hbase数据库。该系统不仅能够实现海量数据存储,而且也能够存储非结构化的数据。最后,通过蜂窝集成层和总结层EIL处理,利用MapReduce数据分析模型将处理后的结果传递给数据库,并建立总体系统架构。
表1 户行为数据分析格式 分类数据模型优点缺点典型应用场景 键值(Key-Value)存储数据库Key指向Value的键值对,通常用hash表来实现查找速度快数据无结构化(通常只被当作字符串或者二进制数据)内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等 列存储数据库以列簇式存储,将统一列数据存在一起查找速度快,可扩展性强,更容易进行分布式扩展功能相对局限分布式的文件系统 文档型数据库Key-Value对应的键值对,Value为结构化数据数据结构要求不严格,表结构可变(不需要像关系型数据库一样需预先定义表结构)查询性能不高,而且缺乏统一的查询语法Web应用 图形(Graph)数据库图结构利用图结构相关算法(如最短路径寻址,N度关系查找等)很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案社交网络,推进系统等
该系统的拓扑结构主要是将一个服务器作为一个单节点平台的主节点服务器,而另一个服务器则作为哈普多普平台的从属节点服务器。一般情况下,节点服务器可以根据实际需要进行动态扩展。主节点服务器不仅要从节点服务器分配任务和流程,还要监控服务器的工作从节点执行。由许多节点服务器执行,能够有效地提高数据效率,理解服务器软件运行状态。借助MapReduce用户行为分析模型资源,分析所有汇聚到系统的移动互联网用户行为数据,能够了解用户的上网习惯、偏好,甚至包括用户的社会关系,并提供全面的业务服务,给用户推荐具体的内容。一般来说,从节点服务器与主节点服务器在软件的结构上没有太大的差异,唯一不同的是从节点服务器不具备部署任务以及管理调度的功能。以搜狗公司数据分析为例,根据第三方互联网数据统计机构CNZZ公布的2015年9月的中国网民搜索引擎使用情况统计报告,搜狗搜索的市场份额已经达到15.68%,成为中国第三大互联网搜索公司,其用户行为数据分析格式如表1所示。
移动互联网用户的行为分析引擎的数据主要是通过应用平台数据与DPI数据两个渠道获取的。这两个数据源有着明显的不同。首先,应用平台数据比较集中,在一个访问行为表中就能够完整呈现,每天表现为一个文件,且文件的大小以GB分级;DPI数据则是众多分散的小文件,这些文件一般都不超过10 MB,其最重要的一个特点就是文件的来源特别快,平均每2 min就能够接收到多个新文件,一个省一天可收集到1 TB左右的数据量,效率极高。针对这两个数据源的特点,采用了不同的设计方案。在获取用户基本数据信息的情况下,这些数据的统计分析可以获得用户行为的基本特征和规则。采用Hadoop平台的用户行为分析系统对搜狗实验室提供的搜索引擎日志数据集进行分析处理,源文件大小共4.4 G,行数为43 545 444行。用户查询关键词的排名、点击URL排名以及用户搜索记录、时间段等用户行为特征都能够有效地呈现出来。
该平台主要采用的是批量入库的方式,每天进行一次数据入库,文件的大小一般为GB级。大型数据文件多采用Hadoop平台进行入库。然而实践证明,MapReduce分布式处理Hbase入库效率普遍不高。因此,可对这一系统进行优化处理,在MapReduce分布处理的基础上,实行批量入库处理。在Hadoop系统应用过程中,多使用TextInputFormat。由于TextInputFormat在map中多显示的是文件的单行记录,因此可采用NLineInputFormat类使其能够在MapReduce中实现批量入库。在这种系统的支持下,每个分片都会留下N行记录,然后通过适当的参数配置,实现每次可读取N行记录,进而在Map中进行批量入库的相关操作,提升数据分析的效率。
DPI数据入库主要针对的是大量的小型数据文件。这些文件尽管所含数据量不大,但是数据来源的频率特别高。首先,可采用SequenceFiles软件压缩、打包这些小文件。在文件打包的初期要采取措施减少小文件的数量。需要注意的是,读取小文件时会受到一定的限制,无论是Hadoop shell软件还是Map读取软件,都很难实现对数据的灵活读取。此外,采用HAR软件对小文件进行归档,虽然能够在一定程度上减少小文件的数量,但却仍然达不到灵活读取数据的需求,这在很大程度上是因为HAP软件的读取性能较低。另外,Hadoop append系统虽然能够将这些小文件追加到同一个文件中,但是这些小文件的大小千差万别,且数据来源频率广,有峰值与低谷之分,所以对这些数据的控制也较为烦琐。除此之外,还有Flume、FLumeNG以及Scribbe系统。这些系统能够处理中间层的数据,坚守小文件的数量,然而传输与压缩文件功能不强,具有一定的缺陷。由此可见,以上方式都不能实现数据文件的有效处理。因此,要科学分析DPI数据的特征,对CombineFile InputFornt进行有效继承,设置数据的分片大小,以便实现CreateRecordReader。这种方式能够实现入库DPI大数据。
个性化推荐引擎系统包括用户行为数据收集框架如图1所示。
图1
用户行为数据收集方式:采取埋点代码和系统日志分析两种方式:第一,埋点代码是类似于Google Analytics和百度分析的方式,在客户网站嵌入少量的JS埋点代码,然后收集网站和移动端用户行为数据;第二,系统日志分析是收集客户网站日志数据,对日志数据进行分析,提取所需的用户行为特征数据。
主要利用大数据集群的高吞吐量、高可用性(High Availability)和水平扩展性,对客户网站收集的用户行为数据进行处理。我们的大数据集群采取最新的Spark技术计算内存,大大降低了原有Hadoop的MapReduce计算模型开发和部署的难度;同时利用Hadoop提供的HDFS分布式文件系统,提供数据的容错性和水平扩展性。分析引擎优化在实践中,一方面,需要根据用户反馈的实际操作来改进引擎;另一方面,也需要测试基准(基准)验证它们的有效性。这个测试基准是一个典型的文件用户案例。建立这样的用户案例的主要考虑因素包括:(1)代表性。典型的文件用户案例主要以“典型”为特征,能够充分反映不同类型的文件用户的特点,用户数量相对合理。(2)反馈。用户的典型用户故事应在档案和档案之间建立充分和及时的信息反馈机制,将实际的档案服务质量、问题及时有效地反馈到真实档案中。(3)可控性。典型的档案用户案例相对于档案应是可控的,这意味着双方应建立良好的相互信任关系。通过对典型用户案例的实际测试和改进,提高了档案用户数据分析引擎的性能。
随着我国社会主义现代化建设的不断发展,我国计算机信息技术已取得了有效的进展。然而,随着信息多元化与多用户模式的出现,传统的计算机信息技术已不能满足人们的需求,开始转向对云计算技术的开发与应用。云计算技术下的大数据用户行为引擎设计,能够跟踪用户,且运行成本低廉,在企业的营销中有着极大的应用价值,值得推广应用。
[1]李钟尉,陈丹丹. 软件开发实战1200例[M]. 北京:清华大学出版社,2011.
[2]谢希仁. 计算机网络[M]. 6版. 北京:电子工业出版社,2013.
[3]施瓦茨,扎伊采夫,特卡琴科. 高性能MySQL[M]. 3版. 北京:电子工业出版社,2013.
Cloud Computing Based Mobile Internet Big Data User Behavior Analysis Engine Design
Zhang Liang Huang Kebin
China Mobile Communications Group Guangdong Co., Ltd., Guangdong Guangzhou 510630
Many degree field of enterprise information equipment manufacturing industry has been high, with a wide variety of business systems analysis reports represented a wide variety of data filled with business, some of the sensor from the machine, from a number of commercial systems, a number of reports from the analysis , There are also external websites and social media. In the face of this data, companies do not have the right tools to manage and analyze them, and the final value of business value is ignored. However, most managers’ daily work and decisions depend on local data for analysis. Therefore, the analysis was designed and implemented a system of Internet user behavior, design the overall framework of the system, the system by the capture module, data analysis module, map data generation module framework and system interface modules, and using the Java programming language. The network user behavior analysis result generated by this system provides a scientific basis for network user management. The arrival of the era of mobile internet big data has brought great challenges to corporate operators. Therefore, in the context of big data, a design scheme for a user behavior analysis engine is proposed, which is conducive to the development of new services for suppliers.
user behavior; behavior analysis; network protocol
TN929.5;TP391.3
A
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!