时间:2024-05-04
谷丽婧
(晋中信息学院信息工程学院大数据学院 山西省晋中市 223003)
本文所研究建设的移动用户行为分析系统,是以Hadoop构架为基础,针对运营商网络侧进行采集从而生成的大数据,而后针对大数据展开细致化的加工,挖掘并分析其中用户相关的行为属性,构建一个完善的用户行为分析架构,同时针对实际用户行为的运用进行深入探索。本次分析通过理论与实践相结合的方式,希望以综述的基本形式,为大家展示出其中较强的技术性内容,更希望能够为我国社会中各行各业的生存与发展提供强有力的理论数据支撑,为他们制定科学合理的决策与计划提供重要帮助。
从定义上来看,所谓大数据,指的是“所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。”由此不难看出,大数据具有规模庞大、处理速度快、类型多样化以及价值显著等特征。大数据技术的合理运用,可以充分发挥出大数据在帮助决策、探索关联性以及优化流程等方面的重要作用。现阶段的大数据技术当中,可以包括互联网技术、分布式处理、云计算技术以及感知技术等在内的多种技术融合,因此能够更好的达到数据从采集到分析,直至最终结果生成的全流程。如图1所示。
图1:中国移动购物应用市场分析及使用情景分布
狭义来看,移动用户的行为分析指的就是获取并分析处理各种移动应用数据与程序,探寻移动用户在这部分移动平台当中的运用规律,而后讲其他行业与这部分规律进行交融,明确移动用户兴趣偏好,从而为其他行业内企业的决策提供数据帮助。就其主要内容来说,基本可以涵盖着对行为事件、页面点击率、行为路径、用户健康、漏斗模型以及用户画像这六种主要的分析模型,在这六种模型当中,每一种都可以获取不同的行为数据,而这些数据则恰好印证着用户对移动平台的兴趣、回复率、以及倾向等等。当前市场当中也有了越来越多的用户行为统计工具,用来统计用户行为的大量数据,比如常见的百度统计。
就行为分析方法来说,当前主要有五个基本层次,分别为数据采集、分析模型、应对策略、数据存储以及报表创建。其中数据采集是开展任何分析工作的前提条件,要求所采集的数据必须精准、丰富且具有一定时效性。而后需要针对所采集数据进行存储,顺畅用户数据源,构建一个统一的数据存储库,而后统一定义用户行为与属性数据,针对用户行为相关数据内容展开描述,并以此为出发点对背后原因展开分析。用户的行为分析可以是多种维度,所以必须要采取多种多样的分析模型,结合业务场景的不同,灵活的运用分析方法,从而收获最佳的分析结论。
传统行为数据挖掘模式没有较强的大数据收集、分析与处理的能力,服务器的单一性也决定了对大数据进行挖掘与处理不足。首先表现为,单一的数据来源途径与采集模式,致使传统分析模式下的数据采集工作难度较大。而数据采集却是进行分析的首要前提,直接影响着数据分析工作的整体质量,所以需要更加丰富、更加广泛的数据作为依托。其次表现为,传统的行为分析服务与当下的全新大数据技术并不相符,同时也暴露出了越来越多的缺陷。最后还表现为,传统行为分析往往以经验为主,同时数据又没有良好的可靠性,因此分析结果往往是不权威的[1]。
现如今,越来越多企业开始大力引进数据采集和分析处理等重要技术,但是因为在算法不同的情况下,所得成果也各不相同,一部分企业在大数据技术运用过程中,和自身的实际情况不符,在行为数据获取过程中体现不出针对性,从而导致后续各种各样处理问题的发生。现如今行业内相关专业人员,正结合运用场景的不同,对数据挖掘、处理以及分析工作的算法进行了改进,如常见的关联算法等,使得各类大数据技术都有了属于自身独特的优缺点。另外,还有部分企业因为缺少这方面的专业性技术人才,导致尽管企业积极引进了相关先进技术,但是现有的人才队伍往往无法契合所引进的行为数据挖掘与分析方法,这种与分析技术的不契合问题,直接影响着数据结果的正常显示[2]。
当前有多种行为数据分析平台架构,比如Hadoop、Storm/Flink等等。就Hadoop来说,其更加适合于对离线状态下的大数据进行处理,而后者则更加适合对在线状态下的实时型大数据进行处理。同时这些系统平台的不同,其优缺点也各不相同,因此能够满足不同企业需求与运用场景,但同时也导致了用户行为数据分析平台功能上的不健全。另外,还有部分企业当中所采用的平台没有先进的功能模块,在针对平台进行建立分析过程中,因为行为分析具有多样化的模型,而平台却不能满足多样化模型的需要,因此也就不能够完善行为分析与用户画像,无法构建合理指标[3]。
不管是对于数据采集还是展示来说,传统的行为分析模式都具有效率低下且处理效果不良等明显问题,而这些问题的存在也让更多企业开始认识到了大数据技术在企业运营发展中的重要作用,特别是在互联网高度发展的当今社会背景之下,对移动用户行为的分析将是所有企业都需要掌握的技能,这同时也推动了大数据技术在企业服务和管理工作当中的场景运用。对此,首先需要结合企业实际情况,充分考量企业规模与财力,构建一个专属于企业的分析平台。其次需要为企业建立一个多层次的数据分析人才队伍,加速推进企业发展与转型[4]。
在大数据技术当中的挖掘算法,基本就可以划分为以下几种算法:聚类、决策树、关联以及人工神经网络。同时这几种不同的算法分别对应着不同对不同实际问题的解决。其中聚类算法具有能够对数值数据进行处理而不能对文本数据进行处理的特点,一般适用在客户细分的应用场景当中;关联算法具有结果清晰且时间可控的特点,但是一些稀少数据时常被忽视,采取关联分析来探索不同事物之间的密切联系;决策树算法的主要特征为效率高且计算量较小,但是连续性的数据难以处理,因此适用于对规则的探索与预估;人工神经网络算法具有能够更好适应噪声数据的特点,但是计算耗时较长,也容易发生各种失误,所以一般适用于优化算法与模式识别当中。
想要对移动用户行为分析系统的结构加以完善,就需要借助于各种模型,建立一个多层次、全方位的系统结构。针对企业场景应用而言,上述系统架构优势无法满足企业发展的全部需求,所以需要进一步完善现有的系统结构,由此引出了以内存计算为基础的DAG计算引擎,这种结构相较于Hadoop等系统架构来说具有更快的运算速度,能够同时针对多种数据进行处理,因此往往更加适合企业的场景应用,能够以SDK以及数据库为基础,开展数据采集工作,并且具有简单的操作页面,更加有利于用户操作[5]。
Hadoop是一种能够针对海量数据开展分布式处理的一种软件框架。Hadoop系统在大数据处理工作中具有可靠性强、效率高以及可伸缩等优势,对其优势展开分析,可以得到以下内容:
(1)可靠性强。如果计算元素与储存能够发生错误,能够对多个工作副本进行维护,保障可以针对失败节点重新处理;
(2)扩展性高。可以在所有可用计算机的集簇当中进行数据分配,而后完成既定计算任务,这部分集簇能够更便捷的向海量节点扩展;
(3)效率高。可以实现在不同节点之间数据移动的动态化,同时确保不同节点之间的动态平衡;4.容错性高。可以针对数据不同的副本进行自动化存储,同时也可以对失败任务进行自动化的重新分配[6]。
因为本次研究所要构建的系统需要同时面向多种用户,进行多种服务的提供,不同用户都可以借助于本系统来收集自己所需数据,因此必须确保数据信息的安全性。对此,本系统当中为提升安全性,采取了多租户式的管理技术,并针对安全性方面重点改善了以下功能:
(1)资源隔离。对高资源的消耗性任务进行把控,借助于容量调度器,做好资源分配工作,从而确保重点工作内容可以获取重点资源;
(2)数据隔离。将用户数据存储到用户专用的数据库目录当中,除用户外所有未经授权的其他用户,一概无法访问;
(3)安全隔离。确保各个用户与组之间的安全性,确保针对集群所开展的所有操作都属于安全性范畴之内[7]。
为达到多租户支持的根本目的,在本系统设计过程中,需要进行多租户相关架构的配套设置,本次系统是以硬件共享这一架构为基础,向多租户进行应用容器下的集群环境创造,在应用容器内部运行具体应用,从而推动资源和数据之间的高度安全隔离[8]。
结合实际需求,需要满足TB级别的数据采集,主要针对以下类型数据进行采集:
(1)经营数据。包括BSS当中的用户、费用单、服务以及套餐等重要数据;
(2)运营数据。包括OSS当中的服务开通以及资源等重要数据;
(3)管理数据。包括MSS当中的财务与人力等重要数据;
(4)移动DPI数据。主要为互联网访问行为数据,比如手机号码以及访问时长等重要数据;
(5)移动AAA系统数据。主要为用户与行为信息,比如手机号码以及基站位置等重要数据;
五台群金岗库组为一套以火山岩为主的沉积变质岩系。下部以超基性—基性火山喷发开始,主要为拉斑玄武岩,向上有中基性熔岩、凝灰岩、安山岩和安山凝灰岩,上部主要为长石砂岩、粘土质粉砂岩及粘土质岩。该套火山岩经区域变质后,下部岩石为黑云角闪斜长片麻岩、斜长角闪岩夹磁铁石英岩,向上过渡为黑云变粒岩、角闪黑云变粒岩夹浅粒岩。
(6)固网DPI数据。主要为互联网访问行为数据,比如IP地址、访问时长以及cookie等重要数据;
(7)固网AAA系统数据。主要为IP地址与AD账号之间的对应联系;
(8)位置信令数据。主要为用户位置信息数据;
(9)业务平台数据。包括能力、支撑以及产品等类型平台当中的用户各类业务数据[9]。
系统架构主要包括存储层、处理层、管理层以及服务层。
(1)存储层。满足异构的一种存储装置,借助于虚拟化的存储技术,将各种存储装置统一到资源池内部,借助于分布式系统的部署,为上层创造统一化的存储功能;
(2)服务层。主要向ETL平台创造必要的底层功能。其中的任务调度以及流程引擎借助于触发的方式来进行ETL任务的执行,同时满足复杂流程期望的串联与并联。元数据和接入平台之间的服务,创造不同类型的抽取功能;
(3)处理层。这在数据分析平台系统当中属于核心功能,主要包括数据抽取、转换与装载这三个流程,最常见的一种ETL动作涵盖着数据清洗、校验以及关联等,能够满足数据处理在自定义方面的动作;
在本系统设计过程中,为开展任务调度工作,主要选择了分布式的ETL调度框架,能够良好解决以下问题:
(1)支持对多个不同调度节点进行部署,解决了常见的单点故障问题,不论哪一个调度节点发生挂死,都不会对调度任务的正常执行和调度产生直接影响;
(2)实现了可以扩展的调度节点,能够结合实际需求进行调度节点数量的动态化扩展,极大的提升了处理能力;
(3)实现了调度节点在负载上的均衡性,能够在不同调度节点上达到均衡负载的目的,防止出现资源过分集中到某一个调度节点上的现象;
(4)满足了调度工作中“先进先出”的基本原则,但是需要确保工单执行过程中的时序性[11]。
根据相关分析,本次所建设平台系统平均每个月可以采集约59TB的数据。针对数据进行分析结果计算,一般需要由18台服务器来共同完成。
本次所建设平台系统选择使用吉比特网络,将其接入到Hadoop平台当中,在所有节点当中,全部有四端口的吉比特配置,同时还需要分别将两台互相冗余介入到交换机当中,同时借助于网卡聚合这种方式将其接入,从而确保网络接入过程中的安全性与稳定性。针对多台应用的服务系统在运行过程中所出现的负载均衡访问问题,都可以利用DCN接入层当中所部署的负载均衡器来实现[12]。
综上所述,在当前的大数据环境之下,大数据技术应用到各行各业当中已经成为大势所趋,是每一个行业与企业想要立足与激烈的市场竞争环境当中必须要面对的一种创新与变革,对此,在上述内容中,笔者基于Hadoop结构采集运营商网络侧数据,设计了一个充分融合大数据技术的移动用户行为分析系统,针对各种重点技术与平台建设流程展开了探索,致力于将新时期社会发展过程中各行各业内普遍存在的复杂数据信息,变为行业发展的助推器,变为真正的生产力。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!