时间:2024-05-18
彭 昭,董 斌,杨 迪,马怡安/Peng Zhao,Dong Bin,Yang Di,Ma Yi’an
(中国电信股份有限公司上海研究院 上海 200122)
(Shanghai Research Institute of China Telecom Co.,Ltd.,Shanghai 200122,China)
随着移动互联网技术和智能终端的发展,创新应用层出不穷,用户的数据和行为所蕴含的价值也越发凸显,这些数据通过合理的挖掘和分析可以为转变运营模式带来惊人的新视角和新机遇。如何挖掘这些数据,在数据大爆炸的场景下面临着技术与商业的双重挑战。大数据的目标是追求数据价值的最大化,必须从海量的数据资源中抽取信息并进行分析挖掘,为构建上述能力,企业需要搭建数据的采集、抽取、清洗、挖掘、分析、统计等环节的大数据平台。
大数据PaaS借鉴云计算PaaS的理念,旨在将大数据服务能力和工具平台化、服务化,结合云基础资源租用和大数据能力开放,为企业提供一站式的大数据端到端解决方案,企业可直接使用或二次开发大数据PaaS平台提供的服务,便捷地搭建高性能、高可靠的大数据应用平台,并可将数据共享给第三方,无需考虑底层硬件与运行环境的搭建和调试。大数据PaaS平台可以为电信运营商汇聚高质量的合作伙伴和大数据的运营经验,为打造全新的大数据生态价值链提供有益的尝试。
大数据PaaS平台面向的服务对象是政企行业用户,提供大数据资源和服务组件两种服务,为用户的数据抽取、存储、分析、呈现提供一站式解决方案。通过云资源构建大数据应用运行环境,利用Hadoop搭建大数据资源池,通过工具服务组件化提供大数据PaaS服务。
大数据PaaS服务按服务深度大致可以分成两种。
(1)提供基础资源的租用服务
大数据PaaS平台为用户提供大数据集群和云资源,用户可以自行部署大数据应用和相关ETL工具、分析工具等。根据大数据集群安全性要求,提供的大数据集群可以是物理机、虚拟机等不同纬度。此种场景适用于具备一定大数据开发技术,或者已经完成有大数据相关应用和服务的用户。
(2)在基础资源租用服务的基础上提供大数据工具组件服务
大数据PaaS平台为用户提供基础的大数据集群和云资源,在该资源上部署定制化的运行环境和服务组件,用户只需关注数据导入、清洗、分析的类型,无需考虑环境与工具的部署与安装。此种场景适用于使用大数据服务和工具分析自己数据的用户。
大数据PaaS平台结合大数据技术与PaaS理念,充分发挥资源和大数据的服务价值,将面向大数据的采集、存储、分析等工具服务化,为用户提供大数据的平台服务。平台通过大数据组件构建面向用户个性化的大数据分析平台,降低企业部署大数据的门槛和成本。
大数据PaaS平台的系统框架如图1所示,主要分为门户层、服务层、组件层、资源层和管理层。
①门户层:平台服务与用户的交互界面,面向用户提供大数据资源申请、维护功能;面向平台管理员提供平台用户、服务、资源等管理功能;面向开发者提供平台使用和大数据技术交流功能。
②服务层:将大数据平台提供的存储资源、运行环境、大数据组件打包成面向多租户的服务,用户通过门户直接调用这些资源和服务即可搭建简单的大数据分析平台,也可基于此层进行二次开发实现更加负载的功能服务。
③组件层:将大数据3个重要环节涉及的工具服务组件化,可灵活地配置到各大数据服务集群,也可以作为大数据能力对外开放。
④资源层:提供大数据应用或者调用大数据应用的存储和运行基础资源。
⑤管理层:实现大数据PaaS平台的用户管理、服务管理、组件管理、资源管理和运维管理。
大数据PaaS平台不仅提供大数据服务能力,还通过服务的集成实现大数据服务的端到端一站式服务,其涉及的关键技术包括以下4种。
(1)大数据平台与组件的自动部署服务
平台对基础资源进行统一管控,根据用户的网络环境、资源配置、工具版本等要求分配资源和运行环境,保证大数据资源和平台能够自动化部署并服从平台集中管理。针对主流大数据服务组件,如HDFS、Hive、HBase、YARN、内存迭代、流式处理等的自动安装、部署和注册,确保组件动态增加。
(2)多租户隔离服务
平台支持多租户模式下的资源和组件调度,为用户提供数据采集、存储、分析等大数据服务,因此,不同用户之间的数据相互隔离值得考虑。平台采用安全组机制为不同的用户配置相应的安全组,对应用或组件进行网络访问的权限限制,保障各租户数据的隔离和安全以及处理任务的相对独立、互不影响。
(3)数据挖掘与分析服务
数据分析是大数据价值链的最后也是最重要的阶段,是大数据的价值体现,提供论断建议或支持决策。通过模型算法管理和调度引擎,从大量的、不完全的、有噪声的、随机的数据中挖掘出有潜在价值的数据。平台集成开源或第三方挖掘工具,支持回归分析法、决策树算法、聚类分析、关联分析等方法,面向用户提供大数据建模分析服务。
(4)组件发布服务
大数据PaaS平台支持服务提供商或大数据应用开发者在平台上发布自有服务。服务发布后,服务提供商或开发者能够查询发布的服务信息、使用统计等。大数据应用开发者能够查询可用的服务列表并进行订购,可直接使用该服务或者基于该组件服务开放的API进行二次开发。通过持续不断的大数据组件服务迭代开发与发布,丰富大数据PaaS平台的服务类型和范围。
电信运营商在大数据时代需要实现商业模式转型,在资源与业务运营的过程中感知用户特征数据,通过数据采集、挖掘、分析服务整合形成大数据能力和资产,并在此基础上构建面向大数据服务的开放平台,向第三方开放共享资源和大数据服务,打造大数据价值链仍面临挑战。
大数据PaaS平台是基于PaaS云平台服务理念构建的大数据服务平台,随着大数据服务的深入研究,平台提供的大数据组件化服务会更加丰富,这对大数据PaaS平台的架构提出了可扩展性要求。PaaS平台与大数据服务组件采用松耦合的方式集成,通过采用中间件服务的方式,为大数据应用开发或大数据平台搭建企业,提供快速构建平台应用的各种基础中间件服务。同时引入服务发布渠道,将服务提供商或开发者开发的大数据应用以开放或服务的方式接入平台,快速扩展大数据PaaS平台的服务仓库。
大数据PaaS平台降低了大数据平台搭建和组件服务使用的门槛,但平台最终输出有潜在价值的数据才是大数据的目标。有价值的数据资产如何用于指导业务创新,或者通过不同用户的数据资产组合衍生更多创新需求是值得研究的课题。不同用户的大数据资源共享是前提。面向不同大数据集群的数据,平台可考虑增加数据导出接口,想要共享数据的用户可以有限制地将部分或全部数据分享给第三方签约用户。面向同一大数据集群的数据,通过用户组的权限访问,并考虑采用一些授权机制确保数据之间的交互。
虽然大数据应用面临许多挑战,目前很多研究、技术甚至应用仍处于初期阶段。通过构建大数据开发社区,汇聚大数据开发者和服务提供商,并引入“众包”理念将需要部署大数据平台或应用的企业和开发者汇聚在平台上,在大数据PaaS平台服务介绍的基础上为其提供更多的社区活动和服务,打造整个大数据价值链。让企业能够在社区找到大数据平台建设方案,让开发者能够在社区找到大数据应用开发需求,让大数据服务提供商能够推介服务,实现大数据价值链的多方共赢。
数据安全是大数据的基础。大数据的数据隔离分为静态和动态。静态数据即用户导入平台存储的基本数据;动态数据即在数据清洗、挖掘、分析等过程中产生的动态数据。为了保证这两种数据的隔离,大数据PaaS平台可为每个用户建立独立的数据库来存放数据,实现数据的物理隔离,同时为每个用户单独分配基础设施资源和平台服务,确保用户之间的数据在物理上进行隔离。此外,大数据PaaS平台对于数据库共享方式下的用户数据进行隔离,应考虑为每个用户设定数据访问权限和操作权限,实现多层级角色管理,确保用户的资源和数据不会被非法访问。
挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行有针对性的调整和优化,这就是大数据的价值。大数据时代的到来,给电信运营商带来了巨大的机遇和挑战。基于运营商的服务资源,打造大数据的生态价值体系,聚合大数据服务提供商、大数据应用企业和大数据应用开发者,以高质量、高可靠的大数据能力与组件服务,实现大数据服务的推广与拓展,最终实现运营商与合作伙伴的多方共赢。
[1] 童晓渝,张云勇,房秉毅等.大数据时代电信运营商的机遇[J].信息通信技术,2013.5-9.
[2] 张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(z2):216-233.
[3] 彭昭,陆玉兰,魏民等.电信运营商PaaS云技术发展研究[A]. 2012全国无线及移动通信学术大会[C].2012.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!