时间:2024-04-25
张 岩,胡林生
(西安欧亚学院,西安 710065)
随着时代和科技的发展,信息量剧增,大数据一词也越来越火热,TB 级数据已经很常见,PB、EB 级的数据也会成为趋势。在数据科学研究发展的历程中,大型的企业都有自己的数据管理部门、数据管理途径和方法。而一些中小型企业,尤其是中小型金融科技企业,其发展战略侧重于业务的快速发展,在企业运营过程中,忽略了数据的维护和管理。
企业在运营中产生的数据既有结构化的数据,例如企业员工相关信息、企业打卡记录、企业订单、企业仓库管理、客户记录信息、客户信用评价信息等,也有非结构化的数据,包括企业运营日志、文档、照片、音频、视频等。而且这些数据每天都在随着业务的开展而增加和更新,数据量巨大,很多中小型金融科技企业并没有对数据进行规范化的管理。这些数据背后都隐藏着巨大的价值,企业需要建立一个规范化的数据管理平台,既能存储数据,也能加强数据的规范化管理,提高数据的安全性。
随着大数据时代的到来,信息量日益增加,金融科技企业必将产生大数据的存储和分析需求。传统的关系型数据库仅支持结构化数据,可以满足日常企业运维;但对于海量的数据,再加上许多非结构化的数据,传统的关系型数据库已经不能满足存储需求。数据的安全性也非常重要,如果数据仅存在于某个数据库或者某台机器,安全性达不到要求,那么数据的共享程度也不高。为解决这些问题,可以通过在多台大容量Linux服务器上部署Hadoop 大数据平台,搭建HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)分布式集群环境,对数据文件进行分布式处理,能提高数据的存储效率、安全性、可靠性。在Hadoop 大数据平台上,构建Hive 数据仓库,在Hive 数据仓库中对海量结构化数据进行分析,能满足大数据分析的需求。
Hadoop 分布式文件系统是可以运行在N 台通用(廉价)机上的分布式文件系统。HDFS 分布式集群环境就是将分布式文件系统部署在成百上千台服务器组成的集群上,同一个企业不同地区服务器协同工作,能够完成企业日常数据的运维工作。
HDFS 分布式文件系统有如下优势。①支持超大文件的存储,可以存放超大数据集,例如TB 级、PB 级数据的存储。②快速高容错性,HDFS 分布式文件系统部署在N 台服务器,每台服务器都有数据块。集群环境中,硬件故障会导致个别服务器故障,HDFS 分布式文件系统可以进行错误检测,快速并自动恢复数据。③流式数据访问,HDFS 分布式集群环境,通常数据处理规模比较大,应用程序通常以流的形式访问数据集,而不是用户交互式处理。顾名思义,流式数据就是数据流源源不断像水流一样从各个地方汇聚而来。为了保证高吞吐量的数据访问,HDFS 流式读取数据的方式,更适合数据的批处理。④高吞吐量,HDFS 提供对数据的高吞吐量访问,适用于具有海量数据集的应用程序。HDFS 的设计是为了存储大文件,它更注重数据访问的吞吐量。HDFS 采用的是“一次性写,多次读”这种简单的数据一致性模型,有利于提高数据访问吞吐量。
①高性能,克服单一服务器存储数据的困难,例如,某金融科技公司将普通数据服务器更换为2U 四节点分布式集群存储方式,可以提高数据存储容量和性能。②节省空间,部署机架式CPU 集群服务器,可以降低机房空间成本,存储数据也不需要单独放入每台机器;节省的空间可以更多用于金融业务和设计演示场地。③省电优势,刀片设备耗电量比传统模式下,大大降低设备功耗,后期服务器运维的成本也会有所降低。④可扩展性,分布式文件系统是一个高度可用的横向扩展型系统,当随着业务量的增加,数据量越来越多,可以自行增加节点进行管理。⑤易于管理,多台CPU 服务器同时工作,通过CDH 管理界面进行统一部署、管理和维护,更加方便快捷,软件统一维护和升级,不会导致数据存储丢失。
随着互联网金融、大数据的迅速发展,金融行业的竞争也非常激烈,为提高企业办事效率,增强风险预测能力,越来越多的金融公司希望能够降低揽客成本和客户服务成本。此时,金融科技就发挥了重要的作用。
为此,中小型金融科技企业都在努力实施金融科技项目,例如:为提高柜台工作效率,降低各个营业网点业务开通成本,可以通过智能化信息柜台办理相关业务,也可以通过扫描二维码办理相关业务;通过手机客户端进行快速理赔,可以提升用户理赔效率,节省时间和人力成本;通过智能化信贷平台,对用户特征进行分析,构建模型,提升风险评估效率,降低人力投入成本。
在银行、保险行业工作流程中,存款项目、信贷申请、放贷项目、保险和理赔等业务除了在数据库中记录每天的数据交易信息,还会产生大量的非结构化数据,例如,办理相关业务的各自照片和文档记录,很明显会产生海量的图片、文档、音频和视频等非结构化数据,这些数据会随着时间变化,其文件个数都会爆发性增长,对传统的存储系统架构带来新的挑战。为解决这些数据可能存在的问题,需要构建大数据平台对数据进行存储,并能方便快捷的完成数据查询和调取。
Hadoop 生态系统架构(如图1)有三大核心组件:HDFS、MapReduce 和Yarn,分别发挥着各自的功能和作用。其中,HDFS 是分布式文件系统,主要将文件分布式存储在多台服务器上;MapReduce 是并行计算编程框架,其作用主要是在多台服务器上实现并行运算;Yarn 是分布式资源调度平台,主要是帮助用户调度大量的MapReduce 程序,并能够合理地分配分布式运算资源。在Hadoop 生态系统架构中,HDFS 是Hadoop生态系统的分布式文件系统,主要负责数据的切片与分布式存储。HDFS 可以提供高吞吐率的数据访问服务,在超大数据集上的应用最为广泛。
图1 Hadoop 生态系统架构图
HDFS 采用典型的Master/Slave 主从架构。一个HDFS 集群由一个NameNode 和多个DataNode 组成。其中,NameNode是中心服务器,称为名称节点或主节点,主要负责管理文件块的记录和客户端的访问。DataNode 一般是一个节点一个,称为数据节点或从节点,主要负责数据块的创建、复制和存储。
HDFS 分布式文件系统工作流程:
①当用户通过客户端把一个文件存入HDFS 分布式文件系统,HDFS 会对这个文件进行切块,切块后的每个文件都有标识,然后分散存储在负责DataNode 节点的N 台Linux 服务器中;②一旦某个文件被切块存储,那么,HDFS 中的NameNode 会记录用户每一个文件的切块信息,并且会记录每个切块的存储路径;③为确保数据的安全性,HDFS 会把每一个文件块在集群环境中存放多个副本,具体的切块行为,用户可以指定,分布式文件系统默认每个切块存在3 个副本。
综上所述,一个HDFS 分布式文件系统,就是由一台运行了NameNode 的服务器,和N 台运行了DataNode 的服务器组成。Hadoop 集群环境是典型的Master/Slave 结构,其中名字节点NameNode 属于Master,DataNode 属于Slave。
图2 HDFS 存储机制原理图
HDFS 以独特的存储机制,创建了闲置硬件资源共享的经济模式。HDFS 分布式文件系统将大大节省中小型金融科技企业在闲置硬件资源的消耗,可以为企业提供大数据分布式存储平台;HDFS 将开启企业信息数字化的时代,为中小型科技企业提供了一个共享数据平台,中小型金融科技企业HDFS 用户可以实现对企业对全部数据的收集汇总、数据分析以及数据安全存储。
中小型金融科技企业搭建Hadoop 大数据平台,为企业提供了可靠的大数据存储和分析平台。Hadoop 大数据平台对结构化和复杂大数据进行快速、可靠分析,从而为企业做出科学合理的决策,促进收入增长,改善服务,降低成本提供很好的技术支撑。分布式大数据平台促进了中小型金融科技企业发展模式创新,推动了数据产业转型升级,发挥了数据的重要价值,具备应对新时代下海量客户、海量业务统计大数据的能力。新时代互联网场景下,Hadoop 大数据平台为金融科技企业发展提供了扎实的技术保障,金融信息化的运转将更加高效便捷,推动金融科技企业良好发展。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!