当前位置:首页 期刊杂志

基于大数据Hadoop 的企业财务管理系统研究

时间:2024-05-04

娄德涵,杨江海,邓海生

(西京学院,陕西西安,710123)

1 绪论

■1.1 研究背景和意义

在计算机网络技术应用于企业办公初期时,企业的财务管理都是通过手动输入等若干道流程进行的,随着现代社会高效率、高要求的节奏下,传统的财务信息管理效率显得十分低下。因此财务信息必须实现信息化、流程化管理,于是设计一种新的财务系统是至关重要的,企业财务管理系统就是一种能够胜任企业各自财务管理需求的财务管理系统。

■1.2 国内外研究现状

当前社会发展日新月异,人们追求创新的思想越发强烈,管理方式也随之要创新,利用先进技术转变企业财务管理模式,提高企业财务管理效率进入一个跨越式发展阶段。由于系统平台的演变、数据库的升级,通过数据库系统的管理分析,向着功能丰富、分析能力强大、支持面广的方向发展,演化成ERP 管理系统。财务软件从开始到如今经历了5 个阶段[1],如表1 所示。

表1 国内外财务系统发展阶段

2 相关的理论及技术

■2.1 大数据特点

大数据主要有六大特点:海量的容量、数据种类繁杂多样、时效性高、可变性高、数据质量高、寻求高质量的价值。

■2.2 大数据相关技术

(1)Hadoop 生态系统

①HDFS:一种分布式文件系统,具有高容错性、高吞吐量等特点,非常适合大规模数据集上的应用。②MapReduce:一个计算系统,将任务分为“Map(映射)”与“Reduce(规约)”阶段,具有分布式并行处理的热点,因此能快速访问数据。③Hbase:用于快速访问NoSQL数据库的工具。④Zookeeper:用于管理Hadoop 集群,协调分布式服务。⑤Pig:一个数据分析引擎,相当于一个翻译器,将Pig Latin 语句翻译成MapReduce 程序 。⑥Hive:一个数据库框架,可以将结构化的数据文件转化为数据库表,并提供类SQL 查询功能,将用户编写SQL 语句转换为 MapReduce 任务运行。⑦Sqoop:一个数据库工具,主要用于NoSQL 数据与传统的数据库之间的数据交互。⑧Flume:一个日志收集系统,具有高效率、高可靠性等特点。

(2)NoSQL

NoSQL为非关系型的数据库,它具有扩展性高、容量大,高性能、可共享、灵活性高等优点,可以解决海量、复杂数据带来的各种挑战,尤其是大数据应用问题。

■2.3 数据挖掘

数据挖掘方法按照不同挖掘角度来分类,以下为几种常见的数据挖掘方法。

关联规则,反映一个事物与其他事物之间存在某种关联,通过这种关联挖掘出有价值的数据项。

分类,通过算法找出数据库中的数据对象中存在的特点,然后按照规定特点进行组合分类,将数据库的数据分类到某个给定的类中,主要用于数据预测、特征分析。

聚类,将数据根据相似性进行分类,同一类中的相似性尽可能大,不同的类中的相似性尽可能小。

回归分析,将数据的属性值因时间的变化而存在某种联系,将其联系的特征映射到实际预测的函数上,分析其数据间存在的关系,主要应用于数据序列的特征预测与分析。

3 基于大数据的企业财务管理系统的设计分析

■3.1 总体技术架构设计

系统的总体架构分为三层:大数据并行分析层、大数据并行处理层、数据存储层,大数据并行处理层解决快速和时效性要求,大数据分析层分析数据提取价值,数据存储层存储海量复杂类型数据[2]。总体技术框架如图1 所示。

图1 总体技术架构图

■3.2 数据存储结构设计

NoSQL 分为两种结构,主从结构和环形结构。主从结构的优点为结构简单、可控性好、低负载,缺点为主节点易成为瓶颈。环形结构优点为无主节点、各节点自协调性好,扩展性高、负载均衡性好,缺点为结构复杂、可控性差、范围查询较差。在企业财务系统中,应综合考虑两者的优缺点,根据企业规模合理做出选择。在对企业财务现状分析以及大数据研究的基础上,设计了新的财务大数据预处理模型,建立了以Hadoop 生态和NoSQL 存储系统为核心的财务数据预处理平台。

图2 NoSQL 存储流程图

4 基于大数据企业财务管理系统关键性算法研究

■4.1 基于K-MEANS 的数据分析算法

K-means 算法的基本思想为,事先设定一个参数k,即将数据分为k 类且随机选择的初始聚类中心也为k 个,计算每个元素到k 个聚类中心的距离,将距离最短的那个元素归为其聚类中心一类中。当所有元素都分配到所属的类中,所有聚类中心将重新计算,重复以上步骤,直到聚类准则函数收敛为止[3]。

■4.2 基于Canopy 的数据分析算法

Canopy 算法是一种专门处理海量多样化数据的聚类算法,因其不需要事先设定聚类参数,通常用Canopy 算法对数据进行初步处理,达到数据“粗”聚类效果,再运用其他算法对数据进一步处理。Canopy 算法思想为[4]:

①随机两个阈值T1、T2(T1<T2)作为参考值,初始化聚类中心为数据集中任意元素,其他元素到聚类中心的距离小于T2,则将其元素与聚类中心归为一类。

②在距离大于T2 的元素中,任意选择一个作为新的聚类中心,重复步骤1,当存在元素曾属于某个类时且距离小于其某个类中T1 时,则排除改元素。

③重复以上步骤,直到数据集为空。

■4.3 基 于Map-Reduce 的Canopy+K-means 算法研究

K-means 算法虽然效率高,聚类参数的随机性与初始聚类中心的不确定性是K-means 算法的两个缺点,因此会导致聚类最优值不稳定。为了提高聚类效果的稳定性与准确性,提出了Canopy+K-means 算法[5]。利用Canopy 算法对数据粗处理,处理后的数据作为K-means 的初始数据,可以解决K-means 存在的问题,提高了K-means 算法的效率。为了提高Canopy+K-means 算法的工作效率,采用与Hadoop 生态Map-Reduce 框架相结合,多服务器部署提高进一步提高算法的时效性,也是企业财务管理系统的核心。执行过程主要为两个阶段:

①Canopy 聚类阶段:map 过程将数据集分组,对每个组分别利用Canopy 算法聚类,得到多个Canopy 聚类。Reduce 过程将多个Canopy 中心合并为一组,重新进行Canopy 聚类得到新的Canopy 中心。

②K-means 聚类阶段:Canopy 中心作为K-means 初始化聚类中心,Map-Reduce 中的一次任务就是K-means一次迭代。Map-Reduce 中Map 函数记录每次样本元素到聚类中心得距离与每次聚类结果,再通过Reduce 函数来重新计算。重复步骤,直到聚类结果最为收敛、最为稳定,执行流程如图3 所示。

图3 系统算法执行流程图

5 实验

为了验证基于Hadoop 改进的Canopy+K-means算法的有效性,本文选取两个数据集,与传统的Canopy+K-means、K-means 算法进行对比,并基于DB、SC、AMI 等聚类评价指标评价聚类效果[6]。

表2 聚类评价指标

从表3 和表4 可以看出,无论是DB、SC、AMI、ARI还是JC、TD,Canopy+K-means 算法的聚类效果要明显优于K-means 算法。K-means 算法需要事先设定参数k,而优化后的算法无需事先设定k 值,但却可以得到更好的初始聚类中心点,从而得到更真实的聚类结果,并且与Hadoop 相结合的Canopy+K-means 聚类效果更优于传统Canopy+K-means 算法。

表3 设定K-means簇数为5时聚类效果评价

表4 设定K-means簇数为10时聚类效果评价

6 结论

本文针对传统K-means 算法在聚类时需事先设定确定参数k 和无法确定初始聚类中心的问题,通过 Canopy 算法对K-means 算法进行优化并与大数据平台Hadoop 结合,将其应用于企业财务管理系统中;阐述了Canopy、K-means与Canopy+K-means 算法思想,以及基于Hadoop 中Map-Reduce 框架下的聚类步骤,并通过实验分析了基于该算法进行财务信息聚类,相较于传统K-means有更好的聚类效果。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!