时间:2024-05-04
陈顺雄 宋 斌
(南京理工大学计算机科学与工程学院 南京 210094)
随着信息技术的不断发展,经济领域开始利用信息化手段促进生产率的提高。数据量呈指数式增长和各种不规则多样的数据加入,一方面可能给企业带来了无穷的财富;另一方面,如果没有合适的自动化分析和数据挖掘工具,除了增加企业的保存和维护费用,企业管理者和决策者往往无所适从。
银行贷款业务种类繁多,服务的对象形式多样且量大,K-means平均分析方法是使用最常见的方法,效率高。本文在大数据并行处理框架下实现K-Means 聚类算法,并实现了面向大数据的并行化,对银行贷款业务具有重要的参考价值。
K-means 算法是当前学术界和工业界非常流行的聚类分析算法。其核心思想是将m 个数据对象根据某种规则划分为k 个不同的聚类,使每个聚类中的特征量到该聚类中心的几何平方和值最小。
K-means 算法通过聚类准则函数Jc 判断每次迭代分类均值是否收敛,该算法可以通过形式化描述如下:
对象集的个数为m,令迭代计数器I=1,选取k个初始聚类中心Zj(I),j=1,2,3,…,k ;
计算每个对象与初始聚类中心的特征距离值,D(xi,Zj(I)),i=1,2,3,…,m ,j=1,2,3,…,k ,如果 满 足D(xi,Zk(I))=min{D(xi,Zj(I))}, j=1,2,3,…,n},则,xi∈wk;
平凡误差聚类和准则函数Jc可以表示为
判断若 |Jc(I)-Jc(I-1) |<ε,则算法中止;否则I=I+1,重新求解k 个新的聚类中心值,Zj(I)=
K-means 算法实现简单,通过距离准则函数控制迭代的终止,因此,能够快速且能够有效处理大数据。但是,算法从所有对象集合中选择的初始k个对象作为初始聚类中心,影响着算法的结果,其主要影响因素有以下几点:
1)聚类个数k的确定;
2)初始聚类中心点的选择;
3)特征变量与距离准则函数的选择。
银行贷款系统是根据企业的发展或个人的需求提供了资金保障,因此,银行贷款系统面向的对象是个人或企业。如何在海量企业或个人日常刷卡或资金周转记录中挖掘发现有用的信息。
1)数据准备和清洗
通过与银行客户经理的沟通,提取部分交易数据作为特征变量。从客户数据库中读取这些数据信息后,需要对数据进行清洗、异常处理和转换等以满足客户层次聚类算法的输入需要。数据清洗手段主要包括:缺失项和无效项的处理、变量值的转换和关键项的提取。一般情况下,使用0 来代替缺失项和无效项。
客户数据格式和精度不一,由于聚类分析采用同样的算法和数值处理精度,变量值的转换是指为了便于采用同一个刻度来描述,对数值类的变量,采用整数来计算,将所有的浮点数转为整数,描述性的指标采用等级方式来描述。
关键项的提取是指由于数据来源的数据库不同,需要采用数据项切片或抽取技术对那些无关紧要的数据进行忽略处理。这种方法可以有效地减低被处理对象的维度,降低分析的复杂度,极大地提高了后期分析的效率。
2)特征变量抽取
从银行交易数据中可以抽取的描述与银行贷款相关的特征变量有根据对象可以分为个人和企业两类。对客户进行描述的特征变量可以分为:分类变量和描述变量。除了银行贷款系统辅助客户经理快速找到放贷客户外,还应该根据需求对贷款客户进行分类。
3)准则函数的制定
个人相关的特征变量可以使用等级进行量化。这些变量距离的含义可以使用两种方式进行描述。一类是区间划分归类的变量,可以通过区间的间隔来作为衡量距离,另一类职业变量的距离如果是使用大类描述,那么按照无职业<蓝领<白领<金领的顺序进行距离测量。对这些个人描述变量进行量化后,可以对这些特征变量进行分类组合,可以得到不同的聚类分层准则函数,分成三各层次组合,为层次聚类算法提供了基础。
企业相关的特征变量也可以使用等级进行量化。对企业描述变量进行量化后,可以对这些特征变量进行分类组合,同样可以得到不同的聚类分层准则函数。
4)聚类参数的选择
将客户分成两类,个人贷款和企业贷款,一方面为聚类算法并行化提供了可能,另一方面,可以不断地细化,将不可能的贷款的客户过滤掉,抽取出优质客户和贷款需求强烈的客户,为精准营销提供了可能。
5)层次聚类算法框架
根据以上几个方面的描述,可以从整体上描述银卡客户层次聚类算法,算法的流程。
输入:n个客户信息对象的数据集
输出:聚类客户对象
(1)参照数据准备和清洗的方法和步骤对数据进行预处理,统一数据项的格式,合并客户数据表,剔除无效项和补齐缺失项,使之符合要求的数据对象On={x1,x2,x3,…,xn};
(2)根据爬行中点法参照初始聚类生成方法查找第一层次的初始聚类k11,k12,…,k19 的中心c11,c12,…,c19;
(3)从On 中剩余的对象中找出分别与初始对象k11,k12,…,k19 距离较小的对象分别加入该聚类中;
(4)计算出新的k11,k12,…,k19 的中心c11,c12,…,c19;
(5)重复迭代步骤(2)~(4),直到准则函数不再变化,表明该层次聚类接受;
(6)重复(2)~(5),分别处理三个层次聚类,输出结果。
K-means 算法在处理海量数据时因其时间复杂度较高往往容易效率低下,处理能力存受限。MapReduce 并行化模式主要思想是:将海量数据对象切割成多个数据集splits,1个处理结点负责处理1 个数据集合和执行Map 映射中的需要计算任务并产生中间数据,中间数据又被其他的处理结点作为输入并行执行Reduce 归约任务,最终得到分析数据。
MapReduce 并行模型中心是Map 和Reduce 函数,一般是由程序员负责编程具体实现,按照一定的映射组合方式将输入键值对<key,value>转变成另一种键值对<key,value>。Map 过程是将多个小数据集解析成一批<key,value>对,计算后产生中间数据列表List(<k2,v2>);Reduce 规约过程将列表对<k2,List(v2)>作为输入,对同属于一个键值key的value值集进一步后续求解,其他并行问题如分布式文件系统、工作调度、容错、存储、并行通信等由MapReduce 运行模式环境进行动态策略性的配置。
随着银行贷款业务的蓬勃发展,各类贷款套餐层出不穷,且需要贷款的人群越越来越多,如何在海量的客户中挖掘分析得到最具贷款需求和有能力还贷的优质客户?通过对经典的K-means 聚类算法进行分析,结合银行贷款行业客户的多样性,尝试银行客户层次聚类算法,并在Map-Reduce 并行模型下实现了面向大数据的并行化。此算法是基于大数据的客户聚类分析技术能够解决精准营销的问题,该模型系统能够辅助一线银行营销人员将精力集中在有需求的客户,重点推销,提高营销的成功率,从而提高银行市场竞争力。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!