当前位置:首页 期刊杂志

面向大数据处理的划分聚类新方法

时间:2024-05-04

陈硒

中南大学湘雅二医院信息网络中心

面向大数据处理的划分聚类新方法

陈硒

中南大学湘雅二医院信息网络中心

在大数据处理中,在物联网的研究和应用上还存在许多的难题,而且常用的聚类方法在大数据处理上还有许多不适应的地方。因此,需要我们提出一些新的划分聚类的方法。我们可以利用大数据的抽样技术,对多次进行抽取的大规模样本进行聚类,然后来确定其自然簇质心的初始位置。本文重点和大家分析和研究一下关于面向大数据的划分聚类新方法的有关问题。

大数据 划分聚类 抽样 质心

聚类分析是指将物理或抽象对象的集合分组为由类似对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

1 大数据概述

1.1 大数据的定义

大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

1.2 大数据的发展趋势

大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。此外,在不久的将来数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。

2 划分聚类方法

划分聚类是指给定一个有N个元组或者纪录的数据集,用分裂法构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:每一个分组至少包含一个数据纪录;每一个数据纪录属于且仅属于一个分组。

对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。

大部分划分方法是基于距离的。给定要构建的分区数k,划分方法首先创建一个初始化划分。然后,它采用一种迭代的重定位技术,通过把对象从一个组移动到另一个组来进行划分。一个好的划分的一般准备是:同一个簇中的对象尽可能相互接近或相关,而不同的簇中的对象尽可能远离或不同。还有许多评判划分质量的其他准则。传统的划分方法可以扩展到子空间聚类,而不是搜索整个数据空间。当存在很多属性并且数据稀疏时,这是有用的。为了达到全局最优,基于划分的聚类可能需要穷举所有可能的划分,计算量极大。实际上,大多数应用都采用了流行的启发式方法,如k-均值和k-中心算法,渐近的提高聚类质量,逼近局部最优解。这些启发式聚类方法很适合发现中小规模的数据库中小规模的数据库中的球状簇。为了发现具有复杂形状的簇和对超大型数据集进行聚类,需要进一步扩展基于划分的方法。

使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。

3 在大数据环境下聚类分析的应用

3.1 在商业方面的应用

聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。

3.2 在生物工程方面的应用

聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识,增强人们对生物的形成、演变和进化了解和认知。

3.3 在地理方面的应用

聚类能够帮助在地球中被观察的数据库商趋于的相似性,合一利用其进行天气气候的分析,以及地质构造和地壳运动的推演和预测。

3.4 在商业方面的应用

聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组。在电子商务中网站建设数据挖掘中也有很重要的应用,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。

4 结束语

大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统。而今,面向大数据的划分种类的方法和系统的也已经确立,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。

[1]陈宁,陈安.基于密度的增量式网格聚类算法[J].软件学报,2002,13(1):1-7

[2]刘铭,王晓龙,刘远超.一种大规模高维数据快速聚类算法[J].自动化学报,2009,35(7):859-866

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!