不同的数据挖掘方法分类对比研究

时间：2024-05-04

王学颖+王金凤+张燕丽

摘要：空间数据挖掘存在于空间数据库中，而且大部分情况下可能是隐式的。文中描述了数据挖掘的几个聚类方法——分类、聚类、半监督、关联分析。为此，在文中，基于一定的问题分析对这四个聚类方法做了一定的描述。因为有些数据需要对其未来行为趋势做估计，因此，需要一定的数据挖掘方法对其进行统计与分析。

关键词：空间数据挖掘；聚类方法；半监督；关联分析

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）04-0017-02

A comparative Study with Different Data Mining Classification Methods

WANG Xue-ying， WANG Jin-feng， ZHANG Yan-li

（Software College， Shenyang Normal University， Shenyang 110034 China）

Abstract： Spatial data mining may be the implicit existence in spatial database. In this article， we explore several clustering methods — classification， clustering， semi-supervised， association analysis. So， we make analysis for this four methods in this article. On account of the fact that some data need to be evaluated for its behavior trend. Therefore， it requires some data mining methods to analyze and count.

Key words： spatial data mining； clustering method； semi-supervised； association analysis

数据挖掘[1-3]处理过程包括搜索，选择，探索以及大量数据的建模为发现潜在有用、从大的数据库中最终可以理解的模式。数据挖掘的目标就是把数据变为有用的知识。模式提取在数据挖掘技术中是一种非常重要的过程，它指的是数据子集之间的某些关系。

数据挖掘使用不同的计算、数据和机器学习的一些方法，其中机器学习包括数据分析[4，5]，决策树[6-8]，神经网络[9-11]，规则归纳[12，13]和提炼[14]和图形可视化[15]等，目的就是详尽探索数据显示可能存在的复杂关系。尽管机器学习已经被使用很长时间了，但是先进技术发展和友好的工具对于商业智能来说令数据挖掘更具吸引力和实用价值。当这些模式提取技术被正确使用的时候，从数据中提取有用的信息，使得它们成为非常有效的工具。

最近时间以来，数据挖掘技术的广泛使用是由于以下几方面原因：最明显的因素就是人员在运营事务中收集大量的数据，在早期的90年代，信用卡和保险公司使用数据挖掘作为一个检测欺诈行为的工具。在很多组织中，不管什么类型的行业里，都需要在某种形式的操作过程中收集大量的数据。例如，零售行业多年来一直使用数据挖掘技术来预测他们的客户可能会购买什么东西。电子商务也是最新使用数据挖掘技术之一的行业。

电子商务是一种基于网络平台来分享商业信息、维持商业关系、进行商业交易的一种信息交流技术的使用。在电子商务中，不同的数据挖掘技术可以为不同目的而使用。例如，在促销时候，营销员工可能希望找出哪些产品顾客更倾向于购买，这些信息将允许他们把这些项目放在销售包好的地方来增加收入。Web日志数据的使用许可来理解用户的行为。这些数据包含使用者的权限以及可能在行为中展示的潜在模式，并确定电子商务的潜在客户的信息。这些信息作用于：改变市场策略、确定顾客划分、提高顾客保留力、预测顾客消费和市场趋势、对顾客提供个人服务、分析购物车、预测销售额、重新设计网站来提供一个很好的服务甚至做一些更好的商业决定。数据挖掘方面引起了Web挖掘技术的产生，它是一种可以细分网页内容，网页结构网页使用的技术，这种技术也可以提取有用的信息从Web文档中，现在也得到了广泛的应用。

正如我们上面描述的，数据挖掘特别是Web数据挖掘技术在电子商务中扮演一个重要的角色。近年来电子商务的快速增长，通过运营事务收集大量数据的数据挖掘技术越来越成为发现和理解未知的客户模式重要方式。在接下来，简要描述的一些示例数据挖掘在电子商务中的应用。

集群或分组电子商务客户具有相似浏览行为，允许他们有共同的识别特征，给客户提供一个更好的理解，目的是给他们一个更合适的，和个性化的服务。当供应商知道客户的需求和利益，他们可以提供更好的服务，保持客户与供应商的关系

1 挖掘的模式类型

机器学习是一个成熟的计算机科学领域来研究计算机在数据中是如何学习模式和规律。另一方面，数据挖掘是由一个人执行的一个特定的目标。通常来说，这个人使用一或者多个在机器学习领域创建的模式识别算法，处理的数据是大量的，有可能存在一些缺陷，如缺失数据、与基数相比是高维度。数据挖掘可以根据不同家庭问题解决情况而被组织。这些问题包括把条目分成已知的类别，根据相似性进行分组，从交易中发现关联规则，确定典型的数据，预测一个连续变量等。

2 分类

在数据挖掘中，经常假设数据存在数字形式类似于一个大表格。某人可能想要预测一个特定属性的值（一个电子表格中的特定列），当这个属性，有时也称为类属性，包括一个有限数目的离散元素，在这类问题中，需要把这些数据建立一个数学模型，此模型获得一个新实例类的信息，而这个类时未知的，模型就会产生一个相应策略的估计，我们的任务就是尽可能正确的执行这一评估。

在机器学习中，分类是监督学习（实例或物品被分配到一些预定义的类别中）的一种形式。正式的来说，数据分类是一个从实例集合（提前知道的一种训练集）建立的数学函数。实例的种类包含在一个矩阵中，分类背后的基本思想就是潜在的功能模式和各自的类别有关。但是，数学函数对于我们是未知的，而且需要从另外一个模式和它的类中建立另外一个函数来估计原函数。目前，数据分类的用途主要表现在社交网络分类，信用评估，欺诈检测，网页挖掘等。

3 聚类

即使有时我们渴望分类元素的类别是不可用的，与数据分类相比，从学习的角度讲，这个问题称为数据聚类并代表一个更具挑战性的任务。数学模型接收不包含标签的数据，通过检查他们的相似之处来推断组元素，那么输出就是估计的类成员。与分类问题相反的是，聚类是不同的组被创建。目标是收集类似的实例并放在同一组，同时，分配给不同的群体的元素是不同的。这种类型的学习有时被称为无监督学习，因为缺少老师的作用正确的类标签的一个特定模式。

4 半监督分类

分类是监督学习的一种特殊例子，假设定义良好的训练集的知识有一个所有训练样本的身份清晰的规范，近年来，一个独特的和有趣的学习模式出现了就是半监督式学习，同时这种模式结合标记和未标记实例进行分类，这个特定类型的分类器不需要每个样本的类标签规范。通常这种类型的学习出现在许多可用的情况下，但只有少数人拥有标签因为收购的成本很高。在这种情况下，一种普遍的学习方式就是执行一个类聚类机制，分配训练样本成不同的组，随后，使用已知类身份的训练集把一个类标签分配给每个小组。给定一个聚类算法，A是标签集，B是未标记的实例集，C是半监督学习算法，D是先聚类后标记的一种方法。首先，使用聚类算法A确定输入多样化的类；第二，确定哪些标记的样品下降到每个类中。对于每个集群，基于监督算法C确定决定界，这个被标记的样品将会被分配到那个类中，反而，这个类允许每个的标签进行预测。最后，半监督分类方法就被很好的应用到在线评估中。

5 关联分析

研究数据挖掘中的另一个主要问题是关联分析。数据是符合交易规则的，账单包括了从杂货店购买的产品列表。数据的性质是独一无二的：物品不一定在两个账单中重复。但是通常人们购买趋势倾向于类似的表现。关联分析试图发现这些趋势，一个著名的例子就是在杂货店账单尿布和啤酒之间的关系。像这样的一种信息提供了一种有用的价值。如果你想知道有人会买啤酒和尿布你可以把它们放在一起，或将它们放在相反的角落，增加客户会看到其他产品的概率。

关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放人其购物篮中的不同商品之间的联系，分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买，这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。

6 结束语

文中首先对聚类分析做了简单的说明并描述了一些基本的问题，还提供了一些聚类方法，文中对聚类、分类、半监督学习以及关联分析做出了一定的描述，在以后数据挖掘中有助于读者更好地把握这些概念，并能应用到实际作用中。

参考文献：

[1] 周海燕. 空间数据挖掘的研究[D].郑州：中国人民解放军信息工程大学，2003.

[2] 王海起，王劲峰. 空间数据挖掘技术研究进展[J]. 地理与地理信息科学，2005（4）：6-10.

[3] 孙志伟，赵政. SOFM神经网络在处理非空间属性中的应用[J]. 计算机应用，2006，11：2667-2669+2673.

[4] 覃雄派，王会举，杜小勇，等. 大数据分析——RDBMS与MapReduce的竞争与共生[J]. 软件学报，2012（1）：32-45.

[5] 栾文鹏，余贻鑫，王兵. AMI数据分析方法[J]. 中国电机工程学报，2015（1）：29-36.

[6] Tianhua Liu，Shoulin Yin.An improved k-means clustering algorithm for Kalman filter[J].ICIC Express Letters Part B： Applications，2015， 6（10）：2687-2692.

[7] 徐金宝. 核函数在划分聚类中的应用与实现[J]. 电脑知识与技术，2013（27）：6185-6188.

[8] 殷守林，刘天华，李航. 基于模拟退火算法的卡尔曼滤波在室内定位中的应用研究[J]. 沈阳师范大学学报：自然科学版，2015（1）：86-90.

[9] 唐守军. 基于子图分割和 BP 神经网络的人脸识别方法[J]. 电子技术与软件工程，2015（5）：111.

[10] 赵文秀，张晓丽，李国会. 基于随机森林和RBF神经网络的长期径流预报[J]. 人民黄河，2015（2）：10-12.

[11] 黄煜坤. 基于BP神经网络算法的入侵检测技术[J]. 电子测试，2015（5）：60-62.

[12] 石倩，陈荣，鲁明羽. 基于规则归纳的信息抽取系统实现[J]. 计算机工程与应用，2008（21）：166-170.

[13] 李婷，崔杜武. 基于规则归纳的遗传算法选择和参数设置[J]. 计算机工程，2010（3）：218-220，223.

[14] 沈瑾，王丽亚，隆惠君，等. 基于神经网络规则抽取的产品服务配置规则获取[J]. 工业工程与管理，2012（3）：66-73.

[15] 范彦斌，杨彭基. 有限元分析计算结果的计算机图形可视化显示[J]. 计算机辅助设计与图形学学报，1995（1）：11-16.