当前位置:首页 期刊杂志

数据挖掘技术及其发展

时间:2024-05-18

朱明苑

摘要本文就数据挖掘的定义和功能,数据挖掘系统分类,数据挖掘过程 ,现代数据挖掘技术与其发展以及数据挖掘面临的问题做了分析。

关键词数据挖掘技术数据挖掘系统数据挖掘过程

中图分类号:TP39文献标识码:A

1 引言

近年来,数据挖掘引起了极大关注。数据挖掘能够充分利用了当今服务器的运算能力,将大量数据转换为有用的信息,其利用了来自统计学、人工智能等一些领域的思想,一些其他领域也起到重要的支撑作用。计算机不断增长的物理存储能力和处理能力,使得复杂的数据分析成为可能。为了以种种方法来挖掘数据,理解那些可用的技术,以及对特定的数据存储如何应用这些技术的理解十分重要。

2 数据挖掘的定义和功能

2.1数据挖掘的定义

2.1.1 数据挖掘的技术定义

数据挖掘是指从海量数据中挖掘有用知识。

(1)原始数据可以是结构化或半结构化的,甚至是异构的。

(2)数据挖掘是一门交叉学科,它涉及到了AI、机器学习、统计学、可视化技术等多个学科领域。

2.1.2 数据挖掘的商业定义

(1)数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。

(2)数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

2.2数据挖掘的功能

数据挖掘综合了各个学科技术,有很多的功能。当前的主要功能以及它们可以发现的模式类型如下:

2.2.1概念/类描述:特征化和区分

数据可以与类或者是概念相关联。数据特征化是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集。数据特征的输出可以用多种形式提供。其中包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。 数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。

2.2.2关联规则和序列模式的发现

关联是某种事物发生时其他事物会发生的这样一种联系。规则归纳是数据挖掘的一种主要形式,并且是无教师学习系统中最普遍的知识发现形式。

2.2.3分类和预测

分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。在一些情况下,需要预测某数值属性的值(连续数值),这样的分类就被称为预测。

2.2.4聚类分析

聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。分析数据对象,而不考虑已知的类标记。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。所形成的每个簇可以看作一个对象类,由它可以导出规则。

2.2.5演变分析

数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征化、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

3 数据挖掘系统分类

为帮助正确认识数据挖掘系统并准确有效使用合适的数据挖掘系统解决实际问题,这里将对数据挖掘系统分类标准作详细介绍。一个数据挖掘系统可以按照其所挖掘的数据库类型进行分类:

(1)数据库系统本身就有多个划分标准,这些数据库系统均与各自的数据挖掘技术相对应。因此数据挖掘系统可以按照数据库系统类型进行划分。(2)若根据数据模型进行分类,就会有关系类型、事务类型、面向对象类型、对象关系类型和数据仓库类型等数据挖掘系统。(3)若按照所处理数据类型进行划分,就会有空间数据类型、时序数据类型、文本类型和多媒体类型等数据挖掘系统,或互联网挖掘系统。(4)其他的系统类型还包括:异构数据挖掘系统和历史数据挖掘系统。根据所挖掘的知识进行分类,可以根据所挖掘的知识类型对数据挖掘系统进行分类。

4 数据挖掘的过程

前面讨论了数据挖掘的定义、功能和系统分类,现在关键的问题是如何实施,其一般的过程如下:

般过程包括:定义商业问题—>建立数据挖掘模型—>分析数据—>数据准备—>数据整理—>建立模型—>评价和解释—>实施。

(1)定义商业问题:在开始知识发现之前最先的同时也是最重要的要求就是了解数据和业务问题。必须要对目标有一个清晰明确的定义,即决定到底想干什么。

(2)建立数据挖掘库:建立数据挖掘库包括以下几个步骤:a数据收集;b数据描述;c选择;d数据质量评估和数据清理;e合并与整合;f构建元数据;g加载数据挖掘库;h维护数据挖掘库。

(3)分析数据:分析的目的是找到对预测输出影响最大的数据字段,和决定是否需要定义导出字段。如果数据集包含成百上千的字段,那么浏览分析这些数据将是一件非常耗时和累人的事情,这时需要选择一个具有好的界面和功能强大的工具软件来协助你完成这些事情。

(4)数据准备:获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库。

(5)数据整理:由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。

(6)建立模型:建立模型是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对面对的商业问题最有用。先用一部分数据建立模型,然后再用剩下的数据来测试和验证这个得到的模型。有时还有第三个数据集,称为验证集,因为测试集可能受模型的特性的影响,这时需要一个独立的数据集来验证模型的准确性。

(7)评价和解释:模型建立好之后,必须评价得到结果、解释模型的价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,需要进一步了解错误的类型和由此带来的相关费用的多少。经验证有效的模型并不一定是正确的模型。因此直接在现实世界中测试模型很重要。先在小范圍内应用,取得测试数据,觉得满意之后再向大范围推广。

(8)实施:模型建立并经验证之后,可以有两种主要的使用方法。第一种是提供给分析人员做参考;另一种是把此模型应用到不同的数据集上。

以上的步骤不是一次完成的,可能其中某些步骤或者全部要反复进行。每一个数据挖掘过程模型都随着社会发展、人们需求的改变而不断发展。

5 现代数据挖掘技术与其发展

现代数据挖掘技术是指20世纪80年代末所出现的数据挖掘技术,从数据仓库中提取人们感兴趣的、事先不知的、隐含在数据中的信息和知识。

数据挖掘中的现代挖掘技术按其不同的技术特点,可以分成规则型、决策树型、神经网络、遗传算法、粗糙集等多种技术。下面主要阐述一下规则型和决策树型技术。

5.1规则型

规则归纳是数据挖掘的一种主要形式,并且是无教师学习系统中最普遍的知识发现形式。关联分析的目的是为了挖掘隐藏在数据间的相互关系,即对于给定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性。项目之间的相关性用关联规则来描述,关联规则反映了一组数据项之间的密切程度或关系。

5.2决策树型

a.决策树又称为判定树,是运用于分类的一种树结构。其中的每个内部结点代表对某个属性的一次测试,每条边代表一个测试结果,叶结点代表某个类或者类的分布,最上面的结点是根结点。

b.ID3算法是分类规则挖掘算法中最有影响的算法。ID3即决策树归纳。早期的ID算法只能就两类数据进行挖掘;经过改进后,现在ID算法可以挖掘多类数据。待挖掘的数据必须是不矛盾的、一致的,也就是说,对具有相同属性的数据,其对应的类必须是唯一的。在ID3算法挖掘后,分类规则由决策树来表示。

6 数据挖掘的主要问题

数据挖掘技术在社会生活中得到充分运用,但也面临诸多问题:

(1)在数据库中挖掘不同类型的知识 :由于不同的用户可能对不同类型的知识感兴趣,数据挖掘系统应当覆盖范围很广的数据分析和知识发现任务。这些任务可能以不同的方式使用相同的数据库,并需要开发大量数据挖掘技术。

(2) 多个抽象层的交互知识挖掘 :由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的。对于包含大量数据的数据库,应当使用适当的抽样技术,进行交互式数据探查。交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求。

(3)结合背景知识:需要使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式在不同的抽象层表示。

(4)数据挖掘查询语言和特定的数据挖掘:关系查询语言允许用户提出特定的数据检索查询。类似地,需要开发高级数据挖掘查询语言,使得用户通过说明分析任务的相关数据集、领域知识、所挖掘的数据类型、被发现的模式必须满足的条件和约束,描述特定的数据挖掘任务。

(5)数据挖掘结果的表示和显示 :发现的知识应当用高级语言、可视化表示或其他表示形式表示,使得知识易于理解,能够直接被人们使用。如果数据挖掘系统是交互的,这一点尤为重要。

7结束语

在数据库日益庞大的今天,利用数据挖掘从数据仓库中提取自己感兴趣的知识,可最终为决策发现提供有效的支持,对社会经济等方面发展起到关键作用。数据挖掘是从海量的数据中发现有用的知识,将大大提高我们的工作效率和决策的准确性。数据挖掘技术仍未形成统一理论,许多问题在实践上的可行性不够,有待进一步发展与研究。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!