数据挖掘的发展及功能概述

时间：2024-04-25

张东泽

摘要：数据挖掘是人工智能和自然语言理解等相关技术的综合利用，目的是从大量数据中提取出可利用、有价值的信息或模式。人工智能、数据库技术、概率与数理统计等技术是现代数据挖掘技术的主要支柱。而数据挖掘过程中应用的技术越多，其得到的结果就越准确。

关键词：数据挖掘；发展进程；应用研究

1 数据挖掘相关概念

数据挖掘与传统的数据分析（如查询、报告、在线分析处理）不同的是，数据挖掘的前提假设是没有明确的信息挖掘和知识发现。数据挖掘得到的信息应该具有未知，有效和实用三个特点。事先未知的信息指的是不可预见的，也就是说，数据挖掘就是发现那些找不到信息，甚至违反直觉的信息或知识，挖掘出更意想不到的信息，可能会更有价值，而且它是一个重要的过程，也可能开采过程不是线性的，而是反复循环，挖掘知识不是通过一个简单的分析，而是通过大量数据的比较分析，利用一些特殊的處理大量的数据所使用的据挖掘工具才可以实现。

2 数据挖掘的功能应用

数据挖掘的任务通常可分为两类：描述和预测。描述性挖掘任务显示数据库中的数据的一般特征。预测性挖掘任务在当前数据上进行推断，以进行预测。

（l）通过概念描述发现广义知识

广义知识是知识特性的一般描述，是对数据的概括、提炼和抽象。概念描述是对某些对象的内涵进行描述，总结这种类型的对象的特征。概念描述分成特征描述和区别性描述，前者描述特定对象的共同特征，后者描述不同的类和对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。产生区别性描述的方法很多，如决策树方法、遗传算法等。概念描述方法和实现技术有很多，如数据立方体，面向属性归纳等等。数据立方体也有其他别名，如“多维数据库”、“视图”、“OLA”等。

（2）通过关联分析发现关联知识

数据关联是数据库中存在的一类重要的可被发现的知识。如果两个或两个以上的变量值之间存在某种某种规律，则称为一个关联。关联可分为简单关联、时序关联、因果关联。关联知识是反映一个事件和其他事件之间依赖或关联的知识。如果两个或更多属性之间存在关联，那么其中一项的属性值就可以依据其他属性值进行预测。

（3）通过分类和聚类方法发现分类知识

分类知识反映了同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。其中最典型的分类方法是基于决策树的分类方法，即从实例构建决策树，是一种指导学习方法。该方法根据训练子集（也被称为窗口）形成决策树。如果树不能给所有对象的正确分类，然后选择一些例外添加到窗口，重复这个过程，直到形成正确的决策集。最终的结果是一棵树，它的叶子节点是类名，中间节点属性是一个分支，分支应是属性的某一个可能值。常用分类技术有贝叶斯分类和贝叶斯网络、神经网络、遗传算法、粗糙集、模糊逻辑等。

（4）通过预测方法得到预测型知识

预测型知识指的是根据时间序列数据，通过历史和当前数据推测未来的数据，也可以认为这是以时间为关键属性的关联知识。目前，时间序列预测方法有经典统计方法、神经网络和机器学习等。1968博克斯和詹金斯已经提出了一套相对完整的时间序列建模理论和分析方法，这些经典的数学方法通过建立随机模型，如自回归移动平均模型和季节性调整模型等对时间序列进行预测。因为大量的时间序列是非平稳的，特征参数和数据分布随时间变化的，因此，仅仅通过对某段历史数据的分析，创建一个单一的神经网络预测模型不能准确预测任务。由于这个原因，人们提出了基于统计学和基于精度性的再训练方法，当发现现有的预测模型不再适合当前数据时，对模型重新排练，获得一个新的权重参数，建立一个新的模型。

（5）通过偏差检测得到偏差型知识

偏差检测对检测数据库中常出现的异常记录是非常有意义的，而偏差知识就是对差异和极端特例的描述，它揭示了事物偏离常规的异常现象，例如在分类中存在的反常实例、观测值与预测值之间的偏差、随时间而变化的量值和不满足规则的特例等。随着概念层次的提升，这些知识都可以被发现，从微观到宏观满足不同用户的需要，也能满足不同层次决策的需要。

4 当前数据挖掘的主要技术

人工智能、数据库技术、概率与数理统计等技术是现代数据挖掘技术的主要支柱。而数据挖掘过程中应用的技术越多，其得到的结果就越准确。以下是常用的数据挖掘技术：

（1）关联分析。关联规则是数据挖掘研究的主要模式之一。通过关联分析可以挖掘隐藏在数据间的相互关系以及发现用户浏览时的相关页面，从数据中挖掘出最大频繁访问项集，再经过关联商品喜好分析得出顾客的购物倾向。在电子商务中，用户关联分析的典型例子是购物篮分析，描述顾客的购买行为，可以帮助零售商决定商品的捆绑销售策略如著名的（面包-黄油-牛奶）例子就属于关联分析访问模式。所以网页上摆放商品的时候可以将面包、黄油、牛奶一起出售，这对于企业确定生产销售产品分类，设计市场分析等多方面是有价值的。

（2）聚类分析方法。聚类分析就是直接比较样本中各事物之间的性质，将性质相近的归为一类，而将性质差别较大的分在不同的类。对变量聚类计算变量之间的距离，对样本聚类则计算样本之间的距离它的目的是使得属于同一类别的个体之间的距离尽可能小，而不同类别上的个体间的距离尽可能大。

在电子商务中，聚类分析常用于市场细分，根据已有客户的数据，利用聚类技术将市场按客户消费模式的相似性分为若干细分市场，以进行有针对性的市场营销，提供更适合、更满意的服务。通过对聚类的客户特征的分析，电子商务网站可以为客户提供个性化的服务。

（3）分类和预测。分类和预测功能可以用来提取描述重要数据类的模型，并使用模型来预测未来的数据趋势。最常用的算法有判定归纳树、贝叶斯分类法、距离分割算法等。分类分析是数据挖掘中应用最多的方法，分类是将事件或对象归类，这样既可以分析已有的数据，也可以用来预测未来的数据分类，通过分析已知分类信息的历史数据，总结出一个预测模型，预测哪些人可能会对产品目录等有反应，可以针对这一类客户的特点展开商务活动，同样可以提供个性化的信息服务。

（4）序列模式分析。序列模式挖掘就是要挖掘出交易集之间有时间序列关系的模式。它挖掘的侧重点在于分析数据间的前后或因果关系，序列模式中要找到一些项跟随另一些项，以预测未来。与序列模式分析和关联分析类似，其目的也是为了挖掘数据之间的联系，但序列模式分析的侧重点在于分析数据间的前后或者因果关系，序列模式便于进行电子商务的组织，预测客户的访问模式，对客户开展有针对性的广告服务或者主动推荐客户感兴趣的页面，以满足访问者的特定要求。

在实际的应用过程中，上述所有技术往往不是单独使用的，各种方法的综合利用才能够最好的满足人们的不同需求。

参考文献：

[1]任新. Web数据挖掘及其在电子商务中的应用研究[D].贵州大学，2008.

[2]沈红超. 数据挖掘技术在电子商务中的应用研究[D].江南大学，2009.

[3]韩英. 浅谈数据挖掘技术在电子商务中的应用[J]. 太原城市职业技术学院报，2013，04：170-171.