当前位置:首页 期刊杂志

数据挖掘中关联规则算法的研究

时间:2024-05-04

杨帆 杜玮 陈经优

随着计算机技术的迅猛发展,使得现代信息技术也得到了发展,数据挖掘技术被广泛地应用到许多领域当中。而数据挖掘技术中最常用的算法则是关联规则算法,它能够对大量的数据和信息进行处理, 在数据库中将繁琐的项集找出来,经过处理之后,将项集与项集之间的关联关系建立起来,然后从中挖掘出有用的信息。本文针对数据挖掘中的关联规则算法进行研究。

【关键词】数据挖掘 关联规则算法 Apriori算法

随着现代科学技术和数据库技术的迅猛发展,人们积累越来越多的数据,海量的数据背后隐藏着很多重要的信息,人们希望能够对其进行更高层次的分析,以求更好地了解这些数据背后的价值。目前的数据库系统可以快速地实现对数据的操作,却难以发掘数据中存在的关系和规则,也就难以根据现有的数据预测未来的发展趋势。因此,需要找到新的、更为有效的方法对这些数据进行挖掘,以便获得有价值的信息并加以利用。

1 数据挖掘

数据挖掘(Data Mining,简称DM),其功能是指从庞大的数据中挖掘或抽取出知识。虽然它的出现并没有多久,但自二十世纪八十年代末到现在,它的发展迅速,而且它跨越多个学科,到现在也没有一个确切的定义,许多不同的研究领域的人们提出的定义也不尽相同。随着对数据挖掘的研究越来越深入,如何定义数据挖掘也是越来越清晰,而由 Fayyad等人给出的定义是大家比较认可的。当前能被大众普遍接受的定义是:数据挖掘(简称DM) 是一种通过数理模式来分析企业数据库存储的庞大的数据,从不同的客户或市场划分找到消费者爱好和行为的方法。

由于规则AC的支持度和置信度都大于或者等于最小支持度和最小置信度,因此规则AC是强关联规则。

3 关联规则的典型算法分析

在所有的关联规则算法中,Apriori 算法是比较著名的,这个算法可以从关联规则中挖掘出的频繁项集。这个算法采用频繁项集或者是大项目集的性质: 任意一个大项目集的子集也一定是大的。如果一个项目集满足最小支持度的设置要求,则它全部的子集也一定满足最小支持度的设置要求。其逆否命题是这样的,假如一个项目集是小的,根据性质它们也肯定是小的。因此,没有得到它的任意一个超集来作为候选的必要。

Apriori算法发现关联规则的过程一共分为以下两步。

(1)通过迭代的方法,检索出事务数据库中所有支持度不能低于最小支持度项集--频繁项集。

(2)采用频繁项集构造出满足用户最小信任度的规则。其作用主要是为了挖掘或识别出所有的频繁项集。

Apriori算法的核心内容的描述如图2-3所示。

第一步得到的是频繁1-项集L1,接着是得到频繁2-项集L2,当出现某个k的值使得Lk=Ф,当Lk=Ф时则算法结束。在进行到第k次循环的时候,首先得到的是候选k-项集的集合,中的每一个项集是对两个只有一个项不同的属于-1的频集做一个(k-2)连接来产生的。中的项集是用来产生频繁项集的候选集,最后的频繁项集一定是的一个子集。先在交易的数据库中进行求证,然后才决定中的每个元素是否可以加入,这个求证过程需要扫描数据库,这也是该算法性能的一个缺点。每次求证都需要扫描一次数据库,对于数据库很大的话则需要多次扫描数据库,例如频繁项集含有10个项,则需要扫描10遍数据库,这对于I/O来说是一个很大的负担。也许会产生大量的候选集,或者是需要重复扫描数据库,这是Apriori算法的两个不足之处。

4 结束语

数据挖掘技术,由于其广泛的实用前景,得到很多这方面的研究者的关注。目前,国外对于数据挖掘技术的研究正蒸蒸日上,而国内在数据挖掘方面的研究也越来越多。本文主要是对数据挖掘技术中的一个重要部分即关联规则作了比较深入的研究,主要是分析数据挖掘中的关联规则算法。虽然Apriori算法需要多次扫描数据库,当数据库比较大时算法的效率受到了很大的制约。而当数据库不是很大时,Apriori算法仍不失为一个好的挖掘关联规则的算法。

参考文献

[1]陆建江,张亚非,宋自林.模糊关联规则的研究与应用[M].北京:科学出版社,2010.

[2]王欣,徐腾飞,唐连章.SQLServer2005数据挖掘实例分析[M].北京:中国水利水电出版社,2012.

[3]袁继东,郁有全.层次分析法在地空导弹团战斗力评估中的应用[J].西安:空军工程大学学报(自然科学版)2011,5(1):80-83.

[4]JamieMacLennan.数据挖掘原理与应用—SQLServer[M].北京:清华大学出版社,2012.

作者简介

杨帆(1982-),男,海南省东方市人。现为海南软件职业技术学院讲师。

杜玮女,江苏省徐州市人。现为海南软件职业技术学院助教。

陈经优,女,海南省东方市人。现为海南软件职业技术学院讲师。

作者单位

海南软件职业技术学院 海南省琼海市 571400endprint

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!