时间:2024-09-03
张绍成,孙时光,曲 洋,董 宇
(1.辽宁大学 信息化中心,辽宁 沈阳 110036; 2.辽宁大学 创新创业学院,辽宁 沈阳 110036)
大数据环境下机器学习在数据挖掘中的应用研究
张绍成1,孙时光2*,曲 洋1,董 宇1
(1.辽宁大学 信息化中心,辽宁 沈阳 110036; 2.辽宁大学 创新创业学院,辽宁 沈阳 110036)
随着Web2.0时代的到来,数据量呈几何级态势增长.这些海量的数据不仅结构多样,而且体现出动态性极强的特点.以往应用于小规模数据集上的机器学习算法已经不再适用.大数据概念引起了学术界和产业界的高度关注.对当前大数据环境下引入机器学习的意义进行了分析,论述了机器学习系统的构成及任务,并对其发展趋势与前景进行了展望.
大数据;机器学习;数据挖掘;大数据处理
大数据呈现出4V特点,即价值密度低、 数据容量大、 数据种类多以及数据处理速度较快等.经典的数据挖掘算法是机器学习算法在数据集合上的优化.从提取、检索、储存、分享、分析和处理等角度来看,传统经典的机器学习方法已经无法胜任在海量的异构数据体系中进行数据挖掘.研究大数据环境下的机器学习算法,利用机器来挖掘复杂、高维、动态的数据中有价值的知识具有重要的意义[1].
由于数据挖掘是一个复杂的迭代过程.通过在数据集上不断地循环处理,最终得到有意义的知识或模式.这就要求我们充分利用计算机计算和存储上的优势[2].
机器学习是人工智能的一个重要研究领域,目标是使计算机具有自我学习能力,从而使计算机的处理数据的性能得到不断的改进和提高. Tom Mitchell给出了一个能被广泛接受的经典定义——机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能.
机器学习算法应用在历史数据集上,通过训练来使计算机获得智能.机器学习系统一般由环境、学习元、知识库和执行元四个部分组成,如图1所示.
图1 机器学习系统结构图
学习元从数据集,也就是从环境中获取经验数据,通过对环境中的数据进行处理来更新知识库.这将使系统的执行元的性能得到改进.执行元根据知识库中的内容,对系统的执行效果进行检验,并扩展或修改知识库中的知识或模式,使其中的内容不断地改进和完善.经过调整后,知识库中的内容可以作为下次迭代学习的指导.这样的学习过程一般要循环进行多次.知识库随着学习的进行,不断地充实,计算机将越来越智能,执行任务的性能将会越来越高效.
整个机器学习系统的核心是知识库.知识库中的知识要丰富且容易被计算机理解,同时还要兼顾方便扩展和便于修改等多方面要求.
另外,机器学习系统首先要有一定的知识储备,这样才可以指导系统对外部数据进行处理,对一些假设进行检验.
通过应用机器学习,数据挖掘对数据的处理方法可以分为:分类、回归分析、关联规则及聚类等,而且每种挖掘方法都可以通过不同的机器学习技术来实现.
2.1 分类 (Classification)
利用训练数据集进行学习,从而获得一个分类模型.然后,分类模型可自动地将不具有类别标签的数据分成多个类别,从而完成分类.已有的机器学习分类算法包括KNN分类算法,朴素贝叶斯分类算法、决策树、人工神经网络ANN以及支持向量SVM等.典型的分类过程如图2所示.
2.2 回归分析(Regression analysis)
通过分析数据并应用统计学方法,可以得到变量与变量之间的关系表达式.利用这些内在规律,对未来趋势进行估计和预测.可通过回归树、人工神经网络ANN、线性回归、logic回归等构建回归模型.
2.3 关联规则(Association rules)
事务型数据彼此之间存在着关联规则,通过挖掘事务型数据之间的关系,可获得频繁项目集.以此为依据,预测某些事务同时发生的概率.Apriori是挖掘关联规则的经典算法.
2.4 聚类(Clustering)
通过使用挖掘算法,将多个不具有类别标号的数据对象聚集在多个不同的簇当中,使得簇内的数据对象彼此之间具有很高的相似性,簇间的数据对象彼此之间具有很大的相异性.k-means是经典的聚类算法.此外,人工神经网络ANN和支持向量SVM也可实现聚类.
图2 机器学习中分类任务流程图
由于传统的机器学习算法大多是基于内存的,而TB甚至PB级的海量数据又无法装载进计算机内存,因此,现有的诸多算法不能处理大数据.如何使机器学习算法适应大数据挖掘的要求,已经成为产业界与学术界研究的主要方向[3].
在大数据环境下,机器学习算法的设计与实现涉及很多方面,包括分布式运算、数据流技术、云技术等.机器学习算法通过与这些技术相结合,高效地处理数以亿计的数据对象,并快速地训练出模型,从而获取有价值的知识.机器学习技术已经在推荐系统、智能语音识别、搜索引擎等企业级的数据挖掘中得到广泛应用.大数据发展和研究、关键技术、评定指标对机器学习的方法研究工作提出了新的挑战和要求[4].
目前,大数据技术已在金融、电信、医疗等众多行业和领域中得到广泛应用.如何从高维、稀疏、异构、动态的大数据中获取模式,迫切需要深层次的机器学习理论与技术做指导.因此,可以预见未来的机器学习研究将在以下几方面展开[5-6].1)超高维数据抽样与特征提取.2)借助Hadoop、Spark等分布式运算平台,设计和实现分布式机器学习算法.3)对机器学习算法的泛化能力、执行效率及可理解性等方面的研究.
[1] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[2] 李运.机器学习算法在数据挖掘中的应用[D].北京:北京邮电大学, 2014.
[3] 梁晓音.机器学习在数据挖掘中的应用[J].计算机与信息技术,2008(11): 38-39,42.
[4] 王晓.大数据环境下机器学习算法趋势研究[J].哈尔滨师范大学学报:自然科学版, 2013(4): 48-50.
[5] 何清.大数据下的机器学习算法综述[J].模式识别与人工智能,2014(4): 327-336.
[6] Fabrizio Sebastiani.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
(责任编辑 郑绥乾)
Research and Application of Machine Learning in Data Mining Based on Big Data
ZHANG Shao-cheng1,SUN Shi-guang2*,QU Yang1,DONG Yu1
(1.InformatizationCenter,LiaoningUniversity,Shenyang110036,China; 2.CollegeofInnovationandEntrepreneurship,LiaoningUniversity,Shenyang110036,China)
With the advent of the Web2.0 era,the amount of data increased geometrically.These massive amounts of data are not only structurally diverse,but also show a strong dynamic characteristics.In the past,machine learning algorithms applied to small-scale data sets are no longer applicable.The concept of big data has aroused great interests in academia and industry.In this paper,the significance of introducing machine learning into big data environment is analyzed,as well as its composition and main tasks.Development trend and prospect of machine learning are also discussed.
big data;machine learning;data mining;big data processing
2016-12-30
张绍成(1967-),男,硕士, 辽宁大学信息化中心高级实验师,研究方向:机器学习.
*通讯作者:孙时光(1979-),男,硕士,辽宁大学创新创业学院实验师,研究方向:数据挖掘.
TP 181
A
1000-5846(2017)01-0015-03
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!