时间:2024-05-04
包永红
(内蒙古农业大学职业技术学院,内蒙古 呼和浩特 010000)
云计算技术下数据挖掘平台设计及技术
包永红
(内蒙古农业大学职业技术学院,内蒙古 呼和浩特010000)
摘要:为了探讨云计算技术下数据挖掘平台设计及技术应用效益,通过研究设计云计算技术下数据挖掘平台,在云计算技术支持下,优化设计数据挖掘平台,以改进当前数据挖掘技术质量。结果表明,设计基于云计算技术的数据挖掘平台,不仅可以确保提升技术应用效益,也可以提升数据挖掘质量与平台稳定性。相比传统数据挖掘方式,云计算机技术下数据挖掘的效率提高达到20.0%。
关键词:数据挖掘平台;云计算技术;技术应用;优化设计
对于数据挖掘平台设计,可以基于当前云计算技术发展优势,而数据挖掘与数据是密不可分的,运用云计算技术,有助于优化数据挖掘平台设计工作,以提升数据挖掘平台设计性能。数据挖掘(Data Mining)能够从实际工作中的大量、不完全数据,以及有噪声、模糊的实际应用数据[1]中有效提取出隐含的数据。这些数据均是人们事先不知道的数据,但是对于这些数据,又潜在存在有用的信息;而这个发现新数据、信息知识的过程就是数据挖掘的过程,即数据库中的知识发现KDD (Knowledge Discovery in Databases)。与传统数据挖掘相比,采用云计算技术设计实现的数据挖掘平台,能够通过“云”中的多个资源去完成数据挖掘的工作,可以使数据资源在该数据挖掘平台中得到充分的利用,提高当前数据挖掘的效率[2]。同时,基于云计算技术的数据挖掘平台,可以在提高数据挖掘效率的同时[3⁃6],克服实际中网格环境下挖掘数据的弊端,实现面向商业应用的数据挖掘工作,现实中更具实用价值。
本文基于通信资源数据挖掘设计挖掘平台。数据挖掘总体可以分为数据准备、数据挖掘两大阶段[7]。在数据挖掘平台设计中,根据数据特点运用云计算技术,对数据进行过滤、转换等操作,有助于提升系统设计性能,满足系统设计需求。该系统设计中,针对海量用户数据信息,利用数据挖掘技术,可在计费数据、业务订购数据、网管数据等海量用户数据中发现商业信息,为通信市场的精准营销打下基础[8⁃12]。在系统设计中,运用云计算技术实现数据挖掘,将云计算技术融入数据挖掘中,采用分布式计算(Map/Reduce)概念,能够将大数据集和挖掘任务分解到多台计算机上并行处理,以确保数据挖掘平台设计符合实际需求。
2.1系统总体设计
在云计算技术下设计数据挖掘平台,采取三层结构,以数据预处理、云计算以及数据挖掘平台为分层,优化提升该平台实现数据挖掘的功能。系统设计结构如图1所示。
图1 数据挖掘系统结构
在该平台设计中,数据预处理层能够存储分布式数据文件,实现对平台的分布式系统管理;云计算层可以对各个数据挖掘步骤及模块总控、调度[13],对原始数据进行预处理以得到挖掘数据;数据挖掘平台可以实现具体应用,以确保该平台设计符合实际需求。
2.2系统功能设计
该数据挖掘平台具备多种数据挖掘功能,其由数据收集模块、数据预处理模块、模式规则选择模块及应用接口模块四部分组成,如图2所示。
图2 数据挖掘过程图
数据收集模块:其主要的功能是可以负责收集在该平台服务器端中的数据,同时也包括客户的一些登记资料,然后运用文本方式,返回这些收集的数据。
数据预处理模块:其主要功能是预处理返回数据信息,去除信息中无用的、冗余数据,以便节约系统数据挖掘时间[14]。
模式规则选取模块:可以获取各个站点通用的模式,其是一种学习策略。
应用接口模块:其功能是可以实现数据与该数据挖掘平台的连接。
2.3平台数据库设计
数据库设计充分利用关系数据库特征,减少数据冗余,数据只在一个地方存储,通过主键和外键对应动态生成所需视图,方便程序编写查询检索代码。部分表键对应关系如图3所示。
图3 关联关系
平台中,Reduce可以接收不同的Map任务数据,同时,每一个任务中传来的数据也均是有序存在的[15]。在该数据挖掘平台中,若Reduce端数据量接收较小,可以将其直接存储到内存中;若是数据量超过缓冲区比例,可以将数据进行合并,将其写到磁盘之中。限于篇幅,仅在此介绍创建机架表的相关语句,如下:
2.4数据挖掘平台算法实现
将云计算融入数据挖掘,将计算扩展到无限规模的机器集群上进行。在Map/Reduce框架中,每一次计算请求,均是以此作业。数据挖掘中,可以将数据挖掘作业拆分为若干个不同的Map任务,然后将其分配到数据挖掘平台中不同的机器上执行;当完成所有的Map任务后,则可以进入下一个数据挖掘步骤,将这些中间文件合并,输出这些文件;同时,该数据挖掘平台中,又将生成若干Reduce任务,循环以上算法,最后可生成所需的数据挖掘目标文件。运用该算法设计数据挖掘平台,大大提高数据挖掘的灵活性,提升数据挖掘效率。明确数据挖掘的目标,并对挖掘目标建立恰当的模型。
本文设计的基于云计算技术的数据挖掘平台,不仅可以确保提升技术应用效益,也可以提升数据挖掘质量与平台稳定性,相比传统数据挖掘方式,提高数据挖掘效率达到20.0%。综上所述,设计基于云计算技术的数据挖掘平台,不仅可以满足当前系统设计需求,也可以满足用户规模的扩大、应用目标多样等环境下数据挖掘的应用需求,提高数据挖掘的效率,具有实际应用价值。
参考文献
[1]杜艳绥.基于Hadoop云计算平台的数据挖掘分析[J].信息技术与标准化,2013(4):36⁃38.
[2]程苗,陈华平.基于Hadoop的Web日志挖掘[J].计算机工程,2011(11):37⁃39.
[3]王德文.基于云计算的电力数据中心基础架构及其关键技术[J].电力系统自动化,2012,36(11):67⁃71.
[4]曹小春,曾安,潘丹.云计算环境下面向领域的数据挖掘服务平台研究[J].自动化仪表,2014,35(9):9⁃13.
[5]黄章树,刘晴晴.基于云计算服务模式的数据挖掘应用平台的构建[J].电信科学,2012,28(1):53⁃57.
[6]赵海东.关于流数据挖掘技术中有关云计算的应用设计分析[J].数字化用户,2013(15):142.
[7]袁春园.基于Hadoop云计算平台的数据挖掘分析[J].信息与电脑(理论版),2015(15):58⁃59.
[8]金龙.云计算环境中的数据挖掘存储管理设计[J].软件工程师,2012(12):36⁃37.
[9]郭鑫,董坚峰,周清平.自适应云端的大规模导出子图提取算法[J].计算机科学,2014,41(6):155⁃160.
[10]郭鑫,颜一鸣,徐洪智,等.动态云平台下的快速闭树聚类并行算法[J].计算机工程,2013(9):80⁃83.
[11]王水萍,王方.一种基于云计算数据挖掘平台架构的设计与实现[J].信息安全与技术,2014(8):64⁃66.
[12]张大卫,李海雁,李涛.云计算环境下多源遥感数据挖掘系统构建[J].信息技术,2015(5):187⁃191.
[13]蔡江云.基于微软云计算平台的海量数据挖掘系统分析[J].才智,2015(5):375.
[14]穆俊.基于云平台的并行关联规则挖掘算法分析[J].现代电子技术,2015,38(11):123⁃125.
[15]王珏.基于关联规则的医生诊疗数据挖掘系统的实现[J].现代电子技术,2013,36(19):124⁃126.
中图分类号:TN911⁃34
文献标识码:A
文章编号:1004⁃373X(2016)16⁃0061⁃03
doi:10.16652/j.issn.1004⁃373x.2016.16.016
作者简介:包永红(1981—),男,内蒙古兴安盟人,讲师。主要研究方向为计算机技术。
收稿日期:2015⁃12⁃19
基金项目:国家自然科学基金资助项目(61142010)
Design and technology of data mining platform based on cloud computing technology
BAO Yonghong
(Vocational and Technical College of Inner Mongolia Agricultural University,Hohehot 010000,China)
Abstract:The purpose of this thesis is to discuss the design of data mining platform based on the cloud computing technology and its application.Through the research of the data mining platform based on the cloud computing technology,the design of the data mining platform was optimized under the support of cloud computing technology to guarantee the effect of the technology ap⁃plication,and improve the quality of the data mining technology and the stability of data mining platform.Compared with the tra⁃ditional data mining methods,the data mining efficiency is increased by 20%.
Keywords:data mining platform;cloud computing technology;technology application;optimization design
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!