时间:2024-05-04
石秋发 邱瀚
(1.山东省电子政务大数据工程技术研究中心 山东省济南市 250014 2.华中科技大学管理学院 湖北省武汉市 430074)
互联网技术和智能化技术在不断的发展普及,在日常生活中人们越来越离不开互联网信息技术,这些新兴的技术在工作和日常生活中得到了广泛的应用,因此每天产生的数据数量极多,数据的类型也十分丰富,这意味着我们已经进入了大数据时代。在大数据时代中数据信息具有很高的商业价值,能够推动各行各业的发展和改革,决定着企业的盈利水平。目前数据挖掘中面临着数据源的处理和海量数据的处理,两种问题,计算机行业的高速发展使得数据库以外的数据不断出现,如何进行数据源和数据信息的有效处理,使数据挖掘技术中需要重点考虑的问题,同时随着互联网等行业的发展和普及数据量在不断的增加,需要进一步提高数据挖掘技术的效率和质量。大数据挖掘技术通过加入云计算技术可以有效的提高数据挖掘的效率,但是也面临着众多的问题,这些问题的存在阻碍着云计算中大数据挖掘技术的发展,因此基于云计算的大数据挖掘体系构建研究具有重大的意义。
云计算技术是一种以互联网为基础的计算模式,通过虚拟化的方式处理信息资源,并进行计算云计算技术具有强大的储存功能,能够有效提高用户使用的便捷性,云计算是并行计算和分布式计算的发展结果。数据挖掘是指从大量数据中挖掘具有价值数据的过程,通过数据挖掘能够发现大数据中所隐藏的价值和知识,并对用户进行指导作用,目前数据挖掘技术并用到了多个领域的决策指导中。数据挖掘主要包括预测任务和描述任务两种预测任务是指根据属性对目标属性做出预测描述,任务则是将数据间隐藏的联系所描述出来。在大数据中应用数据挖掘能够获取更大价值的信息数据,从而为各行各业创造出更大的效益。
在数量庞大的数据中隐藏着具有很高价值的数据信息,同时数据类型也存在多样化的特点,比如说文本形式,数据信息,图片,视频形式的数据信息。大数据挖掘就是指从这些海量的数据中挖掘出具有价值的数据信息,然后为用户提供所需的数据由于大数据数量庞大,价值密度低,导致传统的数据挖掘,无法快速高效率的挖掘数据。因此全新的大数据挖掘技术就此出现并发挥出了积极的作用,大数据挖掘具有广泛性,主动性和复杂性的特点,广泛性是指大数据挖掘过程中,挖掘的数据源十分广泛,主动性是指大数据挖掘使用收集数据的方式,主动进行数据收集,复杂性则是指大数据挖掘过程中挖掘的数据类型十分复杂。
近年来我国互联网技术在不断的发展,数据传输的速度变得极快,因此产生的数据量也越来越多,对于用户来说信息需求较大,这种时候大数据技术和云计算技术得到了快速的发展,以此来满足用户的需求。在大数据时代传统的数据挖掘已经无法满足用户需求,需要通过基于云计算的大数据挖掘来解决数据挖掘存在的问题,不仅能够弥补传统数据挖掘中的漏洞,还能够有效的提高数据处理的速度和效率,实现大数据挖掘。基于云计算的大数据挖掘具有众多的优势,能够在海量数据中挖掘出有价值的信息,并将数据信息高度应用,这是传统数据挖掘技术的创新发展,能够实现大数据时代的快速传递和处理。
基于云计算的大数据挖掘是将大数据挖掘和云计算技术相结合,能够有效的提高大数据挖掘的速度和效率,云计算是一种需要付费的计算模式,能够为用户提供虚拟化资源,在大数据挖掘中能够有效的提高大数据挖掘的存储能力,加快大数据挖掘的处理速度。云计算技术的核心是分布式储存和计算技术,这种技术能够有效的解决数据挖掘中储存空间不足和计算过慢的问题,让大数据挖掘,能够在储存的过程中并进行计算。云计算技术能够有效的提高大数据挖掘的性能,将大数据挖掘的深度和广度进行拓展,并实现实时处理和分析数据,能够有效的满足用户对信息数据的需求。基于云计算的大数据挖掘体系,是大数据挖掘依靠云计算技术而构建的数据处理系统,能够有效的提高数据获取,处理和分析。
分布式并行技术是云计算技术的核心内容,通过提供分布式文件存储并进行相关计算。分布式文件存储的主要作用是提高数据信息的处理速度并满足计算的要求,这是大数据挖掘中的关键技术,目前分布式文件系统在商业领域和学术领域被广泛应用。分布式并行计算主要是对数据分布,任务执行,数据容错等问题进行编码处理用户仅需调用执行即可以使用计算结果。
数据的挖掘算法是统计学模式识别人工智能等多领域的结合是大数据挖掘平台中的核心技术,最常见的方法是统计分析和决策数等。统计分析是最为简单的方法,通过对数据各项值进行统计分析。决策数是对数据行分类后快速描述。神经网络具有较强的学习组织和适应能力,可以对数据信息进行分类和预测,不同的大数据算法都具有自己的优势,能够用到不同的领域中,需要根据用户的需求进行大数据挖掘算法的应用组合。
基于云计算的大数据挖掘平台,主要是利用云计算自身的存储能力和分布式处理技术的优势来完成大数据挖掘,基于云计算的大数据挖掘模型,主要包括三层结构。
基于云计算的大数据挖掘体系顶层,主要包括工作流子系统和用户接口子系统,主要的作用是面向用户,其中工作流子系统是用来帮助用户建立数据挖掘任务,而用户接口子系统的主要作用是跟用户实现交互功能用户在界面输入模块设置参数,选择合适的数据挖掘算法,通过大数据挖掘平台开始数据挖掘,最后以可视化简单的方式呈现到用户眼前。
中间层是数据挖掘系统中的核心部分,包括数据处理子系统和数据挖掘子系统在云计算中大数据挖掘平台计算模型主要适用于同类型结构一致的数据,因此需要数据处理子系统对大量的数据结构进行提前处理相处理的结果,以数据挖掘算法进行输入。常用的数据处理方法,包括数据清洗,数据转化,抽取,集成和加载等。数据信息经过中间层的处理后,无用的数据信息会进行排除清理,提高了数据挖掘的效率和质量。数据挖掘子系统是数据挖掘平台的核心模块,目前数据挖掘算法种类繁多,由于数据挖掘平台是基于云计算的算法模型,因此云计算平台上无法直接使用部分算法,必须要对现有的算法进行整合和改造,才能实现在云计算平台上使用。
数据中心层是系统中的最底层,主要的作用是用来储存储大数据并对大数据进行处理的部分,数据中心层需要保留多份数据副本以保证数据的安全性,由于云计算使用的是并行工作模式,即使大量的用户在发出请求时也可以做出迅速反应,以此来提高大数据挖掘平台的工作效率。
大数据技术不断发展,基于云计算的大数据挖掘速度和效率都得到了显著的提高,但是在大数据时代,数据信息的安全问题也不断出现。如何保证数据信息的安全,是基于云计算的大数据挖掘体系构建过程中需要重点考虑的问题,只有解决数据信息的安全问题,才能保证基于云计算的大数据挖掘体系,处于安全的环境中进行运行。首先要提高数据安全保护意识,做到主动保护数据信息安全,通过多种方式来保障数据安全,比如说设立防火墙和局域网密码。其次提高数据信息安全保护的水平,技术人员通过提升大数据挖掘体系的抵抗性,对数据信息进行定期监测,及时更新防火墙补丁,保障用户数据安全。
基于云计算的大数据挖掘体系的功能是吸引用户注意力的主要因素,绝大多数企业在进行大数据挖掘体系开发过程中,对于功能的设计较少,不能满足用户的需求,也无法获得更高的利益。因此为了提高企业的收益,要加强大数据挖掘体系的研究,将开发人员的工资和绩效相挂钩,以此来提高开发人员的工作热情,另外可以设置奖励机制,对于开发人员提出的有效建议要进行奖金奖励,从而提高开发人员的工作热情。其次要加强和用户的沟通,基于云计算大数据挖掘体系,主要服务对象就是用户了解用户的需求,才能设计出符合用户需求的功能。
基于云计算的大数据挖掘体系构建,主要依靠相关的云计算和大数据挖掘人才进行支撑,是在实际的工作中,绝大多数的企业都面临着云计算和大数据人才缺失的问题。该问题存在的原因,一方面是因为企业没有做好相关者招聘和培训工作,在招聘时过于重视应聘者的学历,对于应聘者所具备的专业水平和能力不予重视,因此导致云计算和大数据挖掘人才严重缺失。另外一方面是因为企业缺乏相关的培训工作,导致部分具有云计算和大数据挖掘技术的人才,无法进行相关专业的培训工作,阻碍了员工的发展和专业水平的提高。首先为了解决人才缺失的问题,相关企业要做好招聘工作,在进行招聘时,对于应聘者进行技术和能力考核来测试应聘者自身的专业水平和能力,降低学历要求从应聘者中选拔优秀的人才,对于有相关工作经验的人要进行优先录取,对于专业水平高,但实际工作经验较低的人,采取培训的方式来提高能力。其次,企业内部要做好培训工作,积极开展多种培训方式,可以聘请专家到公司进行讲述,也可以举办内部讨论大会,让企业员工互相帮助互相学习,通过培训的方式来提高员工的综合素质和专业水平。
综上所述,云计算技术和大数据技术的不断发展,基于云计算的大数据挖掘体系构建也在不断的完善,能够满足用户的信息需求,为用户提供高质量的数据挖掘,有效的提高数据挖掘的效率和质量。随着大数据时代的来临,数据挖掘服务是时代的产物,基于云计算的数据挖掘系统在互联网行业将变得不可或缺,它能够有效的解决数据挖掘所面临的问题,提高数据挖掘的性能,帮助互联网企业在大数据时代中获取有价值的信息资源,基于云计算的数据挖掘体系构建,表现出了更高的可能,能够有效解决传统数据挖掘所面临的各种问题,提高大数据挖掘的效率和质量,推动我们企业的发展水平,提高社会的发展水平。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!