时间:2024-06-01
庞亮
摘要:大数据技术在我国各大行业中都有广泛的应用,而在大数据技术应用的过程中数据质量的好坏直接影响到应用服务的性能,所以一定要保证数据的质量。本文通过分析大数据的兴起和发展历程,然后介绍其特点,分析Web大数据质量管理的主要流程,最后对大数据质量管理的方法进行介绍,希望通过本文可以对我国Web大数据质量管理问题进行有效的解决。
关键词:大数据;数据质量;数据清洗
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2018)01-0224-02
随着互联网、移动通信的普及,21世纪信息的传播途径变得多种多样,人们每时每刻都处在信息化的环境中。这就要求必须扩大传统的数据储存容量,确保数据传播的高效性、安全性、完整性,而且数据的产生量每年正在不断增长,这标志着大数据时代的到来。大数据具有体量大、种类繁多、价值密度低、处理速度快等特征。近年来,Web大数据质量管理问题逐渐显现,如何有效的解决大数据质量管理问题成为我国急需解决的问题,本文基于这一问题展开讨论,从而有效的促进我国大数据质量管理的快速发展。
1 大数据的兴起和特点
大数据在2012年受到越来越多人的提及,随后大数据在各个领域得到了广泛的应用,包括物理学、环境生态学以及军事、金融等行业。大数据之所以在近几年得到快速的发展和应用,是因为它有着以下特点:第一,使开源软件得到广泛的应用,随着大数据的不断发展,开源软件受到越来越多人的青睐,主要是因为大数据相关技术和软件都需要开源软件的开发。第二,大数据应用了很多人工智能技术,智能化程度高,大数据主要是从诸多数据中获取最有用的数据,然后对数据进行分析和处理,达到最终目的。但是在这个信息量超大的时代,如何对数据进行有效的过滤,从而筛选出最有用的信息就需要应用人工智能技术,不仅能提高数据分析和处理的效率,还能保证数据的准确性。第三,大数据有很强的变化性,随着数据的不断增多,其数据库也会发生很大的改变,因此需要及时更新数据库,保证大数据的准确性。第四,数据量大,大数据是将某一行业所有的数据结合起来,所以大数据中往往包含大量的数据。第五,数据类型多种多样,大数据会收集多种不同类型的数据进行整合,所以在进行处理和分析的时候能有效的提高处理的效率。
2 Web大数据质量管理流程
大数据环境下的Web数据质量管理是通过对非结构化和半结构化数据进行分布处理的,这种处理方式与传统的处理方式有很大的不同,新型方式能有效的提高数据质量管理的效率和质量,一般来说Web大数据质量管理流程主要分下面几个步骤:
第一,数据抓取。通过多台服务器进行数据的收集和抓取,系统自动分配服务器的负责区域,然后对网络中的所有Web数据进行全面性的抓取,并且在抓取的过程中要尽可能的保证数据的时效性和可靠性。最后将抓取到的信息进行收集,并且储存到系统中。
第二,预处理。当服务器抓取道路相应的信息和数据之后,系统会对Web数据进行一个预处理,从而更加有效的保证数据的准确性。在预处理的过程中首先会对错误的数据和信息进行筛选,然后对数据进行标准化,最后通过相应的函数将数据进行统一,保证Web数据的全面性。
第三,数据清洗。数据清洗是Web大数据质量管理过程中最重要的一步,系统会根据预处理之后的数据进行优化,然后对一些存在问题或者异常的数据进行清洗,保证数据的纯度。另外,在传统的数据清洗过程中,需要工作人员手动进行清洗,但是利用先进的技术可以直接进行自动化的清洗,保证数据清洗工作的效率和质量。
第四,质量评估。完成数据清洗之后需要对清洗之后的数据进行一个有效的评估,判断数据是否含有重复、错误或者敏感词等等,通过判断之后才能进行下一步骤,所以说对数据的质量评估也是很重要的。
第五,监控反馈。整个Web大数据质量管理流程是一个循环的过程,在完成一次数据的质量管理过程中都有实时的监控反馈步骤,而且在每一个环节都有相应的监控和反馈,通过这样可以有效的提高数据质量管理的效率。
3 大数据质量管理方法和措施
3.1 数据存储服务优化
大数据时代的到来,使传统模式下的数据存储无法满足,传统数据存储模式受时间和空间的限制,储存容量小,处理能力慢,无法满足大数据体量大、离散复杂的特点,传统数据运行速度无法跟上现代人们对数据处理的要求和需要。而云计算采用分列式存储方式,将不同属性的数据分类存储,方便通过属性查询来及时提取数据,大大提高了数据处理的效率,降低数据存储空间,实现对数据的压缩处理,减少盲目查询造成的时间浪费。
3.2 数据质量问题及处理方法
我国大数据质量管理的过程中还存在诸多问题,严重的影响了我国大数据质量管理过程,因此,需要对质量管理过程中存在的问题进行有效的解决。对大数据在采集和处理过程中存在的问题,包括数据采集错误、数据处理不当等等都采取一定的预防措施和检测措施,从而有效的保证据数据质量,提高数据质量问题的处理效率。
3.3 数据质量评估
虽然我国大数据质量管理已经发展多年,而且已经取得了良好的成绩,但是其在应用的过程中还存在很多问题。因此,在质量管理的过程中一定要加大力度对数据质量进行有效的评估,对每一个过程都进行实时的监控和反馈,这样才能在一定的程度上提高数据处理的质量和效率,并且让工作人员对数据质量进行有效的判断,保证数据的准确性和时效性。
3.4 质量数据处理
当数据完成相应的采集、预处理、清洗之后,数据的整体质量也有很大的提升,而且有用的数据也基本包含在内,但是这种数据想要达到理想中的数据还是存在一定的差距,因此,还需要对这类数据进一步处理,将这些数据与Web数据库中的数据进行对比、分析,然后进行多种循环处理,有效的提高数据的整体质量。
3.5 数据质量管理方法分析比较
Web大数据质量管理的方法有很多,但是不同种类的数据需要特定的质量管理方法,因此,在进行大数据质量管理的过程中需要根据数据的种类和特点选择管理方法,从而有效的保证大数据处理的效率和质量。
4 结语
综上所述,随着大数据在我国各大行业中的广泛应用,其在应该过程中存在的问题逐渐显现,尤其是对Web数据质量管理的过程中。为了有效的提高大数据质量管理的效率和质量,就需要充分的了解Web大数据质量管理流程,然后针对性的提出一些大数据质量的管理方法,从而有效的提高大数据质量管理的效率和质量,保证Web大数据在我国各大行业中的广泛应用。
参考文献
[1]胡水晶.基于资源基础观的企业大数据分析技术采用意愿影响因素研究[J].情報科学,2016,V34(5):148-152.
[2]张萍,邱立,刘慧.大数据思维框架下医院“质量数据管理中心”的集成构建[J].中国医院,2015,(3):30-32.
[3]朱力纬,刘丽勤,王健.高校基于大数据时代的数字化校园建设探讨[J].华东师范大学学报(自然科学版),2015,2015,(s1):104-110.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!