时间:2024-04-24
次世青 高东宇 次青波
摘 要 近些年来,伴随着经济社会的迅猛发展以及网络信息技术的不断普及,数据信息量正呈现出爆炸式增长。在大数据背景下,如何实现数据的有效挖掘和分析,提升数据分析的质量和效率正成为统计学研究的重要内容。本文围绕大数据时代下的数据分析,介绍了大数据的概念,分析了大数据环境下数据分析的基本过程,并对大数据环境下对数据分析的影响进行了研究。
关键词 大数据时代 数据分析
一、相關概述
大数据环境下经济社会生活都出现了较大的变化,同时自然科学和人文科学等也都有了较大的提升。在此背景下,依靠计算机信息技术的不断发展,研究者能够使用一定的方法和技能对较为复杂且规模较大的海量数据进行数据处理,并有效挖掘其中的价值信息。大数据环境为统计学的研究和发展提供了好的机遇,同时也对统计学的拓展提出了一定的挑战。
大数据环境下数据在各个行业和领域中都有所渗透,并逐渐成为主要的生产要素。大数据本身具有价值密度低、数据体量大、数据类型多、数据处理速度快的特点。不过由于数据量的急速增长,也使得在数据分析和研究过程中由于数据库缺少必要的管理工具进行数据采集和管理,而导致数据搜索、数据分析、数据存取和数据共享等出现一定的困难。一般情况下,在大数据环境下,往往存在着数据存储、处理技术、数据安全等相关的技术性问题。这些问题的存在一定程度上影响和制约了数据的开发和应用效率。尽管大数据下进行数据分析存在一定困难,但是其在实践中的应用空间和领域却十分广泛,对于经济社会的发展具有重要的推动力。
二、大数据环境下数据分析过程分析
(一)数据的价值挖掘过程
面对海量的大数据环境,数据使用者应当围绕数据分析目标和具体要求对大数据进行有效挖掘,提取有用数据,摒弃无用数据,从海量数据中进行价值挖掘,结合数据类型提升数据使用价值。在进行具体的大数据挖掘时可以按照具体的案例来进行,比如在进行广告人群匹配时,在进行数据分析和数据挖掘上主要是面对着两种数据。一种是广告库数据,主要包含了广告库以及广告的客户信息等。这种数据一般都具有较高的结构性,能够在传统的数据库中进行采集和应用、分析。另外一种数据是客户的后期行为数据。通过对此两种数据的结合分析,有效挖掘其中的有效价值。与此同时,在具体的应用实践过程中,还需要积极发挥第二种信息的作用和价值,这样能够获得客户所需的信息。依靠对群体行为和群体智能的分析,最终形成具体的反馈机制和反馈流程,在此基础上为信息使用者提供优质可靠的数据处理信息,为信息使用者科学决策提供有效的信息和数据支持。
(二)数据的处理与分析过程
在此过程中,一方面要及时更新抽样调查的工作理念。一般情况下,大数据的样本资料都是之前的材料汇总,这就要求在对此数据进行分析处理时应当首先对数据整体进行梳理和了解,并逐步向数据局部进行延伸。同时在对海量数据进行分析处理时还应当解决好调查目标设定不合理、抽样框架不稳定以及样本数量受限制等问题。另一方面,也要进一步提升大数据环境下数据精确度标准。由于大数据环境下数据的来源比较广,数据处理质量和效果也各有差异,因此应当在允许数据之间存在准确度差异的同时提升数据精准度的标准。要在积极吸收各种数据资源的基础上,提升数据处理能力和质量,科学应对数据复杂性和变量关系复杂性等问题。除此之外,也应当围绕大数据中的数据分析,对数据关系的分析重点进行合理转换。既要重视对数据中因果关系的分析和梳理,同时也要重视对事物之间相关性的分析研究,及时转换分析思路,围绕数据分析目标和事物之间关联关系进行大数据环境下的数据分析工作。
三、大数据对统计的影响分析
(一)能够进一步拓展统计学研究领域
大数据环境对于各个研究领域都能够产生比较大的影响,对于统计学也是一样。统计学研究的是客体、客观事物之间的数量关系和数量特征,数量性是统计学研究对象最为主要的特征。由于在传统的统计学研究实践中实验数据和调查数据是最主要的研究数据,因此在大数据环境下,统计学研究对象既包括了之前的结构化数据,同时也包括了非结构化数据,这些非结构化数据不能够单纯地依靠数量关系来加以衡量和表示。这其中就包括了文本、声音、图片、动画等数据信息。从这个意义上讲,大数据环境下统计学的研究领域有了较大范围的扩展。
(二)能够对统计计算的规范性产生影响
按照传统的统计学研究方法,在反应事物量的特征时大都是依靠方差、平均值、相对数等来进行,这些研究方法能够反映出事物之间的界限和关系,并且也能够依靠数据计算规范来反映出具体的数据。不过在当前的大数据环境下,非结构性数据常常难以使用传统的数据计算规范来加以计算。从这个角度上讲,大数据环境下统计的数据计算规范也受到了较大的挑战。
(三)能够对统计的数据整理和分析过程产生影响
统计学中数据审核之前主要是针对数据的完整性和准确性。不过在当前的大数据环境下,数据审核除了要保障原先的数据完整性、准确性外,还应当保证数据审核的速度、效率以及数据预测的准确性等。除此之外,还应当准确确定数据处理的规模,合理确定数据量的级别。尽管大数据自身具有混乱性和不稳定性的特点,但是使用合理的数据整理方法也能够在大数据中有效挖掘出数据之间的隐蔽关系,提升数据挖掘的价值性。因此,大数据下统计研究对象本身具有准确和不准确两种情况,它们分别具有不同的价值属性,一般情况下不需要对其进行删除或者替换。
对于数据存储来讲,之前的统计研究数据存储过程中都是将审核、汇总或者编制的表格、图表等,并将它们进行适当的保存处理。不过在大数据环境下进行数据的保存就还需要重视数据存储成本的管控,并结合自身实际制定规章制度和计划合理确定数据存储的规模和目录。
(四)能够对数据开发和利用过程产生影响
这主要涉及大数据环境下数据的积累、开发以及应用。在传统的数据统计工作过程中,研究者都是围绕自身目标来对相关数据进行分类和汇总,通过存储和提取过程,对数据进行有效挖掘,并在此基础上为后续的数据分析和查询提供支撑。大数据环境下,数据量比较大,只有对数据信息进行适当处理才能够获得其中价值量比较高的信息。正是基于大数据自身的复杂性,统计研究者应当对前期数据进行适当处理。围绕数据的规模和结构、层次等进行合理分类和汇总,在确保真实性的同时提升数据的价值性。与此同时,由于大数据环境下数据具有流动性特点,使得数据本身也具有再生性特征,并进一步增加了数据的价值性。因此有必要针对统计研究中的大数据进行深入的数据挖掘,依靠数据整合提升数据价值性。在数据应用上则主要是针对统计学现象的预测和解释,实现在大数据环境下数据相关关系的预测和分析。
总的来讲,大数据环境不仅改变了经济社会生活,也对统计等相关科学产生了巨大的影响,如何实现大数据环境下的统计研究是统计学领域的重要课题。进一步强化对大数据的理解和把握,重视大数据在统计中的研究和应用,有效分析和挖掘大数据中的价值信息,更好地推动统计学的理论和实践应用。
(次世青、高东宇单位为首都航天机械公司;次青波单位为中国航天标准化研究所)
参考文献
[1] 田茂再.大数据时代统计学重构研究中的几个热点问题[J].统计研究,2015(05).
[2] 耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014(01).
[3] 朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(02).
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!