时间:2024-05-04
陈瞳 林捷
摘要:“大数据”,这个现在大家耳熟能详的名词,到底是怎么一回事?虽然大数据已经为人所知,但是大数据到底是怎么一回事,可能还是有很多人没有搞明白,甚至还有某些误区。该文就大数据的起源开始述说,来解释大数据,从大数据的总体技术架构讲到大数据应用,阐明大数据技术里的各种关系以及大数据在技术之外还包含什么,它们之间有什么联系等,最后总结全文。
关键词:大数据;起源;技术架构;大数据应用;关系
中文分类号:TP391.1 文献标识码:A 文章编号:1009-3044(2017)13-0010-02
1概述
自从2013年成为大数据元年,“大数据”这个名词越来越多地进入了人们的视野,大数据技术、大数据应用也越发受到追捧,这个名词已然成为了当前社会科学领域的一种时尚或者时髦。即便不从事科研工作或者在科技领域甚至其平日里不需要接触大数据概念的人们也对此熟悉,就可以类比成平日里漫天飞舞的广告,虽然人们不深究广告中所卖的东西的具体内涵,但就其名字来讲已经了然于胸。
虽然大数据变成热门话题是近几年的事情,但其实大数据的概念是早就存在了的。对于“大数据”这三个字中的“大”字,可以理解成是快速发展的意思,因此已非常贴切地反映出了大数据发展的历史性和快速增长性。大数据的历史可以追溯到历史上的1890年,也就是离现在大约一百二十多年(一个多世纪)前,美国的一位统计学家赫尔曼·霍尔瑞斯发明的一台电动设备。这台以普查人口数据为目的而出世的设备使得历年完成美国调查统计人口数据的周期从8年时间缩短到了仅用1年时间。如此震撼人心的结果立马传遍了全世界,也由此开启了数据处理的新纪元。
2什么是大数据
什么才是大数据?便于理解,以百度利用实时大数据分析,并进行可视化处理后推出的百度通勤图来解释大数据。以下图一就是以北京市为例的通勤图大数据了,该图具有实时、动态、基于地理位置可定位、缩放等功能。我们可以通过网址:http://renqi.map.baidu.com/traffic/来查询。
图1展示的内容就是基于大数据技术里典型的大数据分析、数据处理和数据可视化等IT技术,而其处理的原始数据就是海量的北京市早晨上班人员的出勤数据。一般来讲,从大数据的字面意思人手,作为形容词的“大”是当前社会步入大数据时代的主要原因,因此理解大数据可以先从“大”这个字开始。虽然大数据的特点在于“大”,但是大数据的重要价值并不在于此,而在于分析出隐藏在大数据内部的、各类数据之间的可利用的价值。而这种能够被挖掘出的可利用价值,才是大数据的价值所在。图1正是利用百度搜集到的大规模数据来挖掘、分析出来的结果。
针对大数据技术,完整的可以分为4层堆栈式技术架构来理解。在第一层(基础层)上,主要提供了一个高度自动化且可扩展、计算和存储的大数据平台。作为底层,针对这层的rr技术,主要是由专门从事大数据架构方面软件开发和性能优化的研究人员或软件工程师完成的,属于大数据技术的基础架构。在第二层(管理层)上,主要涉及数据的存储和管理,一般由大数据的管理平台——数据库管理系统(DBMS)提供来管理各类数据。这个也一般多属于软件行业工作者中从事数据库相关工作人员的工作范围。在第三层(分析层)上,主要涉及大数据应用前所需的大数据分析,一般需要基于统计学的数据挖掘和机器学习算法。在这层上做事的一般属于数据科学家,并可以借助大数据分析平台事半功倍。在第四层(应用层)上,主要涉及一些具体的大数据应用,比如帮助企业进行决策和为终端客户提供服务等,会和大数据预测技术相关。在这层上的应用主要是根据具体用户需求来的。因大数据应用的需求越来越广,大数据技术也跟着不断地提高和发展。由大数据技术的分类角度也可以看出,大数据的内涵里不仅仅包含着IT技术。从这4层的架构来看:越是高级层,IT技术越是需要和其他领域的知识相结合。
大数据技术的最终目的,是为了大数据应用。现在就先以参考文献为例说明。首先这是一篇典型的大数据应用文献,而写这篇论文的研究者不算典型的IT行业从业者。根据介绍可以了解到作者研究的方向:一个是可持续发展,一个是经济地理。他们两者的共通性可以看作在经济领域,但和IT领域还是有一定偏差的。从这里也可以看出,做大数据研究的,特别是作大数据应用研究的,可以算作复合型人才。他们在具备大数据知识的同时,必然具备其他领域的知识,特别对于做大数据应用的研究者来讲,在其他领域的知识储备更多于大数据领域。这篇文章研究的领域是人文一经济地理学界。纵观全文可以看出作者具备优秀的统计分析能力、逻辑归纳能力。他所要进行应用的大数据也不是简单的现成的数据,需要先通过合理的逻辑归纳整理。在这个前期准备需要将区域划分,并对区域中的数据通过点、线、面的方式进行数据整理的过程,就需要非常深厚的专业知识和数学思维能力。否则,即便数据处理的方法都没错,得到的结果价值的有效性和完整性也是打了折扣的。有了这样的数据准备,再进行的大数据分析得到城市交通可达性的评价结果,这个大数据分析也不是大众眼里一般意义上的对数据进行类似Excel表格那样简单的运算得到的,而是需要基于一定专业背景下的知识,需要采用合适的算法得出的。可以理解成需要将大数据技术嵌入到原有的传统的区域空间结构算法中。而对于原始的算法来讲,我们也可以推演出目前传统的每一行领域在做大数据分析时多少已经包含了IT技术,而加入了大数据的应用势必是加入了数字处理、IT技术的成分。最后在得到分析结果后,对于数据的可视化环节在大数据里也是属于典型的大数据技术。而在艺术领域,比如文献中提到的:对于传统音乐的大数据应用来讲,也需要结合除了IT技术之外的其他文人领域(心理学、统计学、文化生态学、社会学等)的学科理念和方法,才能将传统音乐研究做得更好,促进传统音乐的发展。
当然上述例子不仅阐明了大数据属于交叉领域的学科,大数据技术应用需要结合人文的力量,也可以阐明大数据应用和分析处理所拥有的广度和深度的问题,但是对于大数据的深度来讲,这个还是属于大数据应用的范畴,更深入的大数据更主要的是要看大数据分析、挖掘这一层次的内容(大数据分析服务于大数据应用)。
除此,目前国内相继也有部分学者在他们的论文中有所涉及人文思想下的大数据观,比如黄山学院的吕正兵在《三重视域下的大数据观》里提到,自然科学希望用数据来客观描述世界,人文社会科学希望用数据来主观解释世界。这种紧张、矛盾的关系已经引起了学术界的探讨,如去年日本ICA会议中大数据分会的主题就是“大数据:批判性与可选择性”。学术界和产业界都需要在认识论的基础上来理解大数据,考虑大数据背后的人文、社会属性。作者由此提出了三重大数据观,其中整合视域就是指需要跨学科合作。文中指出通过大数据来解决社会问题,需要交叉学科来完成,各学科之间相互合作,不是单纯某个学科能够胜任的。西安电子科技大学的李莹在《大数据时代行动“可数据化”的人文关怀》里提到,大数据时代科技的进步,使得不被外界关注的普通人的行为数据都被精确地记录下来。这种持续性的关注带来了生活的便利,也甚至不用大数据搜索就能通过大数据定位来找到每个个体,但这种关注也伴随着监视,令人不安。因此,要实现人性中的自由和便利这两个属于自我的维度时,在这个原有生活方式和平衡已经被大数据打破的今天,是否可以通过人文关怀来平衡?
3总结
由此可以看出,大數据可以理解为一种交叉学科,在这个领地原本是不存在东西的,它是科学技术与人文社会知识结合的产物,在数据爆发性增长的当下,大数据应时代需求而生。但大数据也是很早就有的,他可以追溯到上百年前,人们已经利用信息技术和数据统计的结合来解决了实际重大问题。数字时代大势所趋,如果想发挥大数据真正的优势、共享它原本的意义,那么大数据需集合自身特点,基于4V,注重科技与人文的交叉,做好大数据应用,做好5V,推动社会的发展和时代的进步。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!