时间:2024-05-04
马彬程
当前大数据发展及其对动物科学影响的思考
马彬程
长江大学动物科学学院,湖北 荆州 434025
数据、科学数据和大数据是数据科学发展的三个阶段性概念名词。数据科学的发展、计算机硬件和软件技术的不断进步和社会经济发展的多元化和复杂化,已经表明传统的数据处理方式、数据分析方法已经无法适应满足人类社会发展的需要。分析了大数据时代下动物科学的发展势头及其思考,大数据时代下动物科学影响巨大。
大数据;动物科学;思考
大数据时代是人类社会发展到一定阶段的产物,经济的飞速发展、物质文明和精神文明的日益繁荣使得计算机技术进步呈现爆炸式的速度。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”[1]《纽约时报》2012年在一篇专栏中称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析作出,而并非基于经验和直觉[2]。大数据时代的到来是时代的必然,这与计算机硬件成本的降低、网络宽带速度的提升、云计算的兴起、网络技术的发展、智能终端的普及和物联网的飞速发展等因素是密不可分的,这些因素的出现使得当今社会的各种各种信息呈现数字化的特征。
1.1 大数据与传统数据的区别
从理论研究角度上来看,传统的数据分析方法和大数据分析的基础是一样的,即都是以数据为基础。但是相对传统数据而言,大数据在数据源、分析方法和思维方面有着更大的优越性,甚至在某些方面有着本质的区别。第一,规模。传统的数据通常是以MB为单位,而大数据往往是以TB、PB和ZB为单位进行处理。传统的数据规模较小是因为需求和社会发展阶段决定的,但是进入21世纪以来,信息化的速度逐渐加快,原有的数据规模所能反映的问题,以及运用小规模的数据为基础进行情报研究,无法客观反映现实情况。大数据之所以出现,是因数据规模变得非常巨大而引起的,只有采用更大规模的数据,即第二,数据类型。传统数据处理的种类比较单一的结构化数据,而大数据处理的是结构化、半结构化和非结构化的复杂种类组成数据。传统数据组成结构,是因为需求比较简单,人们有意识的按照一些特征和规律选取相关数据,容易掌握在情报分析人员的可控制范围内。但是数据的爆炸式增长,数据来源的日益复杂化和不规律性,不能再按照传统的数据分析选取数据的类型,而应考虑类型齐全的大数据,才能使得数据分析和情报研究科学化。第三,数据和模型的关系。传统的数据分析是在先建立在使用者先期预设目标,接着建立相关数据模型,在模型确立的基础上再根据前提条件收集数据,这样显得主观性过强,缺乏客观性的把握。而大数据是在收集数据的过程中逐渐形成,数据与模型紧密结合,模型会随着数据的收集进度进行不断演变,最终形成科学且符合实际情况的数据模型。
1.2 大数据与传统数据的区别
大数据在数据量、处理速度和数据来源多样性上的无与伦比优势,使得大数据分析思维相对传统数据分析思维有着明显的优势。可视化分析、数据挖掘、语义引擎和数据质量管理是大数据分析方法的四个基本面。大数据通过对数据的科学整合,使得数据分析结果符合科学与现实,因此大数据的分析思维有着相对于传统数据分析思维所不具备的巨大优势,使用大数据分析思维是非常必要的。
大数据时代的信息分析主要遵循以下三大理念:(1)使用全体数据而不是局部数据,大数据分析是非常宏观信息分析方式,需要全面地分析总体数据的本质特征、属性、内在规律和联系,而仅仅选取局部数据会割裂了数据之间的联系;(2)讲究数据的相关性而不是按照事先预设的因果关系选取数据,在大数据时代面对海量数据的艰巨挑战,选取能够容纳整体的数据比按照因果联系局部选取一小部分数据更加重要,海量信息根据大数据分析能够明显反映数据的趋势,大数据分析的首要任务是通过相关性实现数据挖掘与预测分析。大数据分析强调发现先前未知的新模式和未知的数据相关关系;(3讲究数据分析的效率性同时分析数据之间的关系,大数据分析以全体或总体为分析对象,不可能使用传统的数据分析模型合来描述全体或总体的特征、规律、联系,即使有时间和成本花费代价昂贵,同时由于数据来源基础的局部性也很难直接发现全体或总体的本质属性、特征、规律和联系,但是大数据可以做到,既客观又能够科学的反映数据总体的本质属性、特征、规律和联系。
大数据分析注重数据量更大、数据来源多元化和复杂化形成了新的思维模式,那就是从因果分析到相关分析和知识发现,从模型拟合到数据挖掘,从逻辑推理到关联规则制定整体宏观分析。大数据以数据总体为分析对象,数据来源是核心和关键,从宏观上研究大数据的本质属性、特点和规律。大数据以数据和先进的计算机硬件技术、软件技术和网络技术为重点,以海量数据为基础的数据库为工具,重在发现数据隐含的规律。
1.3 大数据分析的关键性技术
大数据分析的核心是大数据技术,大数据技术是指从各种复杂的非规律化类型的海量数据中快速获得有价值信息并进行分析的技术。大数据分析的关键技术主要有数据采集技术,如异构数据抽取、清洗转换、集成、加载等。数据存取技术,如关系数据库等。基础架构,如云存储、分布式文件存等。数据处理技术,如自然语言处理、计算语言学、人工智能等。统计分析技术,如假设检验、显著性检验、差异分析、相关分析检验、方差分析、卡方分析、偏相关分析、距离分析、回归分曲线估计、因子分析、聚类分析、主成分分析、判别分析、对应分析技术等。数据挖掘技术,如分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘等。模型预测技术,如预测模型、机器学习、建模仿真。结果呈现技术,如云计算、标签云、关系图等。
利用大数据发展动物科学的将会起到重要的作用,因此在今后的过程中要积极利用大数据发展成果为动物科学发展提供相应的支撑。当前,一个学科与另一个学科的嵌入是需要时间的,希望通过努力能够争取化解这一问题,逐步解决该问题。
[1]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013(25):143-145.
[2]朱东华,张嶷,汪雪锋,等.大数据环境下技术创新管理方法研究[J]. 科学学与科学技术管理,2013(4):175-179.
F49;F124
A
1009-6434(2016)05-0080-01
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!