当前位置:首页 期刊杂志

大数据系统和分析技术

时间:2024-05-04

李萧玮

摘要

本文以大数据时代为背景,对大数据处理系统与大数据分析技术的发展现状进行了简单的综述,并梳理了大数据计算面临的问题,通过翻阅大量文献总结相应的解决方案。

【关键词】大数据 大数据处理系统 技术分析

“大数据(Big Data)”一词自2008年被提出至今,很多领域以及企业均在投入大量精力对它进行研究并有效利用。在这个信息爆炸的时代,数据已经渗透到各行各业,对于如何有效发掘并使用大数据已成为谁会各界关注的焦点。基于此,很有必要将大数据处理系统作为重点研究对象,并就当今计算系统面临的挑战提出相应的解决方案,为提升数据计算效率、增加处理系统有效性提供相应的参考与借鉴。

1 大数据处理系统

大数据处理系统根据大批数据分析适合的模式,制定相对应的策略后制定出科学的应对措施,以实现特定的业务目标。目前,静态数据的批量处理、在线数据的实时处理和图数据的综合处理是人们对大数据处理的主要形式。不同的数据处理形式特征和代表性对应相当的数据处理系统。

1.1 批量數担处理系统

批量数据处理系统比较适用于先储存后计算,对于实时处理方面没有过高要求,但需要较高的数据准确性和完整性。通过大量阅读大量文章后可发现,数据量庞大、储存时间长、处理时耗长和数据角度高等是批量数据处理系统的特征,该处理系统普遍适用于相对成熟的大型企业,且主要应用于社交网络、电子商务、搜索引擎等领域。

2003年,Google公司研发了GFS文件系统,以及2004年研发了MapReduce变成模型,由于这两款批量数据处理系统的特有魅力引起了各界的很大反响。2006年Nutch项目的Hadoop顺应现代IT公司的一致需求实现了HDFS和MapReduce.Hadoop两种典型的大数据批量处理架构,HDFS和由HDFS负责静态数据的存储,并通过MapReduce将计算逻辑分配到各数据节点进行数据计算和价值发现。

1.2 流式数据处理系统

2010年,Google公司针对批量数据处理系统的问题推出了Dremel,将数据处理方式向着实时性迈进了一步。Teitter推出的Storm系统就是典型的流式数据处理系统,该套系统消息传递于处理响应速度很快,对数据进行连续计算、查询后将结果以流量的方式发送给用户,可确保消息的完整性。另外,Linkedin推出的Kafka的消息队列为许多流式数据处理系统提供了信息处理模块。2013年,Linkedin基于此研发了Samza流式数据处理框架。高容错率、高可靠性和可扩展性等特点使得Samza数据处理系统受到广泛关注。

2 大数据分析技术

大数据分析技术就是对收集到的大数据进行储存、分析及可视化操作的技术。大数据的分析以深度学习和知识计算为基础,以可视化作为数据分析结果呈现的关键技术。

2.1 深度学习

深度学习利用层次化对的构架学习出对象在不同层次上的表达,已达到有效的表达和学习图像、声音和文本数据等媒体。2009年,微软研究院的Dahl在语音方面使用DNN深度神经网络,使得语音处理成为深度学习的第一领域。2012年,Hinton等人使用CNN卷积神经网络将图像拾取的错误率从26%讲到了15%。2013年,Facebook人工智能实验室的Taigman等人利用神经网络在人脸识别的技术上取得了很好的效果。

2.2 知识计算

知识计算是国内外学术界研究的一个热点,从大数据中抽取出有价值的知识,构建成可支持查询、分析和计算知识库。在国外存在许多支持知识计算的基础是构建知识库。如EVi公司的TureKnowledge知识搜索平台,美国Data.gov,Wolfrair的知识计算平台,Facebook推出的搜索服务Graph Search等。在国内,具有代表性的知识平台有中国科学院的陆汝铃院士提出的知件(knowware),上海交通大学构建的中文知识图谱平台zhishi.me,百度推出了中文知识图谱搜索,搜狗推出的知立方平台,复旦大学GDM实验室推出的中文知识图谱展示平台等。

2.3 可视化

2005年,提出了一种可通过交互可视界面分析、决策数据的科学方法,将可视化和数据处理相结合为用户提供大规模数据解决的方案。2011年,俄罗斯工程师Ruslan Inikeev将几百个国家十几万的数据整合联系起来,建立了互联网宇宙。2004年,Vigas提出的历史流图(History Flow),利用可视化文档编辑记录广大用户对公开文档的修改,使得很容易看出每个人对这篇文档的贡献。2007年,Kaser提出的标签云(Tag Cloud),根据其热门程度标识字体的大小和颜色,通过频率高低来标签标识不同对象,方便用户按照热门程度来查找信息。

3 大数据面临的挑战与应对之策

3.1 数据的安全与隐私带来的挑战

大数据应用的领域愈加广泛,尤其在互联网上的数据信息安全更值得注意。比如在网站中需输入用户密码、身份证号、银行卡号等用户的个人信息,通过这些数据可以轻易挖掘出用户的行为习惯和个人信息,如若运用不当遭到不法分子的窃取,将会带来个人信息、财产等安全性问题。针对这一类问题,2006年,Dwork提出了一种差分隐私方法。2010年,Roy等提出了隐私保护系统Airavat.Lindell等提出了保护隐私的数据挖掘概念,防止数据处理过程中的隐私泄露。

3.2 计算复杂性带来的挑战

大数据具有结构多层次,存储量巨大、速度快等特点,这些特点导致过去的机器在信息检索及数据采集方面上不能够有效地进行数据分析和计算。这就要求我们在进行大数据计算中,需对它的可行性、有效性进行评估,这是核心问题,也为大数据的研究工作带来了挑战。为了克服这种挑战,需根据大数据的特性,以数据为中心对计算模式进行改进,去除传统计算理念的糟粕,通过对大数据理论的深入研究建立起更为规范化的推送式的数据模式,利用大量数据建立起牢固的计算理论基础。

4 结语

综上所述可以看出,在这个信息爆炸的时代,各行各业都在跟数据打交道,大数据时代己然来临,充分了解并认知大数据有着非常重要的意义。通过大量阅读国内外文献,本文对近几年来国内外大数据的处理系统及技术进行了较为全面的总结,并针对存在于大数据研究中的隐私安全性、计算复杂性等挑战做出了相应的解决方案。

参考文献

[1]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,09:1889-1908.

[2]吴卉男.大数-M系统和分析技术综述[J].信息记录材料,2016,17(03):2-4.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!