时间:2024-05-04
甘红梅 四川长江职业学院
大数据安全研究方向及现状
甘红梅 四川长江职业学院
大数据是通过对海量数据进行分析来获得有巨大价值的产品和服务,随着互联网、社交网络等技术的发展,大数据成为研究热点,然而大数据在收集、存储和使用过程中面临着诸多安全风险。本文分析总结了大数据在存储、应用分析和管理上的安全方法和现状以及未来研究的趋势,只有通过技术手段和相关政策法规相结合,才能更好的解决大数据安全与隐私保护问题。
大数据 数据安全 存储 数据分析
大数据技术(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。目前大数据分析应用于科学、医药、商业等各个领域,用途差异巨大,但其目标可以归纳为如下几类:①获得知识和推测趋势;②分析掌握个性化特征;③通过分析辨识真相。
大数据正在对每个领域造成影响,在商业、经济和其他领域中,决策行为已日益基于数据分析做出,而不是像过去更多凭借经验和直觉。甲骨文、IBM、微软和SAP共投入超过15亿美元成立各自的软件智能数据管理和分析的专业公司。随着海量数据的进一步集中和信息技术的进一步发展,信息安全成为大数据快速发展的瓶颈。
大数据系统的研究主要有3个方向:存储、管理和应用分析。因而,其安全和隐私保护也可以从这3个方面着手。
在典型的大数据平台(比如Apache Hadoop)中,海量数据是存储在廉价服务器集群中各个节点的本地硬盘中的。为了保护存储介质中的数据,防止敏感数据泄露,目前主要使用两种手段:访问控制和数据加密.但这两种方法都各有不足:
①访问控制:存在被外部黑客攻破或内部管理员绕过的风险;
②数据加密:虽然安全性较高,但加密解密海量数据会增加显著开销。
为了同时满足大数据应用对数据存储的高安全和高性能要求,由清华大学田洪亮等人提出了一种可信固态硬盘(Trusted SSD,Trusted Solid Stated Drive)的存储方法,它提供安全增强的存储设备接口和协议,使得用户可以对存储中的数据施以细粒度的访问控制,从而保障存储中数据的安全。同时通过实验表明。无论是在合成的、还是真实的工作负载上,可信固态硬盘的运行开销不到3%,有望成为大数据安全的新基础。
数据分析层面的隐私保护技术,如匿名化(Data Anonymization)和差分隐私(Differential Privacy)等。
匿名化是数据挖掘中隐私保护的最主要的一种技术手段。匿名化通常有以下五种方法:扰动和泛化、K匿名化和I多样性、分布式隐私保护、降低数据挖掘结果(隐藏某些关联规则或轻微改变分类模型)、差分隐私保护。
差分隐私是研究人员最近提出的,其基本思想是通过添加噪声的方法,确保删除或者添加一个数据集中的记录并不会影响分析的结果;因此,即使攻击者得到了两个仅相差一条记录的数据集,通过分析两者产生的结果都是相同的,也无法推断出隐藏的那一条记录的信息。
经过匿名处理后,信息不包含用户的标识符,就可以公开发布了吗?事实上,仅通过匿名保护并不能很好的达到隐私保护目标。例如,美国在线AOL公司在2006年曾公布了匿名处理后的3个月内近2千万条真实的搜索记录,虽然个人相关的标识符信息被精心处理过,但记录的其它内容如搜索条目、时间以及点击的链接并没有做过任何处理,所以搜索的内容涉及到的个人隐私敏感信息与特定用户有着密切的联系。纽约时报随即公布了其识别出的1位用户,编号为4417749的用户是一位62岁的寡居妇人,家里养了3条狗,患有某种疾病等等。
另外,大数据的可信性在应用中也起到关键的作用。数据自身就是事实,数据可以说明一切,但当前网络使数据面临着被攻击的威胁,威胁之一是伪造或刻意制造数据,使用错误的数据进行分析决策往往会导致错误的结论。而当前网络中虚假信息的产生和传播变得越来越容易,用信息安全技术鉴别所有数据来源的真实性是不可能的。威胁之二是数据在传播中的逐步失真,导致的原因之一是人工干预的数据采集过程可能引入误差;原因之二是现实情况发生变化,早期采集的数据已不能反映真实情况,例如,餐厅电话号码已经变更,但早期的信息已经被其它搜索引擎或应用收录,所以用户可能看到矛盾的信息而影响其判断。
因此,大数据的应用分析,要求使用者有能力判断数据来源的真实性、保障数据传播途径和数据加工处理过程,同时根据实际应用判断哪些数据需要进行隐私保护以及采用哪种隐私保护方法,防止出现错误的分析结果以及用户隐私信息泄露。
目前大数据一般采用分布式文件系统技术在云端存储,在对云存储环境进行安全防护的前提下,还可以对关键核心数据进行冗余备份,强化数据存储安全,提高企业大数据安全存储能力。数据管理层面的安全保护技术,如加密数据查询和可信硬件等,可以加强大数据系统的安全性和隐私性,但无法完全替代在存储层面的安全措施的作用。企业和组织中大数据分析技术的信息安全管理平台架构主要包括所有IT资源(包括网络、系统和应用)产生的安全信息(包括日志、告警等)进行统一实时监控、历史分析,对来自外部的入侵和内部的违规、误操作行为进行监控、审计分析、调查取证、出具各种报表报告。
大数据带来了新的安全问题,但它自身也是解决问题的重要手段。业界对系统安全的共识是,没有一种安全措施能够防范所有安全威胁,多层次的安全机制才能最大限度地保证系统安全。本文分析了大数据在存储、应用分析和管理上的安全方法和现状以及未来需要研究的趋势,目前用户数据的收集、存储、管理和使用等均缺乏规范,更缺乏监管,主要依靠企业的自律,用户无法确定自己隐私信息的用途,而在商业化场景中,用户应有权决定自己的信息如何被利用,实现用户可控的隐私保护。只有通过技术手段与相关政策法规等相结合,才能更好的解决大数据安全与隐私保护问题。
[1]百度文库:大数据
http://baike.baidu.com/link?url=2a26iTggpbJ3iG-jLzwHCrYyBJUub aWVVbRpaMFAfC35PQWBm5y4eWSlgn33IdKiN9kkiWhxokW1_owbO U2c77QSyq6Kv2bp2s8GjvrHOFXRkmzUMGTU3Sfo1cUlx9qC
[2]豆丁:大数据安全问题,http://www.docin.com/p-1399064031. html
[3]田洪亮,张勇,许信辉,李超,邢春晓.可信固态硬盘:大数据安全的新基础[J].计算机学报,2016,39(1):154-168
[4]马立川,裴庆祺,冷昊,李红宁.大数据安全研究概述[J].无线电通信技术,2015,41(1):01-07
[5]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258
甘红梅(1986—),女,四川广安人,四川长江职业学院,助教,研究方向为大数据、信息安全。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!