当前位置:首页 期刊杂志

分布式系统下的元数据管理研究

时间:2024-09-03

西安武警工程大学 杨济华

分布式系统下的元数据管理研究

西安武警工程大学 杨济华

网络,通信,计算机等电子技术的飞快发展加快了信息化建设的脚步,而直线上升的信息量在给我们工作生活带来便利和财富的同时,也让我们陷入了深深的数据迷雾当中,随着移动终端的发展,使人们对于网络信息的依赖程度逐渐加深,因此对于信息资源的管理显得尤为重要,元数据,就在海量信息管理的难题中应运而生。

元数据;分布式系统;元数据分布策略

1.元数据的产生背景

元数据是为了解决杂乱无章网络数据而提出的,因此当前元数据就是为了解决数据管理问题。

区颖薇、吴开华、赵慧勤、王晔等人分别在自己的文章中对数据产生背景进行了论述,他们的观点基本一致。他们指出网络的出现使大量的信息以一种新的方式涌现在我们面前。而对这些无序的数字化信息的进行有效的检索与控制是目前各界人士都十分关注的一个问题。目前网络资源的管理、检索有两种类型,一种是机读目录(MARC),它是“用计算机识别与阅读的目录”。另一种是搜索引擎(Search engine),它是“一类自动搜索、组织网络的信息资源,并提供检索服务的信息服务系统”。数据制定简单、方便,特别是它更新快,能帮助人们及时找到最新信息,但不够精确,查全、查准率低。

在数据管理方式不够健全的背景下,为了将数据有序化,提高查询效率,元数据作为一种新的概念被提出。

2.元数据概念

关于元数据概念的认识,虽然存在层次高低的区别,但对其基本特性意见基本一致,刘嘉博士在她的论文中对元数据这一概念作了最有深度的探讨,对元数据的含义作了详尽的阐述, 认为“元数据是关于数据的数据,关于结构化数据的数据。”在文件系统中,元数据就是描述系统文件的属性信息,记录文件位置的数据,我们可以理解为“一本书的目录”。

元数据记录了数据集群的特征信息和相对信息的映射,保证了查询的准确性和数据定位的效率。

3.元数据的类型

根据不同标准,可以将元数据划分冲不同的类型

从数据组织上划分,可以分为四类:

(1)知识描述型元数据(Intellectual Metadata)用来发现、鉴别和描述信息,如都柏林核心(Dublin Metadata Core Element Set,DC)、MARC是描述信息资源的特征信息;

(2)结构型元数据(Sturctural Metadata),用来描述数据的内部特征,比如位置信息(目录、章节等);

(3)存取控制型元数据(Access Control Metadata)用来描述信息资源的权限,如使用条件,使用期限等;

(4)评价型元数据(Critical Metadata)用来评价和管理数据在整个系统中的位置

从结构化程度上划分,可以分为三类:

(1)非结构化元数据,如Yahoo;

(2)简单结构化元数据,指其字段较少,如DC;

(3)高度结构化元数据,如MARC;

从功能上划分,可以分为三类:

(1)描述型元数据,是用来描述基本信息,用来查询的元数据;

(2)结构型元数据,是记录数据的结构;

(3)管理型元数据,是用来详细记录数据信息的元数据。

4.分布式系统下的元数据

分布式系统是应对海量数据存储管理,高扩展,高可靠的数据系统。而当今社会数据量在TB、PB 甚至 EB数量级的数据中心越来越多,因此需要大量的存储资源来存储和管理这些数据,而高效简洁的数据组织管理更是必不可少目前分布式文件系统(如GFS、HDFS、Dynamo)由于其内在设计的简洁性和通用性已成为解决大数据存储管理的有效技术途径。而对文件系统数据操作均要涉及到对元数据的操作,系统文件的访问,首先就是要访问其元数据进行定位,而后对服务器的数据块进行访问修改等。虽然元数据尺寸较小,大概占整个数据空间的0.1%~1%,但访问频率占所有数据访问的50%—80%,可以看出,元数据在系统访问中是十分重要的。

5.元数据管理方式

元数据的管理算法总的来说有两种:第一种是子树划分,第二种是哈希算法,下面对这两种算法进行介绍。

子树划分分为静态和动态两种,但动态子树划分不适合命名空间树的性质因而很少使用,在这里不做介绍,主要介绍静态子树划分。

静态子树法是一种比较简单的划分方法,常出现在早期的分布式文件系统中,如NFS、AFS,而近来的分布式文件系统如HDFS也使用了静态子树划分法,该方法一般需要系统管理员来决定如何将命名空间树划分并将每一个子树赋给指定的元数据服务器。其优点是元数据访问数据服务器数量较少,因此重复访问的效率高。而缺点则是无法动态分布数据,容易产生局部负载过高的“热点”问题,还有子树的迁移比较麻烦。

基于散列函数映射的方法是将散列函数应用于文件的路径名或文件名去定位文件的元数据服务器。这种方式不但可以减轻元数据服务器间工作负载不平衡,这种方法的主要问题是元数据访问的局部性无法得以很好地保持。另外,路径名的修改会导致大量的文件元数据在MDS集群中迁移,增大了网络负载。

子树散列混合法,是将两种方法融合,子树划分对局部访问负载问题无法解决,散列算法无法处理存储负载,将两种方法混合,Brandt等基于这个想法提出了一种名为懒惰更新的混合策略(Lazy Hybrid,LH)。利用散列函数实现元数据服务器集群中元数据分布均匀,通过命名空间子树实现对信息资源的分布均匀,而两者同时使用的后果是网络的通讯开销增大。

6.小结

本文对元数据的背景,概念,分类及元数据在分布式系统中的作用和管理方式,而面对当前数据量的激增,无序化数据的管理存在巨大的挑战,这促使我们队元数据进行更加深入,细致的研究。

[1]刘仲,周兴铭.基于目录路径的元数据管理方法[J].软件学报,2007,18(2):236-245.

[2]黄斌,彭宇行,彭小宁,云计算环境中高效可扩展的元数据管理方法[J].计算机工程与设计,2014,35(9):2991-2994.

[3]Xu L,Huang ZL,Jiang H,et al.VSFS:a searchable distributed file system[C]//Proceedings of the 9th Parallel Data Storage Workshop,2014:25-30.

杨济华(1992—),男,陕西西安人,武警工程大学硕士研究生在读,研究方向:武警信息化。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!