时间:2024-07-28
孔灿, 于洋, 姜林彤
(深圳供电局有限公司, 广东,深圳 51800)
档案数字化已经成为现今数据存储的主要形式,数字化档案的存储数量也呈现爆发式增长的趋势。不同于传统的纸质档案,数字档案具有检索速度快、查找文件准确、信息资源共享等特点[1]。但是由于网络数据传输负载不均衡,造成异质异地数字档案的备份数据分配能力较弱,备份系统的响应时间较长,如何提高数字化档案的备份性能成为了现今网络存储领域研究的重点。NAS作为一种网络附加存储类型,可以在数据存储服务器上应用。NAS以数据作为工作核心,使得服务器和存储设备成为各自独立的存在,实现数据的集中管理。伴随着现代科技的进步,NAS技术得到了发展,促进其得到广泛推广应用的是千兆以太网的出现与使用[2]。存储网络带宽将NAS存储的性能大幅度提升。并且,在NAS中,具有专门管理文件的功能。通过一个文件系统管理磁盘阵列。对存储、备份的文件进行管理,设置相应的网络安全和访问授权[3]。在工作过程中,NAS可以根据服务器或客户端的指令,对相关数据文件进行优化管理。降低数据备份过程中,数据传输时间,同时还可以提升日后的数据运行效率[4]。作为企业的核心信息资源,档案是业务活动的重要工具,也是凭证性信息记录。随着企业档案的复杂化,其数字化管理变得越来越重要。尤其是一些不可缺少的信息,为了保证其安全性,数字化档案异质异地备份被提上日程[5]。本文以NAS架构为基础,完成数字化档案异质异地备份系统的设计,实现档案异质异地完美备份。
对于网络附加存储设备,也就是NAS架构的设计,其具体结构如图1所示。其中包括存储器件,例如: CD/DVD驱动器、可移动的存储介质等[6],以及内嵌系统软件,可提供跨平台文件共享功能。
图1 NAS结构示意图
在备份系统设计过程中,一般情况下,将NAS设备配置为文件服务器,通过工作站或服务器[7],进行网络协议、应用程序的操作,实现文件访问的效果。通过客户端和 NAS文件共享设备进行NAS连接,依靠企业的网络基础设施,来保障设备的正常运行。
系统设计中,另外一个不可或缺的硬件,就是磁盘列阵。一般磁盘阵列包括三种样式,分别是外接式磁盘阵列柜、内接式磁盘阵列卡、软件仿真[8]。文中设计的数字化档案异质异地备份系统,需要的是内接式磁盘阵列卡,可以为数据提供保护性、可靠性、可管理性[9]。由于磁盘阵列在整个系统中,作为数据存储的主要工具,对其技术上的领先性作出考量,并结合本单位的实际应用数据规划合理安排[10]。其主要内部结构如图2所示。
图2 磁盘列阵结构图
网络附加存储设备、磁盘列阵的设计,作为备份系统的硬件设施,支撑着系统软件的开发与设计。
数字化档案异质异地备份系统软件的设计,主要包括几个方面,首先对需要备份的数字化档案进行预处理,然后对备份数据进行均衡负载处理。最终实现数字化档案异质异地备份。
在数字化档案异质异地备份工作进行前,需要预先将数据进行处理,对文件中包含的重复数据进行剔除,从而加强对备份数据的管理。文件分块是数据预处理的重点,通过对数据块的单实例化存储,实现重复数据删除的目标。首先,将需要备份的源文件进行分块,数据块的边界,通过字节区域产生的hash值确定。分块方式主要包括固定分块、变长分块两种。其中,由于变长分块对数据变化的敏感性比较低,并且该方式是以内容为基础,所以该方式成为主要手段。此外,在进行重复数据删除的过程中,可以对Rabin Figerprint算法进行应用。该算法的思想内容是当A([b1,b2, …,bm])中,包含m个二进制字符,而t作为不定元,那么,通过A可得出关于m-1度的多项式,如式(1):
A(t)=b1tm-1+b1tm-2+…+bm-1t+bm
(1)
随后,形成一个k次多项式P(t),如式(2):
P(t)=a1tk+a1tk-1+…+ak-1t+ak
(2)
将A(t)处P(t)的余数用f(t)来表示,则其度数为k-1。并且,以给定的字符串A作为依据,可以得出关于f(A)的公式:
f(A)=A(t)modP(t)
(3)
但是该算法有一个特殊点,就是当字符串A与字符串B的指纹不同时,字符串A和字符串B也不同。但是当字符串A和B的指纹相等时,不能代表字符串A一定等于字符串B。所以,该算法满足了弱哈希的性质,在重复数据删除技术中,作为基于内容的变长分块算法,受到了广泛应用。但是在重复数据的判断过程中,总会存在小部分误判的情况。这种时候,可以根据数据块位数组的大小,进行数据误判率的计算。当用n代表元素数量,ε表示允许的最大误判值,m为位数组的位数,现在使误判率f小于ε,可得到式(4):
(4)
通过式(4),可以使得哈希函数取得最优个数。此外,在对数据进行预处理的过程中,可以建立目录层级哈希树,用以作为预处理的数据结构。在哈希树建立完成后,在备份服务器中,利用哈希树查找相应的已备份文件。若存在相同数据,则进行该哈希树的剪枝,减少备份的目录结构和文件个数,完成重复数据的删除。在节约带宽同时,降低服务器压力。
在数据预处理完成后,经由网络附加存储设备进行存储。但是,由于NAS的特点是文件保存,对于存储的数据不能进行处理。因此基于NAS架构,通过客户端程序的辅助,完成了NAS集群管理,如图3所示。在这个过程中,打破传统想法,使用户发送请求时处于分散发送的情况,并且直接将请求发送给管理NAS服务器。这样对NAS服务器的并行度有所增强,也就提升了整个备份系统的工作性能。此外,由于对NAS服务器数据进行了统一的管理,有效提升了管理源数据安全性、高效性。
图3 NAS集群用户请求处理流程
根据图3所示,在客户端发送备份请求后NAS服务器进行接收,并且查看该数据种类。如果适合该服务器存放则直接返回数据。相反,则会将数据应该存放的NAS服务器地址返回。经由负载均衡设备,将数据向正确存储服务器发送。在这个过程中,每个NAS服务器对自己存储数据负责。对于其他数据,直接告诉客户端对应NAS服务器IP地址,实现了负载平衡,达到很好的并行访问性。并且根据负载均衡的特点,设计备份系统的负载均衡模型。用以计算分配站点数,实现备份任务最短时间内完成。假设,某一备份任务有k个站点,其触发时,通过预测机,对每一个MOSS代理和存储服务器的负载情况进行预测,并将信息发送给调度机,调度算法将备份任务进行分配,则每个MOSS分配到的站点数为
θi=(βi/Σβi)*k
(5)
式中,βi表示第i个MOSS代理空闲度。当我们将第i个存储器的空闲度用pi表示时,可以得到:
ζi=(pk/Σpi)*k
(6)
则每个存储器分配的站点个数为ζi(1≤i≤n)。至此,完成了关于NAS集群的数据分配,以及数据的分布式均衡负载处理。加快了数据备份处理时间。
在数字化档案异质异地备份过程中,每一个集群的NAS服务器都有可能成为数据源。因此,在融合备份源和备份目的的功能后,对备份代理程序进行设计,达到备份功能的灵活化。由于集群NAS中的NAS服务器,都可以执行多对多的关系。因此,每一个NAS服务器,可以提高备份源数量,并且完成多个备份目的。该程序包含的有两个任务列,负责记录NAS服务器中包含的备份源,如图4所示。
图4 备份代理程序结构图
如图4所示,每个节点与两个线程相连接,其中备份源引擎响应线程的作用,在于响应备份过程中引擎的命令。辅助备份过程中,管理员对备份过程的管理。除此之外,可以通过NBP协议的定义,实现数据备份。该协议规定了整个备份过程的各个步骤,并对备份管理器、备份源、备份目的进行定义。最终,实现基于NAS架构的数字化档案异质异地备份。
为了验证该系统的运行效果,进行实验测试。实验所需硬件、软件需求如表1、表2所示。
表1 硬件需求表
表2 软件需求表
完成对实验所需软件和硬件的准备后,进行运行环境的搭建。首先确定其以太网为100 Mb,实验测试通过四台IP交换机相连接,其中一台作为客户机存在,其余的是NAS服务器。然后,进行网络化的管理,在控制器中完成IP地址更改,将现有局域网和磁盘阵列管理相连接。为了保证实验的科学性,选择两种传统系统,作为对照组,进行数字化档案异质异地备份测试,并对三种系统性能进行分析。
基于上述实验准备,在实验中,选择分别为10 GB,50 GB,100 GB,150 GB,200 GB大小的备份文件,进行系统备份速度的测试,其结果如表3所示。
表3 三种系统备份速度变化表
通过表3可以看出,随着文件的增大,三种系统的备份速度都在降低。相比两种传统系统,文中系统速度下降最低,从7.5 kB/ms降到了6.0 kB/ms,而两种传统系统,在文件大小为200 GB时,备份速度已经分别降到了4.8 kB/ms与4.5 kB/ms,足可以看出文中系统的优势。
此外,对于系统实现备份工作的响应时间做出具体测试,设置备份数据任务量逐渐上涨,三种备份系统的数据响应时间如图5所示。这个过程中所谓的响应时间,表示系统从接收备份请求开始,直到完成备份工作的时间,以此来验证系统性能。
(a) 文中系统
通过图5我们可以明显看出,三种备份系统随着备份数据量的不断增加,其响应时间也在逐渐延长。但是文中设计系统还是占据优势的。文中设计备份系统从数据量增加开始,其响应时间增长速度一开始比较缓慢,直到数据量达到256 kB时,上升幅度才开始增加,直到数据量达到1 024 kB时,系统响应时间为80 ms左右。传统系统2也是前期响应时间增长缓慢的,但是到达数据量增至256 kB时,响应时间开始急速增长。直到数据量为1 024 kB时增加到了190 ms左右。而此时,传统系统1,其响应时间大概为150 ms。综上所述,文中设计的系统,通过对备份数据的优化管理,将系统的响应时间降低了50%左右。
依托于NAS架构,进行了数字化档案异质异地备份系统的设计。设计软件与硬件部分,首先进行数字化档案预处理,并优化管理群集 NAS中的备份数据,减少备份数据响应时间。通过本文的设计,在保证数据安全性的情况下,提升了企业备份数据的速度。但是由于一些条件约束,文中设计系统虽然可以产生良好的应用效果,但是还不够完善,将来可以向这方面深入研究。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!