当前位置:首页 期刊杂志

虚拟存储技术及其在档案信息化中的应用

时间:2024-08-31

温 洁

(中州大学 图书馆,河南 郑州 450044)

随着全球信息的爆炸式增长,存储技术越来越为人们所关注.当前,全球数据存储每年以60%的速度递增,数据的持续快速增长带来的数据膨胀压力使越来越多的企事业单位把数据存储作为重要项目来管理.

档案信息化是一个动态的发展过程,它以档案信息的资源建设为核心,以档案信息网络建设为基础,以档案信息资源共享为目标.档案信息化包含三层含义:数字化、一体化、网络化.其中,档案信息的数字化是开展信息化建设的基础,大量的馆藏档案和纸质文件需要进行数字化加工.以河南省档案馆为例,截至2010年3月,馆藏统计为746 000卷(册),假设数字化加工扫描存储为占据空间较少的PDF图像格式,每卷平均容量按30M来算(实际工作过程中,每卷的平均容量要大于30M),所需存储空间约为21T.如果要扫描存储为占据空间大的TIFF图像格式,所需存储空间还要大得多.另外,随着档案信息化建设的推进,进馆的电子文件及多媒体资料会愈来愈多,这会给存储带来更大的压力.

1 虚拟存储技术

虚拟存储,简单地说就是把不止一个的存储介质模块利用特定的技术手段集中在一个存储池中,进行集中的统一管理[1].用户使用的不再是物理存储硬件,而是虚拟的存储空间,管理者也不用管理物理存储部件,而只需要对存储空间进行管理.

1.1 虚拟存储技术的特点与优势

虚拟存储作为一种先进的存储技术,具有如下特点:

首先,它提供了一个管理手段,可以用来集中管理大容量存储系统.虚拟存储利用网络中的某一个存在环节如服务器、交换机等进行统一管理,这样一来就方便了技术人员的日常管理及用户使用.日后一旦存储需求提高,需要增加新的存储设备的时候,只需要技术人员在已有的存储系统的配置上进行一些简单的更改,就可以使用新增加的存储系统的容量,而客户端不需要有任何操作.

其次,它大幅度提高了存储系统的访问带宽.一般情况下存储系统是由多个存储模块组合而成,虚拟存储系统可以在多个模块之间进行负载平衡,把访问数据需要的整体带宽平均地分配到各个独立的存储模块上,从而使存储系统的整体访问带宽得到进一步地增大.

1.2 虚拟存储技术的实现方法

一般情况下,虚拟存储有以下三种实现方法.

1)基于主机的虚拟存储.基于主机的虚拟化存储一般通过存储管理软件实现.管理软件的作用就是向系统输出一个单独的虚拟存储设备,使得主机上的存储设备可以并行使用.这种方法需要通过管理软件完成,会缩短系统CPU的使用周期,从而造成主机的性能瓶颈.由于不需要额外增加硬件、容易实现、成本较低,对于存储要求不高的网络环境来说,是一种性价比很高的方法[2].

2)基于存储设备的虚拟化存储.虚拟化技术也可以通过存储设备内部的控制系统加以实现.这种虚拟方法通过特定的算法把逻辑存储单元映射至物理设备上,最终实现用户所看到的逻辑卷,不依附所属的存储设备.

3)基于网络的虚拟存储.基于网络的虚拟化是存储技术的最新发展方向.基于网络的虚拟化功能是在存储局域网络(SAN)内部完成的.通常有以下两种方式.

(1)带内虚拟.也叫做对称虚拟(Symmetric),通过应用服务器和存储设备数据通路的内部来实现[3].一般情况下,存储服务器上的虚拟软件允许控制数据和真实数据在一个数据通路内传递.而从用户角度来看,带内虚拟存储服务器就如同是主机上附加的一个存储设备.

(2)带外虚拟.又称为不对称虚拟(Asymmetric),虚拟功能是在数据通路以外的服务器上来实现的.控制数据存放于数据通路以外的存储服务器上,而需要存储的实际数据则直接通过存储网络在应用服务器和存储设备之间进行传递.虽然带外虚拟使得网络中的数据流量大大减少,但是要在主机端安装客户软件,也容易受到攻击.

2 虚拟存储技术在档案信息化中的应用

由于虚拟存储技术在资源数字化存储整合中的特点与优势,各类资源相对比较丰富的部门(包括档案馆)对其给予了极大的关注,并逐渐把这种技术应用到工作之中.

2.1 应用实例

目前,虚拟存储技术还没有出台统一的技术标准,单从拓扑结构方面来讲虚拟存储分为对称式和非对称式两种.对称式虚拟存储技术需要嵌入网络数据传输路径中,将虚拟存储控制设备和交换设备、存储软件系统作为一个整体来进行;而非对称式虚拟存储技术与之恰恰相反,虚拟存储控制设备完全独立于数据传输路径之外.对称式虚拟存储技术具有更高的带宽性能,安全方面也更有保障,比较适合档案馆使用.

以河南省档案局为例,采用的是通过存储设备(磁盘阵列)在存储网络上实现虚拟化的技术方案.其拓扑结构为对称式,如图1所示.其中,所选用的存储设备为NetApp公司的FAS 2040磁盘阵列,配有NetApp的Data ONTAP 8.0操作系统,包括NetApp公司所有的先进数据服务,如压缩、重复数据删除、灾难恢复和快照等.数据服务器操作系统选用中科红旗(Asianux Sever 3.0for x86-64sp2)的,数据库系统购买的是甲骨文公司的正版Oracle(11g).

图1 存储拓扑结构

磁盘阵列通过光纤交换机接入存储局域网络(SAN),系统控制信息数据和实际存储数据通过相同的数据通路进行传递.应用服务器发出的数据请求被磁盘阵列中的控制器接收后,磁盘阵列中的控制器就会在后台的磁盘中搜索存储数据(在实际的存储过程中,所请求的数据可能分布于不同的多个磁盘中),当所需要的数据被找到后,控制器就会把数据传送至应用服务器,这样就完成了一次完整的请求响应.

为了进一步加强数据保护,本实例中的磁盘阵列采用RAID 6/DP系统设计,每个硬盘上都有同级数据XOR校验区.另外,还有一个针对每个数据块的XOR校验区.也就是说每个数据块有了两个校验保护屏障,整个磁盘阵列中的若干硬盘,即使同时有两个硬盘坏掉也不影响数据的安全性及系统的正常运行.

此方案在控制器中添加虚拟化功能,将一个磁盘阵列上的存储容量划分为多个存储空间(LUN),供不同的主机系统访问,虚拟化的工作在磁盘阵列的控制器上就得以完成.这一虚拟存储方案具有如下三个特点:

1)提升了系统的应用性能.传统应用服务都是直接挂接存储,与此相比,本例的对称式虚拟存储、档案管理系统、电子资源应用服务使用大容量的高速缓存、多端口并行技术,不但消除了I/O瓶颈,还使得数据传输速度比传统方式有了显著地提高,系统的可用带宽从整体上也得到了提高.

2)存储控制更加方便.磁盘阵列将整个存储池中实际存在的物理硬盘空间变为虚拟的逻辑存储单元(LUN),并进行端口映射.主机端则将这些逻辑存储单元分别映射为操作系统可以识别的盘符.整个划分过程对用户或管理人员都是透明的,系统管理员不必再关心后端存储,只需专注管理存储空间.

3)可扩展性.在SAN之上可方便地增加、删除交换设备,从而实现超大规模的SAN.同时由于方案保持了标准的SAN结构,为系统以后的扩展提供了有力的技术保障.

2.2 采用虚拟存储技术需注意的几个问题

网络虚拟存储从一定程度上解决了数据共享和整合的难题,但也存在如下一些问题.

1)存储虚拟化技术所面临的最大问题就是还不够成熟,虚拟化的实现还要依托于后端操作系统,也就是说存储是“聚合的”而不是真正“共享的”.简言之,虚拟化功能的实现目前还必须要有文件服务器操作系统的支持.

2)存储设备裸容量大小与实际可用容量有着较大的差异.选购的存储设备在安装使用的过程中,系统本身要占去大量的可用容量.

还是以本方案中的存储设备为例,购买的NetApp FAS 2040一共包含14块1T的硬盘,裸容量大小为14T.因为系统做的是RADI 6/DP,需要两个硬盘来做校验,一个硬盘做热备份,可用容量还剩下10T,然后每个盘快照占了20%,文件系统格式化后占了20%左右,那么实际可用容量仅剩下6.4T.

3)磁盘阵列中的快照技术是在线存储设备防范数据丢失的有效方法之一,存储设备发生应用故障或者文件损坏时可以进行及时数据恢复.对于用户来讲,花费昂贵的价格购买存储设备,就是为了拥有尽可能多的存储空间.对于实时性要求不高的系统,再加上诸如Oracle等数据库本身强大的容错、备份机制,磁盘阵列中的快照技术所占用空间是否能释放出来或者减少到一定程度,是需要进一步研究探讨的问题.

3 小结

档案数字化信息的潜在增长趋势,对存储系统有着更高的要求.虚拟存储技术可以实现存储系统的数据共享,为普通用户提供更透明的高可用性,为管理人员提供更方便的可扩展性.可以有效减少存储系统的管理开销,能够有效地满足数字档案馆中数据的存储需求,它无疑将成为建设未来数字档案馆存储系统的主流架构.

同时也要清楚地认识到,由于虚拟存储技术目前尚无统一的技术标准,虚拟存储技术的实现方式各有优劣,厂商对各自的虚拟存储方案也众说纷纭,所以在考虑选用虚拟存储技术的时候,要依照本单位的实际情况,规划适合自己的存储虚拟化策略,在工作实践中感受存储虚拟化带来的诸多益处.

[1]木合亚提·尼亚孜别克,古力沙吾利·塔里甫.信息存储技术及其发展趋势[J].中国科技信息,2011(10):116.

[2]谭生龙.存储虚拟化技术的研究[J].微计算机应用,2010(1):35.

[3]王文辉.虚拟存储技术的基本实现及其应用[J].陕西科技,2007(6):42.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!