时间:2024-06-04
冯雪
【摘要】在现今档案数字化已成为一种潮流,推动馆藏档案数字化建设,逐步实现对数字档案信息资源的网络化管理以及多渠道提供档案信息资源利用已成为大势所趋。在现今阶段各个档案部门大多数已开展档案数字化工作,对档案数字化工作有了一定经验,数字化的基本工作流程都能做的很好,但面对海量的馆藏和有限的经费如何保质保量地完成档案数字化是一个值得深入探讨的问题。
【关键词】纸质档案;数字化;鉴选;储存格式;OCR;安全性
档案资源的数字化是当前数字化档案建设工作的基础、关键,在现今阶段各个档案部门大多数已开展档案数字化工作,并已积累了一定经验,建立了较好的工作流程。本文仅就目前纸版档案数字化工作中需要注意的几点问题进行论述。
一、档案数字化必要性的鉴选
鉴选是企业档案数字化处理的第一步,档案数字化处理需要大量的资金和人力投入,所以鉴选显得尤为重要。鉴选要遵循以下原则:一是以有效性为原则,注重内容的真实性。不管是原件,还是复制件,只要内容是真实的,都应该鉴选为数字化处理的范围。二是以利用为原则,具有较高利用价值的档案应进行数字化处理,以便利用者能得到快捷方便的服务。对利用频率过低的档案可暂缓进行数字化转换,甚至不进行数字化转换。三是以抢救性保护为原则,防止珍贵档案缺失。在鉴选时,对一些形成时间较长,历史价值较高,甚至已经破损的档案,本着抢救的需要出发,可先考虑进行数字化处理。四是以系统性为原则。数字化后的档案必须具有逻辑上的完整性与系统性,不能只数字化其中一部分或几部分,保证其信息的关联性,增加其利用的可靠性。
二、选择数字档案的存储格式
扫描之后图像文件有许多存储格式,长久可行的存储优势决定文档存储格式。下面对实际工作中经常使用的几种存储格式进行比较,以便于利用。
JPEG格式是目前网络上最常用的图像格式,它可以把文件压缩到最小的格式。由于它是一种有损压缩,图像中重复或不重要的资料会被丢失,因此容易造成图像数据的损伤,压缩比越大,品质就越低,不过JPEG压缩技术也能在获得极高的压缩率的同时能展现十分丰富生动的图像。由于JPEG格式的文件尺寸较小,下载速度快,所以它已成为网络上最受欢迎的图像格式。
JPEG2000作为JPEG的升级版相比优势明显,同时支持有损和无损压缩。且向下兼容,随着档案信息网络传输的开展,这一格式也可以成为档案数字化的标准格式。
TIFF格式是一种主要用来存储包括照片和艺术图在内的图像的文件格式,可以制作质量非常高的图像,因而经常用于出版印刷。TIFF格式为无损压缩文件,压缩率低,占用空间较大,但是画质高于JPEG格式,一般应用于珍贵档案的数字化。
CEB格式文档转换过程中采用了“高保真”技术,从而可以使CEB格式的电子书最大限度地保持原来的样式,目前在政府机关电子政务公文处理中使用比较广泛。
PDF格式,可以保证打印精确的颜色和准确的打印效果,即PDF会忠实地再现原稿的每一个字符、顏色以及图象。这种文件格式与操作系统平台无关,这一特点使它成为数字化信息传播的理想文档格式。
纸版档案数字化可以根据用途分别选择存储方式。对于主要用于利用用途的可以选择尺寸较小的格式,可以有较快的网络传输时间和调用速度。对以备份为目的的可以选择图像清晰、分辨率高的存储格式。但也应考虑到到存储成本和维护费用。在实际工作中选择何种存储方式受经费、软硬件设备、目的等多方面因素的制约,在数字化工作中可根据自己的实际情况的选择适合自己的存储方式。
三、提高OCR文字识别率
OCR文字识别软件可以把图片转换成可以编辑的文字,支持JPG、PNG、GIF、BMP、DOC等图片格式。在对数字化档案进行OCR识别后,生成可以直接检索的文件,可以在文件中进行选择、复制与检索的操作,然后进行快速的关键词的查找,从而实现对数据的管理和利用。用于OCR识别的纸质档案扫描最好选择≥200dpi分辨率不要超过300dpi,过高的分辨率会造成OCR辨认困难,特别是在一些存在轻微扫描失真的扫描仪上。在扫描中做到以下几点:尽量将扫描原稿放正,否则会使字符识别困难;在扫描前人工手动清除稿件上的各种干扰小点,避免形成怪异字符;在扫描前对原稿进行水平矫正,保证所有文字的水平;对于一些纸张较薄的稿件,扫描时可能会因为透明而受到背面文字干扰,此时应使用灰度扫描。
四、注意档案数字化的信息安全性
一是确保数字化档案信息内容不被泄露。要建立相应的规章制度和技术手段,根据其信息价值的不同,对扫描档案进行安全风险评估,遵循原始档案的保密性,对一些重要的核心档案可以脱机备份,防止数据泄密。采取委托加工方式数字化服务的,必须与承包单位签订保密协议、加强数字化现场安全管理等措施,防止档案信息外流。档案数字化后的副本在利用中要根据用户访问权限,控制访问范围和操作权限。二是与纸质档案相比较,数字档案由于其不稳定性、易修改性和对设备的依赖性等特点,其保管的安全性会受到威胁。一旦所保存的数据被破坏或丢失,就会对整个电子文档系统的价值造成严重的影响。实施数字档案备份后,在数字档案信息遭到破坏后,具有较强的可恢复性。数字档案备份要坚持备份形式的多样性,可以使用光盘、移动硬盘或服务期在线备份但在此基础上还要进行异地备份。注意备份的周期的规律性与备份内容的完整性,保证数字档案信息安全。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!