当前位置:首页 期刊杂志

墓志文献数字化建设初探

时间:2024-07-28

张居兰

(平顶山学院图书馆,河南平顶山,467000)

一、墓志文献数字化建设的必要性

在华夏文化数千年的发展历程中,我们的先人留下了浩如烟海般的各种文献资料,这些古籍记载了中国历史和文化的演进脉络,是极为珍贵的文化遗产。从文献流传、保存形式来看,中国古代文献可分为传世古代文献、出土文献、民间古代文献、域外古代汉籍四大类。墓志指放在墓里的刻有死者生平事迹的石刻,一般属于出土文献。它们是记载墓主人行迹的第一手资料。墓志在汉代开始出现,到南北朝直至隋唐时期,其发展已经进入至成熟阶段。这一时期,墓志数量众多,内容丰富,是进行历史文化研究必不可少的资料。宋代之后,在出土文献中,墓志仍然占有较大比重,具有重要的学术研究意义,也具有一定的文物价值。

可以说,墓志文献是历史演进的直接见证,也是中华民族宝贵的文化遗产,具有极高的历史价值。墓志文献属于不可再生的文化资源,近年来,尽管国家加大了对墓志文献的保护力度,使其保存环境得到改善,但随着历史的推进,墓志文献古籍还是会不可避免地出现损毁,乃至消亡。目前,墓志文献整体保存环境不尽人意,各藏馆保存条件参差不齐,墓志文献保护、传承、利用状况令人担忧。因此,如何在保护的基础上更好地利用这些宝贵的墓志文献资源是历史学和图书馆学共同面临的重要课题。

有鉴于此,采用数字化手段对墓志文献进行处理,既可以使墓志文献的原图原貌得以永久保存,又可以通过数据库和网络手段对墓志文献进行发布,避免阅读原文对墓志造成的损伤,从而方便、快捷、无损地开发和利用这些宝贵资源。

目前,在学术界一些部门和个人对于包括墓志文献在内的汉文古籍的数字化建设也做出了一些尝试。出版了数字化文献的全文,还有相关索引、书目等工具书,为墓志文献的数字化提供了良好的范例和有益的经验。传统古籍整理的方式一般都是人为的手工方式,这是一项非常艰难、枯燥、复杂的工作,需要占用大量的时间和精力,对古代墓志文献的整理也不例外。长期以来,改善工作条件,提升工作效率一直都是古籍整理工作者的强烈期盼,而随着现代科技的发展,计算机信息处理技术已经成为了实现这一愿景的有效手段。

二、墓志文献数字化所面临的主要问题与解决途径

墓志文献数字化虽然是墓志文献保护、利用与开发的理想方式,但在具体实践过程中,由于技术条件限制,仍然面临不少问题。

(一)墓志文献数字化所面临的主要问题

1.墓志文献中冷僻字的处理

在墓志文献中,异体字、通假字和不规范字的使用十分常见。因此,墓志文献数字化过程中不可避免地会遇到字体障碍,这突出地表现在两个方面:一个是对字体的识别障碍,即准确录入冷僻汉字的人需要有较好的文字学基础,而对于普通的计算机操作人员来说要做到这一点则有较大困难;另一个则是技术障碍,目前广泛应用的Unicode字符集虽能较好地解决字库问题,但是与不少软件难以兼容,常用的输入法和搜索引擎也不支持大字符集,导致众多的冷僻字无法准确显示和检索。[1]因此,如何处理冷僻汉字仍是墓志文献数字化过程中必须要克服的一道难题。

2.缺乏统一的墓志文献数字化处理标准

目前,虽然不少部门和单位都在从事墓志文献数字化工作,但相互联系较少,所采取的途径也都有所差异。因此产生的墓志文献的数字化成果形式各异,不利于墓志文献数字化的可持续发展,也不利于墓志文献数字化资源共享。这其中的主要原因除了缺乏有效的协调规划外,缺乏可以依据的统一标准也是其中重要的因素。此外,相关研究的支持功能也亟待完善。[2]

3.墓志文献数字化软件有待改进

对墓志文献数字化而言,处理软件的功能是影响处理过程和成果的直接因素。目前,扫描与图像处理技术的发展已较为成熟,可供选择的数字化加工系统种类颇多,不过现在使用较多的OCR软件对墓志文献中的部分繁体字和不规范用字的识别效果较差,必须用人工的方式加以校对,而这就需要耗费大量的时间和人力。可以说,如何克服数据加工软件在处理文字方面的缺陷,提高检索速度,有效提高OCR在古文献识别上的准确度是墓志文献数字化所面临的一个重大课题。

4.文献信息的准确检索

墓志文献数字化的主要目的和基本功能之一就是迅捷、精确地检索到所需要的内容,而在这方面的表现也是评判其优劣的重要标准。全文本的数字化墓志文献已经能够做到实现所有字符的检索,但是准确度较低的问题还须得到解决;图像版可以确保信息的准确无误,但难以进行全文检索。采用对有效检索点标引的方式,可以在一定程度上解决上述问题,但仍会不可避免地遗漏某些信息。由于墓志文献中普遍存在使用通假字、异体字的现象,就使得内容的精确检索更加困难。因此,推进后控词库建设,实现关联检索也是墓志文献数字化必须要解决的问题。

(二)墓志文献数字化存在问题的解决途径

1.图文互现是实现墓志文献数字化的必要方式

在实际研究过程中,研究者往往需要对墓志文献的原始图版进行核对、勘验。因此,图文互现是实现墓志文献数字化不可缺少的一环。图文互现就是将墓志文献分别以图像、文本两种形式存储,并将文本置于与之相应的图像之下,建立索引关系,实现图文对照。图文互现的方式能够弥补图像版文献在内容检索和文字编辑上的缺陷,同时还可以有效地验证文本的准确性,使得使用者不仅能够看到原始面貌的墓志文献,也可以迅捷精准地查询到所需要的内容。特别是对于研究者而言,他们对于墓志文献原始版本信息和文本的准确性有更高的要求,通过图文对照则可以有效解决此类问题,为研究者提供可以相互参照的图文资源。

2.文献整理与计算机专业人员应当确保深入合作

墓志文献数字化是历史文化与现代信息技术的结合,这就需要通晓与墓志文献整理相关的历史学、考古学和文字学知识的人才和掌握现代信息网络知识和多媒体技术的专业人员深入协作。墓志文献数字化虽然是近年来才出现的文献整理样式,但究其实质依旧属于古籍整理的范畴,因此要顺利完成墓志文献的数字化过程,就必须拥有一批具有扎实文献学、历史学基本功的人员。同时,在数据采集与处理、数据库设计、应用平台建设等方面必须有计算机专业人员参与,以保障墓志文献数字化的技术可靠性。

3.制定墓志文献数字化的统一标准

在我国,墓志文献分布相当广泛,几乎在各地都有发掘出土;其储存也较为分散,分布在各级各地的博物馆、文化机构、考古部门,也包括为数不少的个人收藏。所以,建立完整的墓志文献资源库需要多地合作。因此,有必要建立统一的标准,包括墓志文献的分类标准、录入规则、软件和数据库的应用规范,数字化加工、利用的统一标准。显然,标准的一致和规范既有利于夯实墓志文献数字化资源共享的基础,也可以有效推动墓志文献数字化的深入发展。

4.整体规划,共建共享

墓志文献数字化对于传统文化的保护、研究、利用具有重要的促进作用。同时,这一工程又具有鲜明的基础性、学术性、公益性的色彩。为使得墓志文献数字化工作能够持之以恒地开展下去,就有必要建立协调和指导机制,制定较为完善的总体规划并加以实施。规划应包括数字化对象的内容、重点、分工状况,以及相关准则、规范。[3]应当说,这些问题的解决,可以有效避免重复建设和资源浪费,提高工作效率,并且实现墓志文献数字化工程的共建共享。

三、墓志文献数字化数据库建设技术路线

墓志文献数据库是组织、存储和管理相关数据的存储器,也是墓志文献数字化的主要载体,在墓志文献数字化建设过程中具有重要地位,而其技术流程可以从以下几个方面着手实施:

(一)技术选择

目前,墓志文献数据库的系统建设多采用Java的Web信息技术,在进行数据搜索方面亦可采纳Oracle 9i的Oracle Text技术。同时,可以配合使用J2EE的Struts、Hibernate框架的MVC技术框架,以保证处理数据的广泛性和持久性。

(二)数据选择与加工

墓志文献数字化数据库建设要根据出土墓志文献的年代、文献价值等确定收录标准,对于磨损严重,或是有重大历史文化价值的墓志应当优先进行数字化处理。从对墓志保护的角度出发,应以墓志文献的原始文本图像作为主要数据来源,尽力实现全文本化。考虑到图像要占用较大的存储空间,可以采用Oracle 9i数据库系统用以支持多媒体数据,并采取技术措施对系统进行优化,以有效解决运行速度的瓶颈制约。根据墓志文献的特点,对有关内容进行合理分类编辑,努力建设内容全面的墓志文献数据库。

(三)数字化处理

该项工作主要是对墓志文献进行扫描、检测、图像处理、文本录入等,在处理过程中,要尽量实施文本录入,保证图文能够比照。为确保文献能够有效地保护和使用,扫描时应当采取全彩模式,300 dpi,JPEG格式保存,并且应当按照页码顺序重新命名,同时对扫描后图像的顺序、偏斜度、完整性、清晰度进行检测,针对不同问题采取纠偏、去污、裁边等方式进行校正。

(四)对墓志原文图像进行标注

对于开发或购置墓志文献编辑系统,应当对文中有效的检索点进行抽取和标引,如墓志的名称、墓主人、时代等信息进行标注,力求做到图文的全文检索,应当注意防止标引过于琐碎或过于简括而影响检索效果。

(五)数据资源发布

在完成数据库的信息录入、加工、检测等程序后,下一步就应当将图像数据、文本数据、标引数据进行合成,并整理入库,编撰为墓志电子文献。在正式开始发布前,应当再进行一次全面数据库测试,确认条件成熟后,将数据库资源正式发布,实现墓志文献的数字化应用。

总之,墓志文献数字化是一项既急迫又十分有价值的文化工程,它对于保护和传承古代文化,开展科学研究都有着重要的促进意义。只要选择正确的技术路径,持之以恒地进行努力,墓志文献数字化工程必定会取得突出的成效,成为开展科研工作的有力工具。

[1] 李兵,刘国政,符永驰,等.从中医古籍数据库建设看中医古籍数字化[J].中国中医药信息杂志,2009(3).

[2] 李国新.中国古籍资源数字化的进展与任务[J].大学图书馆学报,2002(1).

[3] 陈力.中文古籍数字化方法之检讨[J].国家图书馆学刊,2005(3).

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!