当前位置:首页 期刊杂志

中文石刻拓片数据库问题研究

时间:2024-05-04

丁小蕾,程 序

(首都图书馆,北京 100021)

1 国内外中文石刻拓片资源库建设情况

石刻是人类记述文明的重要载体,其功用可以“证经典之同异,正诸史之谬误,补载籍之缺佚,考文字之变迁”。古人为研究石刻,常以纸覆之拓印其文字和图案。在信息技术飞速发展的今天,纸质形态保存石刻原貌的拓片资源在数字技术的驱动下,以全新的方式呈现在研究者面前,中文石刻拓片数据库便是这一方式的具体体现。笔者收集整理了全球范围内通过互联网提供服务的知名中文石刻拓片资源库,详见表1。

表1 全球范围内通过互联网提供服务的知名中文石刻拓片资源库

(续表)

除上述数据库外,我国还有多家单位拥有数量可观的金石拓片,如:上海图书馆约有15万件,中国科学院图书馆约有5万件,山东省图书馆有2万余件,浙江图书馆有3万余件,中山大学图书馆有3.8万件,故宫博物院有3万余件,陕西师范大学图书馆有1.2万件,天一阁有0.4万余件等。虽然我国拓片收藏机构众多,但进行数字资源建设的并不多,究其原因,一方面是收藏机构对拓片资源建设的重视程度不够,另一方面是拓片资源的整理和编目难度较大,需要投入大量的人力、物力和财力,这些都是制约拓片数字资源建设的因素。

2 我国中文石刻拓片数据库存在的问题

2.1 图像数据质量不高

我国当前已有的中文石刻拓片数据库多是在20世纪末21世纪初建设的,受当时技术、设备及网络带宽等条件限制,数据库或多或少都存在图像质量不高的问题,而质量不高的应用服务型数据直接影响文献内容的传达和用户的研究热情,进而影响数据库的利用率。

2.2 检索结果准确率有待提升

一些中文石刻拓片数据库利用原拓题名进行检索,但结果不理想,原因可能是只将正题名作为题名著录或只将正题名设置为题名检索项造成的。拓片题名是极为重要的检索要素,我国中文石刻拓片数据库的著录普遍遵循《中国文献编目规则》(以下简称《规则》),但第一版《规则》和第二版《规则》对正题名的著录有明显不同的要求,在第一版《规则》中,客观题名(包括首题、中题、尾题、额题、墓志盖题等)仅被作为规定信息源参考,而第二版《规则》将客观题名直接作为正题名规定信息源,这就导致不同时期建设的拓片数据库正题名著录存在差异,当用户使用客观题名对早期建设的拓片数据库进行检索时会出现检索结果为零的情况。

2.3 资源间缺乏关联,形成“数据孤岛”

对数据库用户而言,如果在使用拓片资源的同时还能得到与之内容相关的其他拓片或古籍资源,不仅能够极大提升研究效率,还能使数据库资源得到充分利用。但是,当前我国多数石刻拓片数据库仅是对相关文献进行描述和检索,而对文献内容揭示不足,不能在应用层面上提供资源间的关联服务,缺少资源发现功能,致使数据内容难以实现关联,形成“数据孤岛”。

3 未来中文石刻拓片数据库建设方向

3.1 加强内容的深度分析及知识的挖掘

随着数字技术的快速发展,以文献为单元的传统信息组织方式已不能满足用户对知识的需求,信息组织的对象逐步由文献单元转向知识单元。

3.1.1 挖掘拓片中的信息要素。拓片中的一般性信息要素包括客观题名、书篆刻立年代、书篆刻立责任者名称、内容类型、原石形制、语种等,该类信息要素在已有中文石刻拓片数据库中均有明确揭示。此外,拓片还存在大量非一般性信息要素,如:内容主体人物(墓志中的墓主及旁系人物、纪事碑中事件主体行为人等)、内容时间(寺庙碑刻中寺庙兴建、圮毁、迁移时间、人物重要时间节点等)、内容地点(建筑物所在地、事件发生地等)、数据(买地莂、房产、募捐资金及人数等)、分项题名(法帖、诗词等)等。这些非一般性信息要素在内容揭示方面具有比主题词更精细的粒度,是形成知识单元和资源链接的关键要素。

3.1.2 完善元数据的内容结构。当前,我国中文石刻拓片数据库建设还没有统一的元数据规范,国家图书馆制定了《国家图书馆拓片元数据规范与著录规则》,北京大学图书馆编制了《北京大学图书馆拓片元数据规范》,这些规范虽然明确给出了拓片元数据的内容结构,但内容结构设计多侧重于书目信息揭示,而对内容信息揭示不足。基于此,笔者尝试提出引入内容信息的拓片元数据内容结构框架设想。该框架包括文献描述、内容描述、数据管理三个层面,其中文献描述层面用于记录文献外部特征及属性,包括载体形态、附注信息、馆藏信息、传拓地点、版本信息等;内容描述层面包括表层描述、深层描述、全文,其中表层描述按照拓片内容记述和组织的一般性规律直接快速地分析获取的信息,深层描述对拓片表层描述以外的文字内容进行深入挖掘,为数据关联提供更多可能性,全文既能提供内容的全文检索,还能清晰地展示拓片所记录的文字,更便于用户研究;数据管理层面是拓片元数据与对象数据产生连接的关键,包括格式、权限、数字影像文件编号、数据编号等,详见下页图1。

图1 引入内容信息的拓片元数据结构框架

3.2 重视资源间的关联

在网络环境中,资源间的关联显得尤为重要。通过关联,大量原本独立的数据可以被有效组织起来,形成系统性的知识结构,为用户提供更加开阔、全面、翔实,同时还可互为参考的信息,如:“楚学精庐刻石”与“张文襄公祠捐赞题名碑”从题名上看不出有丝毫关联,但实际上楚学精庐是民国时期在京的湖北籍人士为纪念张之洞等人为湖北做出的突出贡献而筹资建立的,楚学精庐即张文襄公祠堂,可见两张拓片之间存在极大的信息关联。中文石刻拓片数据库中的资源关联主要有两种,即形式关联和内容关联。其中,形式关联多见于单种拓片多册件的情况,处理方法主要取决于元数据设计时著录单位的定义以及关联项的设置;内容关联又分同类资源关联和异类资源关联,同类资源关联是指内容具有相关性的独立拓片间建立的关联关系,异类资源关联是指内容相关的各类非拓片资源与拓片资源建立的关联关系,如古籍文献、一般性图书文献与拓片关联。

3.3 以开放共享的心态构建拓片资源库

实现拓片资源关联需要建设人员对相关内容进行深入研究,在信息化技术飞速发展的今天,各建设机构应树立开放共享理念,积极引入大数据技术、NLP自然语言处理技术、AI智能等新型技术,深度挖掘资源间的关联,构建中文拓片的知识图谱。此外,由于中文石刻拓片数据库的用户大部分是文史或书画研究人员,在各自的研究领域具有较高的专业素养,建设机构可建立用户参与建设机制,鼓励他们参与拓片数据库建设,更好地完成对拓片内容的解读和描述、更快完善数据内容,提升拓片的使用价值。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!