当前位置:首页 期刊杂志

浅谈《压水堆核电站主题词表》的编制及对核电文档管理的影响

时间:2024-04-24

邓倩

【摘 要】标引通过对文档信息内容特征的处理,形成信息集合以提供用户检索利用。随着网络的普及和信息技术的广泛应用,利用主题词对信息资源进行检索已成为核电站各类用户获取信息的重要途径。论文系统介绍了主题词表的编制过程、编制技术及特点。

【Abstract】By processing the information content of the document, the information collection is formed to provide user retrieval and utilization. With the popularization of the internet and the wide application of information technology, the use of subject thesaurus to retrieve information resources has become an important way for all kinds of users of nuclear power plants to obtain information. This paper introduces the preparation process, preparation technology and characteristics of thesaurus.

【关键词】标引;主题词表;文档管理

【Keywords】indexing ; thesaurus; archive management

【中图分类号】TM623 【文献标志码】A 【文章编号】1673-1069(2017)12-0013-03

1 前言

《广东核电合营有限公司主题词表》于1996年完成编制,是单一文档标引工具,仅包括字顺表和英汉对照表,是一本不具有语义关系的、不完整的主题词表,其缺陷主要体现在:词量偏少、收词范围偏窄、无分类,无法实现系统性查词及准确定位等。随着网络化的应用,对检索系统的实用性、易用性提出更高要求,特别是自然语言检索功能。因此2007—2008年大亚湾核电运营管理有限责任公司启动“压水堆核电站主题词分类研究”项目,对原词表进行全面修订。

2 标引与主题词表

标引是通过对文档信息内容特征的处理,形成信息集合以提供用户检索利用,是文档检索的基础和建立各种信息检索系统的前提条件。

主题词表又称主题词典、叙词表,它是将自然语言中的名词术语经过规范化和优选处理,转变为主题词的名词术语控制工具,主要用于文档主题标引、信息检索、组织目录和索引,是揭示信息资源内容、组织信息检索系统的重要工具,也是信息存储和检索过程中连接标引人员和用户思路的桥梁。一个好的词表,不仅能帮助标引人员提高查词速度,减少选词错误,还能引导标引人员在标引时做出正确的判断,提高标引效率。

一本兼具科学性、专业性与实用性的主题词表,在提高文档信息处理的质量和效率的同时,还能成为信息检索的导航工具。随着网络的普及和信息技术的广泛应用,利用主题词对信息资源进行检索已成为用户获取信息的重要途径。

3 词表编制的指导思想和原則

①在保证主题词表科学性的前提下,加强实用性,充分满足计算机和网络环境下文档标引和检索的需求;充分满足最终用户——一般员工的检索要求,提高其自然语言检索能力。

②在保证主题词表为综合性词表的前提下,兼顾专业信息标引和检索的需要,处理好主题词的专指性。

③要考虑到主题词表的修订换版给标引一致性和检索实践带来的影响,例如:对部分删除的主题词的处理,应先删除已标引文档中的记录,再删除主题词的步骤。

4 词表的编制方法和过程

4.1 字顺表

4.1.1 选词依据

①来源之一:核电生产建设活动中产生的约30万份文件和档案。在增补主题词的过程中,通过查阅文件档案,将用户的习惯用语作为非正式主题词,提高文档的查全率。

②来源之二:专业词典,主要包括英法汉核能词汇、英汉原子能词典。

③来源之三:电站生产管理信息系统(以下简称COMIS),该系统包含电站所有设备目录,从中增补了大量设备类主题词。

4.1.2 选词范围和重点

涵盖压水堆核电站从建设到生产的各主要专业活动,由于压水堆核电站的日常运营活动是以系统和设备为核心,因此着重增补设备类主题词,占总量的35%。

4.1.3 主表的构成

主表形式发生变化,由单一的主题词表演变成“基本词汇+子表”,“子表”是把代表生产活动特点的各类代码进行剥离而形成的,包括:系统代码表、厂房/建筑物代码表、组织机构代码表、LOT包。这样的构成方式既体现了压水堆核电站的管理特点,也符合用户的检索习惯。

4.1.4 审词方式

新增词汇均通过专业部门审查,审查内容主要包括:词汇是否反映电站生产实际、词量是否足够,多次沟通后,最后项目小组根据反馈意见完成修订。

4.2 主题词范畴表

4.2.1 范畴表分类方案

范畴表共设15个一级类目,包括:电站建设、机组运行、维修管理、生产计划与联网、设备、反应堆结构与设施、检查监督与试验、工程改进、化学与环境监测、安全管理、质量保证、应急准备与响应、信息管理、综合、基本术语。

4.2.2 类目设计思路

既全面覆盖,又突出重点。“全面”是指涵盖了压水堆核电站从建设、生产、运营、维修到工程改进的全过程,涵盖各主要专业活动,“突出重点”是指体现生产运营活动的主要专业活动的主题词(机组运行、维修、检查监督与试验、设备)占到了总量的43%。为了紧扣核电站以系统和设备为中心的管理导向,设立“设备”作为一级类目。同时考虑到压水堆核电站与常规电厂的区别,设立“反应堆结构与设施”作为一级类目。endprint

4.2.4 词量统计

4.3 族系表

4.3.1 工作依据

汉语主题词表、电力主题词表。

4.3.2 族首词的设立依据

由于族系表将应用在检索系统进行自动扩检、上位词登录及族性检索,在设立族首词时,除参考权威词典外,还根据压水堆核电站的技术特点和工作实际情况进行了探索,新增346个族首词,例如:除盐器、变电站、维修等。

5 主题词表修订技术与规范

5.1 主题词修订原则

①依据科学性与实用性、综合性与专业性相结合的原则选词。在主题词修订过程中,注意词的学名与俗名的关系处理和词形的选择,学名具有科学性与稳定性,俗名具有实用性和阶段性。

②对原主题词使用频率很低的,可作为删除或作为另一主题词代用词的依据,对有一定标引频率的关键词,作为主题词预选范围。

③遵循GB 13190-91“汉语叙词表编制规则”中“4 叙词选定”和“5 词间关系处理”的规定。

5.2 新增主题词规则

①选定的主题词,须一词一义,词形简练,概念明确,符合科学性。不选用概念容易混淆、词义不清的词语作为正式主题词。

②选定的主题词以名词为主,避免使用单字形动词,对于形容词、副词、数词及量词,要慎重处理,一般不选。

③词组型的主题词组,对于两个或两个以上具有交叉关系的简单概念综合而形成的复合概念,对于事物与事物方面所构成的复合概念,就收选为主题词。

④将专有名称收选为主题词,但对于不同词形的同一名称建立用代关系,把最通用或惯用的名称作为正式主题词,其他名称作为非正式主题词。

5.3 主题词修改、删除规则

①主题词内涵具有时代局限性或词义不清,概念易混淆,孤立的没有任何参照关系或过于专指或词形过长可以组配表达,则考虑删除。

②主题词有错别字或词义错误,修改更正该词;若不能更正,则删除。

③对主题词间的概念关系起到承上启下作用的主题词不能删除。

④该词为起到概括或限定上位主题词概念外延作用的下位主题词,即可枚举的属种关系,一般处理时,或者其下位主题词全部保留,或者全部改为被代词。

5.4 主题词参照关系的修订和建立规则

建立和修改主题词间关系的原则,依据GB 13190-91“汉语叙词表编制规则”中“5 词间关系处理”的规定。以下为补充规定:

①属分关系反映的是属种概念的包含关系,因此需要建立概念成族的属种关系,修改非概念属种关系包括非概念属种关系的字面成族。一般属种关系包括表达概念的物体之间、工艺之间、学科之间、现象之间的主题词属种关系,只有行政、地理区域的词,人体、生物体的系统和器官的词,不存在属分关系。

②对较专指的族首词或族内数量偏多或层次级别过多时,适当归并词族,取消族首词或分解词族,截断属分关系,形成新的族首词(即使族首词间从概念上具有属分关系)。

③當族内词与其上位主题词具备属分关系时,同一等级的分项可以存在多种划分标准,同级族内词按字顺排列。

6 词表概况

①编制完成一个完整的专业性的压水堆核电站主题词表,包括主表、范畴表、族系表。

②词表总量为14958 条,其中正式主题词14313条,非正式主题词 645条,族首词346条,入族词有4518条。

③字顺表由主表和子表组成。子表包括:系统代码表、建筑物/厂房代码表、组织机构代码表、LOT包号。(表2)

④范畴表共设15个一级类目。包括:电站建设、机组运行、维修管理、生产计划与联网、设备、反应堆结构与设施、检查监督与试验、工程改进、化学与环境监测、安全管理、质量保证、应急准备与响应、信息管理、综合、基本术语。

7 词表特色

①体现压水堆核电站的管理重心和技术特点,具有极强的实用性。

②具有较多的先组式复合主题词,便于在计算机检索中提高查准率和避免发生虚假的组配现象。

③主题词及范畴表类目设置来源于压水堆核电站的建设和生产实际,符合广大用户的检索习惯。

8 词表应用前景

①为国内压水堆核电站文档管理领域首创,可成为中国压水堆核电站之间信息处理和信息交流的底层支持性文件。

②范畴表、族系表的编制,为同行业文档工作者从事主题标引工作提供了通用的规范化词表。

③由于主题词来自于电站的大量文档,反映了电站的建设和生产实际情况,因此可成为各基地电站信息查询和信息交流的便利工具。

④族系表的编制和词间关系的不断完善,为网络环境下丰富计算机的自动检索方式创造了必要条件。

9 结语

编制完成的主题词表结构严谨,特色鲜明,以核电站生产和设备管理为主线,包含压水堆核电站建设、设计、运营、维修等主要电站活动,具有极强的实用性,同时填补了国内核电行业的空白,是核电领域首部字顺表、范畴表、族系表俱全的专业性词表。大亚湾核电已经安全运行了50多年,在为国家、集团创造了良好的经济效益的同时,也积累了大量宝贵的知识财富和反映压水堆核电运行历史、经验和技术积累的档案。如何利用好这些宝贵的档案,冀望《压水堆核电站主题词表》的编制成功,能深化文档信息资源的挖掘,提升文档检索效率和文档服务水平,为核电站的安全运营做出更大的贡献。

【参考文献】

【1】张燕飞,信息组织的主题语言[M].武汉:武汉大学出版社,2005.endprint

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!