时间:2024-05-04
文/苏冉 丛磊
随着信息技术快速变革,互联网数字信息化技术的发展促进了出版业标准规范信息化的实现进程,出版业标准规范信息化工作在出版产业通用数据交换技术等应用中发挥着重要的支撑作用。出版业标准规范的信息化能够提升相关系统开发效率,也能在各种实际应用中提高出版工作效率,从而对出版业的社会效益与经济效益协同发展产生实际推动力。
出版业标准规范信息化实现的深度与广度体现着出版业发展的深度和成熟度。理想的标准规范信息化建设进程是根据《新闻出版标准汇编》建设统一配置的通用信息化系统。然而,尽管国家新闻出版署科技与数字出版司组织四个标准化技术委员会对新闻出版领域内的相关标准进行了收集整理,编辑完成了《新闻出版标准汇编》,使新闻出版领域内的标准形成了标准体系,但是由于在实际应用中,各单位采用不同的格式标准储存信息数据,导致各单位之间不能直接使用自有软件来识别、利用外部系统发送的信息。据了解,各单位之间进行数据通信必须重新设计新接口进行信息识别,然后转化为内部信息格式进行处理;或者阅读电子内容后再通过人工处理。这种处理方式不够高效,无法提高各单位工作效率。
目前出版业标准信息化工作缺乏协同高效的工作机制,有标准缺失、老化、滞后,标准间重复、交叉、矛盾,标准具体实施工作薄弱等问题。这些问题的存在阻碍了出版业标准规范信息化工作的发展。[1]
由于各个单位对同一标准内容的理解不同,对同一标准的语言描述有差异,导致同一标准出现二义性和模糊性。因此,标准规范数据的一致性格外重要。针对标准的主要内容,需要保证标准的名称、说明属性等保持一致性,主要涉及以下四个方面:
标准内容结构化是指通过标准的章、条、段、表、图和附录的层次结构提取标准的文本文件内容。按照规范性要素划分,标准分为名称、范围、规范性引用文件、术语和定义、符号和缩略语、要求、规范性附录。
由于标准类型不同,标准中内容的层次结构也不同,通常标准内容按照列项划分,这样标准内容就可以以树形结构展示,如图1。树形结构符合XML结构特点,可以将标准结构转化成XML文档。但是由于XML文档不能高效管理标准,需要通过将标准映射成关系表,添加关联字段,达到标准规则使用树形结构存储。[2]
图1 标准结构图
实现标准一致性需要分析出标准之间的一致性关系,给出判断两项标准存在一致性关系的准则。在标准结构化的时候,各项标准已经存储到关系表中,为了简化关系表,需要在关系表中再添加一份引用标准,在表中直接存储标准编号,便能快速定位各个关系内容。
《新闻出版标准汇编》标准之间的一致性关系分为以下三种:
(1)标准A在规范性引用文件中标有标准B,则标准A对标准B保持一致,A要与B保持一致性;
(2)标准A、B都在规范性引用文件中标有标准E,则标准A、B都对标准E保持一致,A、B要与E保持一致;
(3)标准A、B是标准C某一方面的专用标准,则标准A、B要保持一致。
通过查询关系表,符合下面三种情况时,存在一致性关系:
(1)多个标准引用同一个标准;
(2)标准之间存在引用关系;
(3)标准属于《新闻出版标准》同一方面的标准。
通过存储常用词语和新闻出版行业的专业术语,实现分词更加准确。基础词库首先选择现代汉语词典中的词语,然后添加新闻出版领域的专业术语、常用词扩充词库。[3]同时,还要在词库中删除在出版领域中的停用词、人名、地名、组织机构等。词库的有效优化能够大大提高分词的准确性和性能。
根据词库采用基于字符串的正向最大匹配方法对标准内容分词,采用向量空间模型VSM的句子相似度算法计算标准内容的相似度值,实现一致性测试。
一致性测试有两种:
(1)标准数据元素名称相同或相似,但是语义不同,需要在数据元素名称相同的情况下对数据元素的语义进行测试分析。
(2)标准数据元素的语义相同或者相似,但是数据元素名称不同。需要对数据元素说明属性语句进行语义分析相似或者相同,对数据元素的名称进行测试分析。[4]
由于这两种情况都要进行相似度分析,因此可以使用两种算法:词语相似度算法和中文语句相似度算法。词语相似度采用向量空间模型VSM的句子相似度算法,此时需要把词语作为一个句子,每个字作为一个词。对于具有描述性的句子则需采用不同方式,由于句子由词语构成,句子中的关键词不同,会对句子相似度造成很大影响。因此,需要将句子看作多个关键词的集合,对关键词(不包括停用词、人名、地名、组织结构)构造向量模型,然后计算相似度。
标准化工作在出版业发展的各个环节中发挥着基础支撑作用,可以从系统架构设计、基础标准研究、标准评估机制等方面加强工作。
目前,出版业标准规范信息化工作缺乏系统架构的统筹设计,各单位系统之间标准内容重复、交叉,协调对接存在诸多阻碍和问题。为此,可以首先将各类标准规范集成封装并存入数据库,通过标准管理层实现规则内容统一组织和高效利用;其次,从数据库中挖掘所需规则,综合各项技术建立适用于各个单位的标准库,并以此为基础构建具备推荐、搜索等应用功能的统一化规则内容网站;最后,通过应用层,直观地展现企业内部出版、项目、工作人员等相关规则,帮助管理及设计人员等快速掌握规则信息。
为实现以上设计,可以将建构设计为以下三层:标准管理层、集成开发层、应用层。(如图2所示)
其中,标准管理层维护一份《出版业标准规范信息表》,结合行业发展现状和需求,对于没有国家标准而又需要在全行业范围内统一的技术要求秉承急用先行、重点先行原则[5],协调现有的常用基础标准、《新闻出版标准汇编》和亟待统一的技术要求,确保各种标准在不同产业环节和应用领域的一致性,使标准化工作在解决资源管理分散、数据共享不畅和业务协同不足等问题上发挥支撑作用。
集成开发层完成标准规范的集成开发设计,将各类标准规范集成至对应模板并存入数据库,通过数据库管理、个性化管理等功能,实现数据的统一管理与标准要素准确搜索。[6]
图2 标准规范信息化实现总体架构
应用层在规范集成开发设计的基础上进行规则管理和可视化开发设计,需要先从规则数据中抽取出系统建设所需规则内容数据库,然后再通过各种技术手段实现对规则数据的应用。
基础标准作为其他标准的依据和基础,具有深远的指导意义。随着出版业的快速发展,各类产品和出版服务形态不断升级,不断涌现出各种新型术语需要被准确定义,对于不适用于现发展阶段的术语则需要被及时改写。因此,除了构建系统架构,还要及时修订出版业标准规范,同时建立可提供检索和查询的标准数据库。
目前虽然已经制定和发布了多项标准,但这些标准的执行力度较弱,在各个单位中依然存在诸多内部标准,因此标准规范对提升产品和服务质量的支撑作用亟待增强。建立出版业标准规范评估机制、定期开展标准评估能够大大推动标准规范信息化进程。而标准评估可以从标准质量、标准的实施效果两方面进行评估。其中,标准质量的评估涉及内容完整性、指标参数适用性、标准内部一致性、技术规则合理性、要求明确性、使用者可操作性、相关标准间协调性、未来可扩展性以及编写规范性等。标准的实施效果评估涉及标准范围的科学性、促进技术进步的程度、满足业务需求的程度、支持政府决策的程度等。[7]
近年来我国新闻出版业标准规范信息化工作取得了一定发展,但是标准规范之间的一致性和协调性尚未成熟。本文对新闻出版业标准规范的一致性保持和信息化实现,以及在一致性方面对标准规范数据名称和说明描述存在二义性或模糊性的问题进行了研究,并提出了一致性测试算法;在信息化实现方面,技术上采用标准管理层、集成开发层、应用层三层架构,以标准规范集成开发为重点,推进相关出版人员快速搜索标准和高效使用标准。
新闻出版业标准规范信息化是出版业发展的必然方向,也是实现我国出版业高质量发展的关键支撑。我们深刻认识到标准规范信息化工作对于出版业发展的催化作用,只有持续推进标准制定与实施,及时对标准的动态进行信息化的维护及更新,促进标准规范引领产业活动、提升行业管理水平,才能不断推动出版业发展,进一步提高出版业的社会效益与经济效益。[8]
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!