当前位置:首页 期刊杂志

美国机构知识库联盟的建设研究及对我国的启示*

时间:2024-05-22

陈美华 刘文云 毕 煜 岳丽欣(山东理工大学科技信息研究所 山东淄博 255049)

·国外图书馆·

美国机构知识库联盟的建设研究及对我国的启示*

陈美华 刘文云 毕 煜 岳丽欣
(山东理工大学科技信息研究所 山东淄博 255049)

〔摘 要〕为了改善我国机构知识库建设,实现开放获取的可持续发展,文章通过网络调查统计及文献研究,从系统软件平台功能和服务特性、联盟组织模式、资金来源等方面分析了当前美国几个典型机构知识库联盟的特色;简述了我国机构知识库联盟的建设现状,提出了美国机构知识库联盟建设给我们的启示:机构知识库联盟的建设需要实行分布式采集与集中式采集并行的模式,需要技术革新、平衡成员间发展以及建立完善的资金保障体制。

〔关键词〕机构知识库联盟 系统平台 组织模式 资金来源

机构知识库作为实现信息与知识最大化的共享、满足用户对信息与知识的需求、促进学术交流体系的变革、推动知识交流与创新的重要途径之一,已经成为开放获取理论与实践的重点领域,也是图书情报学界探讨的热点问题。[1]根据ROAR[2]和OpenDOAR[3]统计,近几年机构知识库的数量迅速增长,目前已经进入一个增长相对平缓的阶段,各国越来越重视机构知识库质量建设的完善,且相关研究也日益增多。我国近几年也不断召开以机构知识库创新发展为主题的学术研讨会,以期通过对知识库的服务、技术、政策等方面内容的研究交流与讨论,实现国内机构知识库的可持续发展。

目前,数据在一万条以上的机构知识库数量仅占知识库总数的30%,大部分机构知识库的存储量较小。另外,机构知识库的成立需要投入大量的人力、物力,很多小型学术机构没有能力建立或支持机构知识库系统的维持与服务。[4]为了解决单个机构知识库面临的资金支持和资源建设等困境以及实现各机构学术资源的广泛共享,扩大学术影响,很多发达国家和地区开始构建机构知识库联盟并且取得了良好的成效。机构知识库联盟的出现不仅能够实现更大范围内的知识产出保存、共享,而且还能节约成本,体现“规模效益”[5]。本文基于网站调查和相关文献研究,从系统软件功能、组织结构及资金保障三方面分析美国机构知识库联盟建设的实践,以期对我国机构知识库联盟的建设工作带来启示并对其可持续发展有所帮助。

1 机构知识库联盟概况

机构知识库联盟是各成员机构通过共享的方式,将各自的资源加以整合、联合或者聚合并统一提供网络化、数字化学术资源与集成知识服务的平台系统。[6]世界各国开展的机构知识库联盟的建设一方面使机构知识库联盟成员在资源方面实现了信息共享,提升了服务质量,减轻了单个机构的经济及系统管理负担,另一方面有利于各机构成员间的学术交流和扩大影响力,促进地区乃至世界的开放获取事业的发展。

表1 ROAR各国机构知识库联盟数量排行(前5位)

表2 资源数量排名前10位的机构知识库联盟

统计发现,美国、英国是目前机构知识库联盟数量最多的国家,见表1。由于ROAR对各机构知识库的相关数据记录的年代较早,本文结合有最新数据更新的Open DOAR统计机构知识库联盟的典型代表(记录数据达100万条以上),见表2,美国机构知识库联盟的数量在前10排名中占有4个,英国3个,说明占有较大数据资源的各国机构知识库联盟中,美国居于首位,其次是英国等欧洲国家机构知识库联盟。因此本文以分析典型案例的形式,选取在数量和质量上都居首位的美国机构知识库联盟进行分析研究。

2 美国机构知识库联盟建设的实践

2.1 相关软件系统功能和服务特性概览

对于建设机构知识库联盟软件的选择,除了考虑构建及维护成本以外,还要考虑两个重要因素:系统功能和服务特性。目标机构知识库的差异性决定了选择系统功能不同的软件,例如,有些知识库选择较为成熟的软件,经过简单的本地化翻译、安装配置就可以满足正常使用的需求,有些则必须由机构结合自己的业务需求进行二次开发或者根据某些语言脚本直接开发独具特色的新型软件。在Open DOAR所统计的150多种软件中,机构知识库使用最广泛的软件是Dspace和Eprints,其使用率之和超过65%。另外,有很多软件只有一个或少数机构知识库联盟使用,反映了目前各机构日益重视知识库软件的开发与创新。从Open DOAR统计的数据存储量前20位的机构知识库联盟发现,独自开发的软件正日益显示出各机构知识库联盟进行创新的优势。

分析研究新型特色的机构知识库软件,有助于科研机构在了解各系统功能特点的基础上,选择适合自己的机构知识库联盟构建平台,也有利于把握该领域技术前沿动态,并从中学习借鉴优秀的设计思想促进机构知识库联盟系统的开发与建设。[7]在美国机构知识库联盟中,以美国国家生物信息中心为首创建的PubMed Central所开发的PMC软件、密歇根大学图书知识库根据Perl脚本语言创建的系统平台和康奈尔大学电子预印本仓储使用的arXiv系统是最具特色的三款新型软件。本文选择这三个软件系统分析其功能和服务特性:

(1)PMC。PubMed Central(PMC)是由美国国家医学图书馆(NLM)的国家生物技术信息中心(NCBI)创建的生命期刊全文数据库。[8]由于其在全球范围内可以免费使用,所以目前它是国际上医学科技人员最常使用的生物医学文献检索数据库。

PMC系统在自动词语匹配、Cookies交互、链接和原文传递等方面具有强大功能。除通过期刊数据库和医学主题词数据库检索可以得到用户所需内容之外,通过该系统的单引文匹配器和批引文匹配器分别能够查找到具体文献的准确信息和获取批量文献的PM ID。[9]为方便用户获得更多的信息资源,PMC提供的其他资源链接中包括PMC International(包括欧洲PMC和加拿大的PMC)、开放获取子集(保留版权的文献)、Entrez的编程、国家医学图书馆文献存档(电子文献)和PMC引文检索。此外为了便于知识的提取与利用,PMC还提供应用程序接口网络服务,外部人员可以利用PMC的资源设计开发检索分析工具,加强对PMC检索结果的分析,如GoPubMed、AliBaba、ClusterMed、AnneO’Tate等。[10]

(2)Perl-based。在美国很多大学和研究所都把Perl作为基本的软件系统编制工具,例如,密歇根大学的电子图书馆系统是基于Perl程序语言设计的软件,像其它基于Perl语言编制的软件一样,充分利用了Perl语言的优势,无论在原来系统的基础上增加新功能而扩展,还是将这些软件与现有的工具直接接口,都是非常容易的。[11]Perl的解释程序是开放源码的免费软件,并且可以在绝大多数操作系统运行,适合各种层次的开发者进行各类软件开发。[12]

Perl语言吸收了众多语言的长处,被广泛应用于各种操作系统平台,可以很好地服务于网络编程、系统维护、程序安装、检测工具、XML处理、自动化处理、图形程序设计等许多应用领域。除与一般程序设计语言有共同之处外,还有其独有的特色。首先,Perl程序可由Perl解释器对源代码程序解释执行而不需要预先编译;其次,Perl的函数库模块可以共享,这些开源模块都在全面的Perl存档网络CPAN (the Comprehensive Perl Archive Network)上,通过搜索CPAN基本都可以找到要实现某种功能的模块;另外,Perl语言不仅可以进行结构化的程序设计,还可以像C++语言那样面向对象进行设计;最后,Perl可与C/C++相互嵌入,还可以同时访问DBM、NDBM、SDBM等多个数据库,它的可嵌入和可扩展的特性,适合多种操作系统平台。[13]

(3)arXiv。arXiv电子印本仓储(arXiv e-print archiving)目前设在康奈尔大学,并且由康奈尔大学图书馆负责运营和维护,截至2015年3月26日,存储数据达1,024,344条。[14]据Open DOAR统计,arXiv是此文库的专用软件。arXiv软件系统构建的机构知识库采用三级类目形式,将电子预印本仓储分为物理学、数学、计算机科学、定量生物学、定量金融学和统计学6个文库,其中物理学又分为航天学、核理论、高能物理学、一般相对论和凝聚态物理学等13个分子库,这些分子库又进一步具体划分第三级类目;数学分为31个学科类别;计算机科学分为40个学科类别;定量生物学分为10个学科类别;定量金融学分为9个学科类别;统计学分为6个学科类别。

另外,arXiv通过不断升级,在文章提交方面,除了提交文章、替换文章、撤销文章之外,还提供专门超大附件提交系统和文章重复检测等服务,能够更好地处理数据和其他附件,为作者自助提交与管理文章提供了巨大的便利。此系统还包括一些物理学和数学的电子期刊全文,丰富了机构知识库的资源,增强了其在相关领域的影响力。目前,通过arXiv系统提供的机构使用排行榜、月提交量、下载量、日访问量等统计数据和可视化数据来看[15],arXiv已成为物理、数学等领域研究学者交流的重要平台,拥有巨大的访问量、提交量以及下载量,改变了科学交流由传统学术期刊控制的局面。

2.2 机构知识库联盟组织模式

正确选择机构知识库建设模式对机构来说可以起到节约成本、提高管理效率与资源利用率的重要作用。[16]根据ROAR的机构类型统计,笔者把美国机构知识库联盟模式分为集中采集式和分布采集式两种,并分别以典型案例加以分析。

图1 arXiv的组织结构[17]

(1) 集中采集式——电子预印本仓储(arXiv.org e-Print Archive)。集中采集式机构知识库是在各联盟机构成员支持下,由特定的知识库建设中心建立一个统一、集中的服务系统与平台,并长期管理所收集的元数据与内容,运行及维护整个知识库系统,各成员机构则需要积极地将本机构的学术资源和对应的元数据上传到知识库中心系统中,而不需要承担维护及管理系统的任务。[18]其中,分工明确的组织机构和完善的管理模式是集中采集式机构知识库联盟建设必不可缺的部分。e-print arXiv是集中采集式机构知识库联盟的典型代表,它在美国国家科学基金会和美国能源部资助下,由美国洛斯阿拉莫斯(Los Alamos)国家实验室建立电子预印本文献库。目前主站点设在康奈尔大学,拥有来自22个国家的174个成员机构。[19]其机构知识库的组织机构和管理模式,见图1和图2。

图2 arXiv的管理模式[20]

从图1组织结构上看,在决策、管理和实施方面,arXiv都分工明确:馆长负责协调矛盾和进行必要的决策;项目总监和科学总监是arXiv的联合总监,保障了知识库联盟建设发展的合理性与内容的科学性;信息技术领导、会员项目领导和用户支持领导分别从技术、资金和日常运营方面保障了知识库联盟的正常发展。从图2管理模式上看,管理内容互为补充且具有高度透明性:康奈尔大学图书馆(CUL)负责决策与日常管理与维护;科学顾问委员会由相关领域科研工作者组成,负责保证知识库数据的科学性;会员顾问委员会代表参与机构的利益监督CUL的财政预算。

(2) 分布采集式——伊利诺伊学术与研究图书馆联盟下的数字共享(Digitalcommons@carli)。分布采集式机构知识库联盟是指成员机构根据共同的数据交互标准和协议分别建立各自独立的知识库,并在数据与资源本身都是分布式和实现独立搜索的基础上,将元数据采集并存储到一个集中的搜索数据库中,通过建立统一检索平台的方式为用户提供其所有成员机构知识库资源的检索。[21]其中,分布式联盟机构知识库最典型的就是以美国伊利诺伊学术与研究图书馆联盟(CARLI)下的数据共享——Digitalcommons@carli。[22]

Digitalcommons@carli是CARLI的一部分,除了包括各联盟机构的报告、培训材料和CARLI的文件外,还能搜索到来自Digitalcommons成员机构的学术研究内容,并通过链接可获得CARLI其他机构的数据材料。Digitalcommons共包括16个来自CARLI的成员机构,例如东伊利诺伊大学、伊利诺伊州立大学、杜佩奇学院、芝加哥哥伦比亚学院、德保罗大学等等,这些学校分别建有自己的机构知识库,用户可以根据所需内容通过Digitalcommons主页进行简单集成检索,也可以按照资源类型、机构知识库名称等进行高级检索,具体组织模式见图3。分布式采集式机构知识库联盟最重要的是在保持各成员机构高度自主权的基础上保证联盟的一致性,具体体现在软件平台系统、数据收录标准等方面。通过调查Digital Commons发现,各成员机构知识库均使用统一软件平台系统bepress,且每个机构知识库均有统一的系统设计,如均以色彩传递的方式进行可视化设计,都提供下载量排名、最新更新文章等服务。总之,整体上Digital Commons各成员机构的建设实现了高度统一。

图3 分布式机构知识库联盟模式

2.3 资金保障机制

资金保障是影响机构知识库建设的重要因素之一。机构知识库的软硬件配置、平台开发升级、数据保存迁移、系统管理维护、服务提供等均依赖于资金投入。[23]机构知识库的建设需要一个较明确的资金支持计划来保证机构知识库的正常启动和后续运行。目前,机构知识库的主要基金来源可分为三个方面:图书馆、国家项目支持和财团基金,对于大多数机构知识库来说,图书馆经费是资金的主要来源,但是有限的经费限制了其进一步发展。机构知识库联盟的出现,大大缓解了很多机构构建知识库的资金压力。同样对于机构知识库联盟来说,良好的资金保障机制也是实现机构知识库长久健康运营的重要保障。

美国e-print arXiv制定了一个五年财政支持计划2013-2017)[24],规定康奈尔大学图书馆、西蒙斯基金会和全球该机构知识库的会员都要承担该知识库的财政支持,其中康奈尔大学图书馆每年提供75,000美元支持arXiv的运营成本现金补贴和所有实物贡献的间接成本,大约占总运营费用的37%;西蒙斯基金会每年出50,000美元作为对康奈尔大学图书馆运营arXiv的支持;每个成员机构承诺五年的资金支持,并按照使用等级,年费设置为四级,从1500美元到3000美元不等。康奈尔大学的目标是每年从大约170个会员机构中筹集300,000美元。为了鼓励参与arXiv会员计划,会费会随着参与机构数量的增加而降低。这个财政战略促成了储备基金的建立,以支持不可预见的开支,并保证了arXiv有一个良好的经营模式。

3 我国机构知识库联盟的建设现状及启示

3.1 我国机构知识库联盟的建设现状

通过调查,目前我国机构知识库联盟建设比较完善并呈现规模化的主要有大陆地区的中科院机构知识库网格(CAS IR GRID)和CALIS机构知识库,以及台湾的台湾机构典藏库(TAIR)和香港的香港机构知识库整合系统(HKIR),具体概况见表3。

表3 我国主要机构知识库联盟建设

(1)从构建模式上看,均采用分布式构建模式,相对单一。分布式模式保证了每个机构知识库成员的较高自主权,各成员机构可以自行建立、运营和维护自身的机构知识库,展现本机构的研究特色与研究能力,然而,较为单一的分布式机构知识库联盟也存在一定的缺点:①每个成员机构参与成本相对较高,需要专门投入资金、人力、技术等资本因素,从而不利于中小规模的学术机构知识库成员的成长;②成员机构知识库具有不一致性,无论从软件的选择还是元数据标准应用及数据收录标准上,各成员机构均会出现差异性。我国目前大多数机构知识库的建设处于起步阶段,后期维护需要投入大量的人力、物力,分布式的机构知识库联盟不利于在资源共享的情况下实现社会总成本最低的目标。

(2)从系统软件上看,我国机构知识库联盟主要使用开源软件,如Dspace等,同时也开始重视自开发软件和特色软件的使用。例如,Cspace系统是中科院国家图书馆兰州分馆在建设CASIR平台时,基于Dspace系统进行的二次研发,扩展了知识资源统计、个人主页、权益管理、知识分析等模块的功能[25];CALIS的机构知识库则根据国内的实际情况,分为CHAIR central(中心站系统)和CHAIR local/CHAIR RISE(两个版本的本地系统),并加入了如中文分词、标签云等一些较为实用的功能模块[26];香港机构知识库使用的开源代码OPAC系统VuFind,其特色在于其完全模块化,知识库可以只实施基本系统,也可以采取系统提供的所有组件。作为一个开源系统,Vufind可以根据各机构的不同实际情况来修改模块,也可以增加新模块以扩展需要提供的资源。[27]

(3)从数据总量和机构知识库成员数量来看,我国机构知识库联盟已初具规模。但是从存缴内容类型来看,大部分为期刊论文,其次学位论文和会议论文,其他形式的内容如研究成果、演示报告、文集等比例较低;从机构成员的存储量来看,也具有巨大的差异性,中小型机构相对大型机构存储量偏低;从分布来看具有地域性,CALIS的成员机构主要分布在北部地区和南部地区,而西部地区和东部沿海地区相对较少;另外,根据网站所具有的统计功能发现,从访问量和下载量来看,我国机构知识库联盟的发展趋势基本一致:2011年到2013年呈上升趋势,而2014年则呈下降趋势发展[28],因此需要更加重视我国机构知识库联盟的建设。

(4)从资金来源看,我国机构知识库联盟的支持基金主要来源于国家社科基金项目,来源比较单一,而且项目基金多属于启动资金,而后续维护和运行资金得不到良好保障,继而有可能造成我国机构知识库联盟的发展缓慢甚至停滞的局面。

3.2 美国机构知识库联盟建设给我国的启示

(1)采取适合我国国情的联盟模式——分布式与集中式并行。目前我国机构知识库处于初步成长阶段,缺乏先进的技术和经验,没有足够的人力、物力,分散与集中式并行的方式更加适合我国机构知识库联盟的发展。分布式与集中式采集并行模式,一方面可以对中小规模成员机构联合统一进行知识库的构建、运行及维护,各成员机构共同承担来自人力、物力及技术等的费用,尽可能降低各方机构的经济负担;另一方面,对于有条件的机构可以自行建立知识库,以保证机构的主体性与特色,此时机构知识库联盟成为了这些机构展示与利用成员机构间的学术研究成果的纽带与窗口。

(2)积极开发机构知识库技术,发挥联盟优势,实现技术与经验共享。机构知识库联盟可以通过成立技术部门,除负责系统使用、数据维护、系统更新等技术性工作以外,还要在研究分析现有机构知识库软件的基础上,开发适合自身机构知识库联盟发展的新型软件系统,为机构知识库联盟的长久发展提供技术保障。

(3)注重机构知识库联盟各成员发展的平衡性。加强联盟成员之间的交流,缩小联盟成员发展的差异;通过制定和完善质量控制政策、资源聚合政策、访问政策等资源管理政策,保证联盟成员元数据的多样性及特色,并通过相关激励政策调动成员机构参与资源共享的积极性。

(4)建设资金保障机制。为解决我国机构知识库联盟后续发展的资金保障问题,在发挥成员机构主观能动性的基础上,采取多种方式筹集多方资金。可以借鉴美国arXiv机构知识库联盟基金运作模式,制定长期计划和激励政策,建立相应的机构知识库运作基金体系,并配有一套较成熟的管理模式,保障基金透明有效地运转。

4 结语

结合目前我国机构知识库建设现状,机构知识库联盟构建符合当前我国国情。分析和借鉴国外先进机构知识库联盟的建设,不断完善我国机构知识库联盟,可以实现在消耗最低社会总成本的前提下最大程度资源共享的目标。除了上述研究的关键问题以外,影响机构知识库联盟的建设与发展的因素还有很多,有待在今后不断从理论与实践方面进一步研究与探讨,使机构知识库联盟彰显出其应有的影响与作用。

(来稿时间:2015年5月)

参考文献:

1. 邓君. 机构知识库发展的动力机制与动力模型研究.图书情报工作, 2008(5):44-47

2. ROAR. [2015-03-26].http://roar.eprints.org/view/

3. Open DOAR. [2015-03-26].http://www.opendoar.org/find.php

4, 6. 付希金等. 国内外区域IR联盟建设比较及我国区域IR联盟构建路径研究. 情报科学, 2015(3):35-40

5. 曾苏等. 机构知识库联盟发展现状及关键问题分析.图书情报工作,2009(24):106-110

7. 张旺强等. 几种典型新型开源机构知识库软件的比较分析. 现代图书情报技术, 2014(4):17-24

8, 17, 19-20. Pub Med Central.[2015-04-05].http://www. ncbi.nlm.nih.gov/pmc/

9. 叶协杰, 王泽武. PubMed系统特殊服务功能应用概述.农业图书情报学刊, 2006(2):119-121

10. 林晓华, 钟伶. 图书馆学研究.图书馆学研究, 2013 (4): 56-59

11. 王丽宏等. Perl 语言及其应用.哈尔滨工业大学学报,1997(6):82-85

12. 刘步权等.Perl程序设计语言综述.计算机工程与应用, 2002(18):86-88

13. Perl. [2015-04-05]. http://www.baike.com/wiki/perl

14, 15, 24. arXiv. [2015-03-26]. http://arxiv.org/

16. 邓君. 机构知识库建设模式研究.图书情报工作,2010(6):112-116

18. 渠芳. 高校教学联合体机构知识库联盟建设研究:以徐州高校教学联合体为例. 情报理论与实践, 2010(11): 83-85

21, 22. Digitalcommons@carli. [2015-03-30]. http:// digitalcommons.carli.illinois.edu/

23. 吴高, 万文娟. 我国机构知识库管理服务问题与策略分析.图书馆, 2013(6):83-85

25. Open Source IR Software: Cspace. [2015-04-06]. http:// www.cspace.org.cn/ 2015.3

26. 聂华等. CALIS机构知识库:假设与推广、反思与展望.中国图书馆学报, 2013(2):46-52

27. 杨楠等.开放源代码OPAC系统的比较:Scriblio和VuFind. DLIB&OSS学术研讨会论文, 2009:130-137 28. CALIS. [2015-04-07].http://ir.calis.edu.cn/

〔Key words 〕IRs Alliance System platform Organization model Funding sources陈美华(1989-),女,山东理工大学科技信息研究所研究生,研究方向:信息资源管理与情报分析;刘文云(1964-),男,山东理工大学科技信息研究所教授,硕士生导师,研究方向:信息资源管理与情报分析,发表论文150余篇,出版著作3部;毕煜(1989-),男,山东理工大学科技信息研究所研究生,研究方向:信息资源管理与情报分析;岳丽欣(1992-),女,山东理工大学科技信息研究所研究生,研究方向:信息资源管理与情报分析。

〔分类号〕G350

〔作者简介〕

* 本文系山东省研究生教育创新计划项目“基于知识传承的研究生科研信息管理创新研究”(项目编号: SDYY14091)和山东理工大学人文社会科学发展基金项目“网络期刊学术论文质量评价指标体系研究”(项目编号: 4083/113014)成果之一。

A Study on the Construction of Institutional Repository Alliances in America and Its Enlightenments to China

Chen Meihua Liu Wenyun Bi Yu Yue Lixin
( Information and Science Research Institute; Shandong University of Technology )

In order to improve the construction of institutional repository alliances and achieve sustainable development of open access in China, the characteristics of some classical American institutional repository alliances were analyzed from three aspects: software platform of each system, the organization model, and sources of funding by network investigation and literature research. The author also outlined the current status quo of institutional repository alliances in China, and proposed the enlightenments we got from America’s successful experience, combining with the existing problems which affect the sustainable development of institutional repository alliances. It found that we should adopt the model that contains both distributed collection and centralized collection. In addition, technology innovation, balanced development and a sound funding security system are also needed.

〔Abstract 〕

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!