当前位置:首页 期刊杂志

基于数据生命周期的美国研究图书馆科学数据开放共享服务研究

时间:2024-05-04

摘   要:开展科学数据开放共享服务是研究图书馆在数据密集型科研环境下满足科研人员数据需求、实现科学数据复用的要求和趋势。了解美国研究图书馆科学数据开放共享服务现状,可为我国今后的研究提供参考与借鉴。文章基于数据生命周期理论,采用网络调研和文献分析法,从科学数据规划服务、科学数据咨询服务、科学数据获取服务、科学数据组织和加工服务、科学数据存储服务、科学数据共享服务、科学数据利用和培训服务7个方面调查分析美国研究图书馆开展的科学数据开放共享服务实践,通过分析提出了我国高校图书馆可借鉴的经验,包括:构建良好的科学数据服务环境、完善现有的科学数据服务内容、成立专业的科学数据服务团队。

关键词:科学数据;开放共享服务;研究图书馆;数据生命周期;美国

中图分类号:G259.712;G252   文献标识码:A   DOI:10.11968/tsyqb.1003-6938.2019018

Abstract Developing research data sharing services are the requirements and trends for the academic library to meet the data needs of researchers and achieve research data reuse in a data-intensive scientific research environment.Understanding the current situation of research data sharing services  in the US academic library can provide reference for future research in China.Based on the data life cycle theory, using network surveys and literature analysis methods,investigating and analyzing the practice of research data sharing services in the US academic library,which includes research data planning services, research data consulting services, research data acquisition services, research data organizing and processing services, research data storage services, research data sharing services, and research data utilizing and training services.This paper points out the experience that our university library can learn from, which includes building a good research data service environment, perfecting the existing research data service content, and establishing a professional research data service team.

Key words research data; opening and sharing services; academic library; data lifecycle; America

開放获取运动促进了全球知识的传播,同时也越来越重视共享数据和方法,使它们得到再利用和引用[1]。大量在线工具被用来分享资料和交流知识。科学家可在全球范围内通过社会网络相互接触,或利用在线平台交流知识,合作撰写科学出版物,分享研究数据或资料[2]。科学数据开放共享已成为目前科学界、学术界、图情界关注的最新研究主题之一。在此背景下,为了能够提升科学数据价值,促进科研交流和创新,无论是研究个体还是科学共同体都在渴求能够获得更深入、更便捷、更全面的数据服务。作为面向科研用户的美国研究图书馆已经在探索促进知识生产和关联的新型服务模式[3],其已经意识到将服务边界拓展到传统学术交流的上游即数据阶段,并取得了较多成果,但是如何将服务贯穿于整个数据生命周期,是目前美国研究图书馆开展科学数据开放共享服务需要解决的首要问题。

在当前科学数据服务研究热潮中,大部分是介绍和跟踪国外科学数据服务的理论研究进展或对科学数据管理与服务现状进行调查分析,多数学者仅分散地列出研究图书馆的科学数据服务内容,缺乏理论支持和系统性,且很少有学者按照科学研究工作流程对科学数据开放共享服务展开讨论。因此,研究人员必须加强这方面的研究,以深化图书馆服务。本文将从数据生命周期入手,重点对美国研究图书馆的科学数据开放共享服务与实践进行调查分析,并总结其特征,为我国图书馆提供参考借鉴。

1   科学数据生命周期理论

20世纪90年代到21世纪初,数据生命周期被视为是支持数据保存和数据管理实践的一个重要因素,随着数据共享文化成为我们日常研究语言的一部分,数据生命周期的概念日益流行[4]。数据生命周期是指从数据产生,经数据加工和发布,最终实现数据再利用的一个循环过程。科学数据生命周期与科学研究工作流联系紧密,科学数据的生命周期除其作为信息资源的信息生命周期外,更重要的是如何在高校科学数据管理中映射科研活动过程,保证用户检索和利用这些科学数据时能了解其在科研过程中所处的位置,实现科研活动整个过程及其产生科学数据的连续统一体管理方式[5]。

目前国外科学数据生命周期理论研究和实践进展迅速,已有不同类型的科学数据生命周期模型 46 个[6],不同的数据生命周期模型分有不同的阶段,如美国政治与社会科学研究校际联盟(ICPSR)科学数据生命周期模型包括制定发展及数据管理计划、数据收集、数据分析、数据共享、数据存储5个阶段[6];弗吉尼亚大学图书馆数据生命周期包括数据计划、数据收集、数据分析、数据共享、数据存储、数据发现6个阶段[7];加利福尼亚大学数字图书馆数据生命周期模型分为计划、收集、管理、存储、共享、出版6个阶段[8];迈阿密大学科学数据生命周期包括收集、管理与存储、加工、处理分析与数据挖掘、整合、决策支持和知识产生与保存、存档7个阶段[6];新墨西哥大学Data one环境科学数据生命周期模型基本内容包括数据计划、数据收集、数据确认、数据描述、数据存储、数据发现、数据整合、数据分析8个阶段[9]。

尽管各个科学数据生命周期模型被划分为不同的阶段,但是经过总结归纳,本文可以将科学数据生命周期从整体上分为:数据产生、数据收集、数据处理与分析、数据存储、数据出版和共享、数据利用6个阶段。根据科学数据生命周期不同阶段的不同任务(见表1)拓展图书馆的服务范围,可以有效地指导图书馆根据科研人员的数据需求开展科学数据开放共享服务。

2   美國研究图书馆科学数据开放共享服务调查与分析

笔者在上述科学数据生命周期的理论基础上将科学数据开放共享服务划分为规划服务、咨询服务、获取服务、组织和加工服务、存储服务、共享服务、利用和培训服务,对美国研究型图书馆开展的科学数据开放共享服务现状进行调查分析,为我国高校图书馆开展相关服务提供借鉴。

2.1    科学数据开放共享服务调查

近年美国研究图书馆的科学数据服务快速发展,服务内容涉及科学数据管理的各个方面,并紧紧围绕科研工作的全流程开展服务。本文选取US NEWS发布的2018年美国排名前50名高校的图书馆作为调研对象,分别进入各图书馆网站查看是否有关于科研数据服务的介绍,同时通过搜索引擎和数据库查找这些图书馆开展服务的报道和介绍,并通过图书馆网站提供的在线咨询等方式了解其开展服务的情况(见表2)。

笔者对调研结果进行总结归纳发现,在调研的50所研究图书馆中,除维克森林大学和伦斯勒理工学院外,共有48所研究图书馆开展科学数据开放共享服务。各研究图书馆提供的科学数据开放共享服务从服务内容、服务方式和服务深度上都有不同的特点。

2.2    科学数据开放共享服务分析

在对美国48所研究图书馆科学数据开放共享服务调研的基础上,总结出各项服务的具体服务内容、服务方式,并从开展的各项服务中优选出服务特色比较鲜明的康奈尔大学图书馆、弗吉尼亚大学图书馆、哥伦比亚大学图书馆、斯坦福大学图书馆和普林斯顿大学图书馆、麻省理工学院图书馆、埃默里大学图书馆、伊利诺伊大学香槟分校图书馆8所研究图书馆作为案例进行详细分析,为我国高校图书馆开展相关服务提供参考借鉴。

2.2.1  科学数据规划服务

科学数据管理计划是共享科学数据的基础,一份详实的整体规划对科研人员来说能使科学数据的创建、保存、归档和共享利用有章可循,有据可依,同时也能保证共享、重用和长期保存数据的一致性、准确性与可追溯性[11]。包括美国国家科学基金会(NSF)和美国国家航空航天管理局(NASA)等在内的科研资助机构非常重视共享总体规划,普遍要求资助项目的申请者提供详实的科学数据共享计划。科学数据规划服务指的就是研究图书馆在科研资助机构相关政策的指导下从宏观层面帮助科研人员制定其在科研工作不同阶段的科学数据管理计划。图书馆员在项目、课题开始就参与、引导和支持用户制定科学数据管理计划,这项服务贯穿整个科研生命周期[12]。美国研究图书馆辅助科研人员制定数据管理计划采取的方式主要有:①提供各基金机构的数据管理政策咨询;②创建模板,提供其他机构的数据管理计划示例;③提供制定数据管理计划的工具(DMP Tool);④提供数据管理计划撰写培训等[13]。

调查结果显示,共有46所研究图书馆提供了科学数据规划服务。如康奈尔大学图书馆在科学数据产生和发现阶段提供规划服务,建议科研人员制定数据管理计划时使用科学数据管理规划工具(DMP Tool)[14],它可以帮助用户制定符合特定资助机构要求的数据管理计划,并在计划制定过程中帮助用户查找相关资源及服务。DMP Tool工具创建的科研数据管理计划主要有四个部分:概述计划总体情况、详述计划细节、设置计划权限、导出计划。科研人员登录科研数据管理规划工具主页后,在栏目框中选择机构康奈尔大学,使用用户名和密码登录,就能够从康奈尔大学图书馆获得填写科研数据管理计划的具体指导和帮助,包括:①免费下载美国基金项目管理机构的数据管理政策,为科研用户提供如何满足基金要求的指南;②数据收集和分析方式的选用;③维护数据完整性的方法;④数据访问和安全政策的选取;⑤数据管理评估计划;⑥项目结束后数据的最终过渡计划等[15]。

2.2.2  科学数据咨询服务

研究型图书馆参考咨询服务即是图书馆组建科学数据参考咨询团队通过非正式科学交流方式嵌入到科研项目数据的规划、获取、分析、存储、共享、利用等一系列流程中,帮助用户解决各种科学数据相关的问题[16]。科学数据咨询服务内容主要包括数据管理计划撰写所涉及的问题咨询、提供数据发现与检索咨询、存储和元数据标准选择相关问题咨询、数据安全及版权咨询、数据分析软件开发、数据出版、数据管理政策咨询等。目前,多数学科馆员选择 Email、面谈或者社交软件等方式提供咨询服务,但这些方式总体来看仍属于传统的封闭性问答模式,比较理想的解决方案是利用互联网搭建科学社区,对用户提出的问题分类整理后,邀请相关专家和其他用户解答问题,这种咨询方式能够使问题在更开放的时空范围内得到快速解决,使提问者获得更精准权威的回答[3]。科学数据咨询服务的内容和方式影响科学数据开放共享的效果,多样化的咨询服务内容和方式有助于高效地解决科研人员的数据管理问题,从而有步骤有计划地指导科研人员开放共享科学数据。

在调查的48所研究图书馆中,共有47所研究图书馆提供科学数据咨询服务。如弗吉尼亚大学图书馆成立了专门的科学数据咨询组(SciDaC Group),通过Lib Guides 系统提供科学数据咨询服务,从科研过程中的数据生命周期考虑帮助用户做出正确的决策,以便研究数据在未来可以持续地提供和利用[17]。图书馆将咨询组成员的信息嵌入科学数据管理网页,通过提供咨询组成员的专业背景及联系方式来开展在线咨询等服务。科学数据咨询组提供的咨询服务主要包括[18-21]:①提供关于NSF等科研资助机构数据管理计划制定相关问题的咨询服务,帮助起草和审查数据管理计划,帮助研究人员使用DMP Tool工具去创建数据管理计划;②提供重要资助机构如美国国家科学基金会(NSF)、美国国立卫生院(NIH)、美国国家航空航天局(NASA)的基金指南、数据政策和要求,并提供相关内容的链接,供科研人员查阅参考;③重点提供数据版权和知识产权咨询服务,包括数据版权的归属、如何控制数据使用许可,数据共享需要依靠怎样的发布协议等;④对用户如何存储及共享数据提出建议,如存储到弗吉尼亚大学机构知识库或数据仓储中,通过项目或机构Web站点联机发布、向期刊出版社提交数据等;⑤提供关于如何引用数据、引用涉及的元数据、引用格式等咨询和帮助服务;⑥提供常见问题与解答(FAQ)服务。

2.2.3  科学数据获取服务

科学数据开放共享的目的在于使科研用户充分利用科研活动过程中产生的数据,而其前提则是有效获取数据[22]。为解决科研人员难以找到所需数据、检索到的数据不符合要求、数据获取成本太高、所需数据涉及隐私或国家机密等[23]在获取科学数据的过程中遇到的问题,美国研究图书馆在e-Science 环境下提供数据检索、数据导航等服务。科学数据检索服务是指图书馆在利用自身优势并充分熟悉数据资源的分布状况与检索策略的基础上明确科研用户的数据需求,使用户了解馆内机构知识库和馆外数据仓储中有哪些科学数据可供检索利用,并运用相关检索技术(如元数据技术、关联技术等)帮助用户在海量数据中识别查找科学数据、发现关联数据,并在条件允许的情况下帮助用户订阅下载数据资源。数据的发现和获取除了可以通过数据检索实现外,还可以利用数据导航。美国研究图书馆通过其构建的门户网站提供科学数据的导航服务,能够在学科或某类主题下实现科学数据的聚类,用户可以利用数据导航实现馆藏检索、跨库检索和互联网检索,获取数据的来源、实际存储地址等相关信息。帮助科研用户获取科学数据的服务是图书馆开展科学数据服务的第一步,在此基础上,图书馆可进一步提供对科学数据深层次处理和分析服务[24]。

本次所调查的48所研究图书馆均提供了科学数据获取服务。如哥伦比亚大学图书馆就建立了导航与检索服务门户平台。首先,哥伦比亚大学图书馆在门户网站的Finding data栏目中帮助用户确定所需检索数据,具体包括:①帮助用户识别数字和空间数据;②以纽约地区为例说明数据的地理位置是用户数据检索的关键;③提醒用户根据不同的时间参数检索数据并列举常见问题及解决方案;④确定所需数据单元(个人数据、群组数据);⑤用户可以在NYC Open Data[25]和Data.gov[26]中找到按主题组织的数据源;⑥地理数据门户(Geodata@columbia)[27]帮助用户查找地理空间数据,支持基于地理位置的数据浏览与检索,用户可以获取数据机构、作者、学科、地区、时间、类型等内容;其次,该门户通过对科学数据的分类整理、元数据描述,提供对多个数据库的访问,用户可以按学科和资源类型进行检索[28]。还可以根据网站上包括康奈尔大学地理空间信息库(CUGIR)、国家气象局GIS数据门户、联合国地理科学数据门户、中国数据中心在线数据库等数据门户的链接,检索到纽约地区、美国乃至世界范围内的地理空间数据[29];最后,哥伦比亚大学数据集包括馆藏数据目录和主要来源为美国校际政治及社会研究联盟(ICPSR)的外部数据,用户在实现馆藏数据检索和跨库数据检索的同时可以阅读并以PDF格式下载与数据关联的文件、项目信息[30]。

2.2.4  科学数据组织和加工服务

与传统研究范式相比,数据密集型研究对科学数据的交流和共享提出了新要求,科学发现越来越依赖于对科学数据的组织和加工[31]。通过对科学数据的组织和加工来达到对科学数据的增值与深度揭示将是未来图书馆科学数据服务的主要内容之一。科学数据组织和加工服务主要涉及科学数据的描述、分析和关联。科学数据描述服务是指研究图书馆按照特定的标准规范,分析科学数据的类型、主题以及形态等,进而满足科学数据的组织需求。首先,需要明确e-Science 环境下具体的描述对象数据集;其次,使用统一的元数据描述标准,准确、完整地描述科学数据,建立数据存储质量的标准规范,对实验产生的科学数据进行再次检查和测试,确保科学数据的质量。为实现数据的深入挖掘和知识抽取,图书馆借助馆内外软硬件资源向科研用户提供科学数据抽取、聚类分析、可视化分析、统计分析等服务[16],一般由校内的信息技术部门提供服务支持。基于语义挖掘的数据关联服务则是通过构建本体,实现数据语义、语法上的关联集成,通过对科学数据和科学文献添加数字对象唯一标识符DOI将科学数据同外部资源连接起来,并以关联数据的形式发布,有效地扩展了资源发现,实现了资源的重复利用与共享以及永久保存[32]。

调查结果显示,48所研究图书馆中只有26所研究图书馆提供了科学数据组织和加工服务,且各个图书馆在科学数据组织加工服务的不同方面各有优势。在科学数据描述方面,为了将用户的研究成果顺利提交到数据仓储,斯坦福大学图书馆根据用户所使用的数据库要求帮助用户选择元数据标准来格式化元数据,如都柏林核心元数据(DC)、元数据对象描述模式(MODS)、美国联邦地理数据委员会元数据标准(FGDC)、编码档案著录(EAD)以及社会科学领域元数据标准,以实现对尽可能多学科领域科学数据的描述与组织,同时融合RDF 和OWL 等语义网技术[33],形成适合跨学科科学数据描述和过渡性存储的元數据方案;在科学数据分析方面,普林斯顿大学图书馆开发的数据与统计服务(Data and Statistical Service,DSS)[34],侧重事实调查数据的收集分析,具备数据存储和数据分析两大功能,在为研究人员提供研究案例、用户测评和实验数值等事实数据的基础上,进一步通过数据挖掘得出预测性或总结性信息。它的在线分析工具 Stata、SPSS、Excel以及 R语言,能够汇总计算及绘制图表,强大的数组和矩阵运算能力使得复杂运算环境中数据的转换和聚类更为简便;在科学数据关联方面,斯坦福大学图书馆为实现数据语义、语法上的集成,通过构建本体来描述特定学科的组成要素和这些组成要素之间的关系[35]。首先将数据进行抽象处理,然后再将抽象的概念变为词表,并应用合适的编码语言进行表述,以方便计算机识别与处理。数据馆员还利用专业管理软件将科研数据与其他馆藏资源(特别是科学文献)关联化,从而使得潜在用户检索数据或数据集时,能够轻松检索到与数据或数据集相关的科学文献和其他资源。

2.2.5  科学数据存储服务

数据存储尤其是长期存储是科学数据管理与服务的重要方面,科学数据能否以可识别的方式实现共享和复用,存储是关键的一环。因此,数据存储受到了广泛的重视。美国研究图书馆发挥其资源保存与组织优势,参与科学数据存储规范(存储对象、存储格式、存储期限、存储地点等)的制定,为科研人员提供元数据的创建服务,根据研究项目需求、结合数据存储平台元数据标准与相关科研机构共同帮助用户制定合适的数据存储方案,通过自建或与其他机构合作建设科学数据存储的硬件环境。美国研究图书馆主要依托机构库和数据仓储为科研人员提供科研数据存储服务。机构知识库是依附高校图书馆而建设,存储本校研究项目产生的科学数据的系统基础设施,其主要服务对象为本校的科研人员或参与本校研究项目的研究人员,通过门户网站对机构库进行整合,在权限范围内将数据公开共享。数据仓储是由图书馆与校外的各种联盟及项目机构合作建立,图书馆这时的任务是向科研用户提供相关信息,使其了解这些仓储,并帮助用户利用这些数据资源,美国研究图书馆提供诸如ICPSR和re3data等外部数据仓储的相关链接以帮助研究人员查找和存储相关数据[36]。另外图书馆还提供对数据库的备份、维护等服务,以便保证科学数据能够被用户长期、有效地使用。

调查结果显示,48所研究图书馆都提供了科学数据存储服务。如麻省理工学院图书馆的研究数据管理团队(data-management@mit.edu)通过数据存储库比较模板帮助用户选择适合其需求的数据存储库[37],其中包括与惠普开发公司合作建立的在线机构数据库DSpace@MIT[38]、哈佛-麻省理工学院数据中心联合开发的 Dataverse,和密歇根大学间政治和社会研究联盟(ICPSR),均为麻省理工学院研究人员提供长期稳定的科学数据存储服务。麻省理工学院图书馆在科研人员计划将科学数据存储至机构仓储中时,在元数据指导文档中列举了科研人员在创建数据时需要执行的重要操作,帮助科研人员创建元数据,以增加数据的组织效率和被发现几率,并用于数据的迁移和转换[39],具体包括[40]:①记录与项目相关的所有文件名和格式、数据组织方式、生成数据的硬件设备和软件工具,以及数据更改或处理的信息;②数据命名结构中使用的代码、缩写或变量的说明;③记录数据获取的位置,以使其更容易被检索。并在“Things to document your data”目录下推荐了数据标题、创作者、标识符、日期、主题、资助者、权利、语言、位置和方法等元数据元素。 麻省理工学院图书馆还提醒研究人员应该考虑将数据迁移到具有下述特征的最佳格式中,以确保长期的可读性和访问,这些特征包括[41]:①非专有;②开放文件标准;③研究共同体的普遍使用;④标准表示(ASCII,Unicode);⑤ 未加密;⑥未压缩。在数据的备份和维护方面,麻省理工学院图书馆为个人电脑和企业服务器提供免费的数据备份解决方案:CrashPlan PROe和Tivoli Storage Manager(TSM)[42],帮助用户在发生错误时保护和恢复数据。

2.2.6  科学数据共享服务

鉴于科学数据对于研究成果的验证与重现作用,以及对于同类研究的参考借鉴价值,当前众多科研管理机构和基金组织纷纷对科研人员提出了研究数据共享的要求, 旨在提升科研数据的可用价值,同时将其作为提升社会公众对科研工作支撑力度的有效方法。在此背景下,美国研究图书馆在相关政策要求和指导下提供面向科研用户的科学数据共享服务。一方面,通过一定的标识技术和机制,建立数据与数据来源之间的关系,并制定相应的数据引用规范。用户可以通过唯一标识符(DOI)或者URL链接获取原始数据,促进未来研究中数据的验证和再利用;另一方面,通过机构知识库、数据仓储等方式公开发布科学数据,为用户提供标准的数据引用格式和永久访问地址,使得科学数据集达到可发现、可获取、可理解和可追溯的状态[43],这对于保持数据完整性、防止学术造假与抄袭行为、减少重复研究、验证学术成果的正确性、提升研究者的学术声誉和影响力等方面都具有较大的意义。此外,研究图书馆会在数据共享前帮助作者解决隐私、知识产权、版权及许可问题[44]。

据调查,共有41所研究图书馆提供科学数据共享服务。如埃默里大学图书馆为在科学数据资助政策、科学数据引用、科学数据出版三个方面即提供科学数据共享服务。①为了帮助用户遵守资金授权,使用户的研究成果能够开放获取,埃默里大学图书馆提供相关政策资源访问,如学术出版和学术资源联盟(SPARC)文章和数据共享政策网站,用户可以通过浏览和查看相关政策,跟踪、比较和理解当前和未来的美国联邦机构科学数据共享要求[45];②通过FAQ方式,为用户提供数据引用条件、引用格式(如作者、标题、版本和持久的标识符或永久URL 链接)、引用工具(DOI引文格式化程序工具)、引用代码等信息,并建议用户将已经收集或生成的科学数据,存储在数据库如Dataverse、Dryad或openICPSR中,方便引用与共享[46];③提供关于数据出版的服务,服务内容主要包括用户如何选择要出版的数据,应该出版哪些文件格式的数据,应该用什么样的文档来出版数据,以使它们在将来对其他人有意义;应该在哪里出版数据;数据的版权和许可等[47]。

2.2.7  科學数据利用和培训服务

科学数据培训服务以加强科研人员的数据管理技能、提高数据素养为目的,介绍科学数据资源的分布、组织方法、管理与分析工具等,是协助科研人员进行科学数据管理的有效途径之一[22]。美国研究图书馆的科学数据培训主要有三种形式:专题研讨会/班、培训课、在线教育[48]。“专题研讨会/班”的形式较为自由,参与者可相互交流心得;“培训课”则能较为系统地学习科研数据管理的相关知识;“在线教育”则通过专题视频资料、在线软件和在线一对一培训等形式随时随地学习科研数据管理方面的知识。但不论以哪种形式进行培训,其内容都涵盖科研数据管理的基础知识、科研数据管理的具体环境介绍、如何撰写科研数据管理计划、科研数据的保存与共享介绍等,培训有专人负责,能为每位科研工作者提供个性化培训服务且对校内的机构人员免费[48]。

调查显示,共有36所研究图书馆提供科学数据利用和培训服务。如伊利诺伊大学香槟分校图书馆的科研數据服务既提供有关科研数据管理计划、科研数据组织、科研数据保存与共享等相关培训,也提供个性化数据管理研讨会或研讨班、重新编排核心数据等培训,提供的培训形式涵盖了专题研讨会/班、培训课、在线教育三种形式。如其于2016年2月16 日举办的“数据管理介绍专题研讨班”,主要介绍数据管理的要素(计划、组织、存储、构建),与会者共同探讨、相互帮助,找出彼此数据管理中存在的问题并学习如何解决;再如2016年3月1日举办的专题研讨会,介绍科研数据出版或分享的基础知识,用一个框架模型来帮助研究者决定何时、如何公开科研数据[49]。伊利诺伊大学香槟分校也提供专业的数据管理教育培训课程,即数据管理教育培训项目,并授予数据管理专业硕士学位。该培训通过系统的课程学习(包括2 门必修课和至少2 门选修课)、大量的实习(该校与全国范围内的自然科学、人文科学及其他人文数据研究中心合作,提供大量实习机会),培养科研工作者的科研数据管理能力[50]。同时,在科研数据服务的官网上,科研数据服务组也提供在线学习和一对一专门性科研数据服务[51]。

3   启示

科学数据开放共享是数字图书馆时代研究图书馆发展面临的新机遇,是图书馆转型发展的一大方向[52]。美国研究图书馆的科学数据开放共享服务先行一步,已经形成了一套较完备的服务模式,尚处于起步阶段的我国高校图书馆要在吸纳其成功经验的基础上,充分发挥自身在数据服务方面的优势,寻求与其他机构、部门的合作,逐步深化服务内容,提升服务层次。通过构建良好的科学数据服务环境、完善现有的科学数据服务内容、成立专业的科学数据服务团队,促进我国高校图书馆科学数据的全面开放共享,更好地服务于科研人员及科研活动。

3.1    构建良好的科学数据服务环境

我国高校图书馆学科分布广泛,数据来源复杂,管理和服务机构众多,因此,要致力于建设便于用户管理与利用科学数据的良好服务环境。一方面,要协调好各方利益,明确规划科学数据开放共享服务过程中各利益相关者的权利和责任,从微观层面制定、颁布贯穿于整个数据生命周期的科学数据开放共享政策,一般包括数据管理计划、数据标准、数据管理服务、数据保存、数据访问、数据共享及数据所有权等方面的内容[53]。其中要解决的一个重要问题是数据资源的版权问题。针对公开网络环境下科学数据资源的版权问题,图书馆可以形成合作联盟与出版商进行谈判,通过平衡出版商、科研人员和图书馆之间的利益关系,扩大数据资源的许可范围[52];另一方面,要在发挥自身优势的同时与科研人员、科研管理部门和科研服务部门等各方力量的协同合作,寻求财政和政策支持,合作建设科学数据管理的软硬件环境,并把其嵌入到用户的科研环境、科研过程中,满足科研人员数据管理、共享和利用的需要[24]。美国研究图书馆科学数据服务不是由单一的部门或组织实现的,多采取合作模式,在资金、机构、平台、技术等方面寻求最佳组合。如新墨西哥大学图书馆和翰霍普金斯大学谢里登图书馆积极承担政府资助的研究项目,为科学数据服务的发展提供财政支持[54];康奈尔大学图书馆[55]的数据分析服务提供者包括康奈尔大学的高级计算中心、信息技术部、社会和经济研究机构等;麻省理工学院图书馆与惠普开发公司合作建立机构知识库DSpace @ MIT,为麻省理工学院研究人员提供稳定、长期的科学数据存储;明尼苏达大学图书馆与明尼苏达信息技术办公室、明尼苏达机构库、明尼苏达大学塞博基础设施联盟合作[56]建设科学数据管理的硬件环境等。

3.2    完善现有的科学数据服务内容

我国高校图书馆要嵌入用户的科研环境、科研过程和整个科学数据生命周期提供科学数据开放共享服务,服务的内容和方式都要围绕用户的需求产生,既要涵盖科学数据管理的过程,又要包括支撑科研数据共享和利用的过程。高校图书馆主要参与的阶段及管理任务主要包括:(1)在数据产生阶段,帮助用户制定数据管理计划,提供数据管理咨询服务;(2)在数据收集阶段,通过图书馆门户网站提供数据导航、检索服务;(3)在数据处理和分析阶段,与IT部门合作,采用元数据技术和关联技术,帮助用户检查、验证、清理和匿名化数据、描述数据、分析数据、关联数据等;(4)在数据存储阶段,建立机构知识库和数据仓储,帮助用户将数据迁移到最佳格式,将数据迁移到合适的介质,备份和存储数据,生成元数据和文档,帮助用户解决如何使数据存取不受时间、技术变化的限制,并进行后续的数据更新、技术更新、安全维护等工作;(5)在数据共享阶段,帮助用户引用数据源,明确数据版权,出版、共享数据;(6)在数据利用阶段,使用数据进行教学和学习,开展培训等。随着技术的成熟,在以用户为中心的理念下,我国高校图书馆既要保留传统的被动式索取服务,但更多的是要提供主动的个性化数据定制服务和推送服务,通过融入科研人员的课题或项目中,参与学术交流,来帮助用户评估和了解自己的数据管理需求,并通过和他们的密切合作来解决用户的问题,进而提高服务质量。

3.3    成立专业的科学数据服务团队

(1)在人员招聘方面,为了满足研究人员和学术界对数据管理和调查服务的需求,要招聘具有数据管理技能和经验的图书馆员和工作人员。如美国芝加哥大学图书馆寻求合格申请人担任科学数据馆长职位,并且优先考虑具有数据管理服务经验的申请人;(2)在人员培训方面,制定系统的科学数据管理培训体系,举办关于科学数据管理的课程、研讨班、讲座等。一方面,我国高校图书馆要加强对馆员全方位、多层次的岗位培训,不断提高图书馆员的数据保存、数据共享等科学数据服务核心技能;另一方面,图书馆员也要对科研用户进行科学数据管理意识、理论和技能等数据素养方面的培训,使他们具备对数据进行管理利用的相关能力;(3)在人员设置方面,成立独立的科学数据部门或小组,进行统一规划、协调与实施,专门工作组可以根据数据管理服务的特点和问题,制定系统和详细的服务计划,根据研究过程中的数据生命周期不同阶段的需求设计和提供不同的服务项目和内容,满足研究人员从项目申请到研究整个过程不同阶段对于数据管理的需求。如麻省理工学院、弗吉尼亚大学、康奈尔大学等高校图书馆等都成立了专门的工作组来负责数据管理服务工作。

参考文献:

[1]  The Royal Society.Science as an open enterprise[M].London:The Royal Society,2012.

[2]  Scheliga K,Friesike S.Putting open science into practice:a social dilemma?[J/OL].[2018-05-20].http://firstmonday.org/ojs/index.php/fm/article/view/5381/4110.

[3]  張颖.美国研究型图书馆研究数据服务的实践进展及趋势[J].图书情报工作,2017,61(9):33-41.

[4]  Eynden V V D,Corti L,Bishop L,et al.Managing and sharing research data:a guide to good practice[M].Sage,2014.

[5]  钱鹏.高校科学数据管理研究[D].南京:南京大学,2012.

[6]  CEOS.Data life cycle models and concepts[EB/OL].[2018-05-22].http://ceos.org/ourwork/workinggroups/wgiss/documents/.

[7]  CEOS.Data life cycle models and concepts[EB/OL].[2018-05-22].http://www2.lib.virginia.edu/brown/data/.

[8]  Joan Starr,Perry Willett,Lisa Federer,et al.A collaborative framework for data management services:the experience of the university of California[J/OL].[2018-05-17].https://escholarship.umassmed.edu/cgi/viewcontent.cgi?article=1014&context=jeslib.

[9]  Pouchard L.Revisiting the data lifecycle with big data curation[J].International Journal of Digital Curation,2016,10(2):176-192.

[10]  Eckard M,Rodriguez C.Thinking long-term: the research data life cycle beyond data collection,analysis and publishing[EB/OL].[2018-05-30].https://scholarworks.gvsu.edu/cgi/viewcontent.cgi?article=1001&context=bigdata_conference2013.

[11]  杨淑娟,陈家翠.研究成果传播与共享——英美国家基金项目数据管理计划概述[J].情报杂志,2012(12):176-179.

[12]  肖潇,吕俊生.图书馆嵌入式学科化科学数据服务研究[J].图书馆学研究,2012(21):85-89.

[13]  陈大庆.国外高校数据管理服务实施框架体系研究[J].大学图书馆学报,2013,31(6):10-17.

[14]  University of california.Data management planning tool[EB/OL].[2018-05-17].https://dmptool.org/user_sessions/institution.

[15]  Cornell university.Data management planning[EB/OL].[2018-05-17].http://data.research.cornell.edu/content/data-management-planning.

[16]  黄鑫,邓仲华.“互联网+”视角下的图书馆科学数据服务研究[J].图书与情报,2016(4):53-59.

[17]  Bigger on the inside:building research data services at the university of virginia[EB/OL].[2018-06-02].https://r.search.yahoo.

com/_ylt=Awr9IMwqjRZbibQAOCFXNyoA;_ylu=X3oDMTByYnR1Zmd1BGNvbG8DZ3ExBHBvcwMyBHZ0aWQDBHNlYwNzcg--/RV=2/RE=1528233386/RO=10/RU=https%3a%2f%2finsights.uksg.org%2farticles%2f10.1629%2fuksg.239%2fprint%2f/RK=2/RS=pVnPKuX74OiqaPT0XwddaimFY94-.

[18]  DMP tool[EB/OL].[2018-06-05].https://guides.lib.virginia.edu/researchmgmt.

[19]  Data sharing[EB/OL].[2018-06-05].https://guides.lib.virginia.edu/c.php?g=515290&p=3520795.

[20]  Citations[EB/OL].[2018-06-05].https://guides.lib.virginia.edu/c.php?g=515290&p=3522232.

[21]  Frequently asked questions[EB/OL].[2018-06-05].http://data.library.virginia.edu/faq/.

[22]  王翠萍,李佳潞.国外高校图书馆科学数据服务现状与启示——以五所高校图书馆为例[J].图书馆工作与研究,2017(10):31-36.

[23]  司莉,邢文明.科学数据管理与共享的理论与实践[M].武汉:武汉大学出版社,2017.

[24]  李晓辉.图书馆科研数据管理与服务模式探讨[J].中国图书馆学报,2011,37(5):46-52.

[25]  NYC open data[EB/OL].[2018-06-12].https://opendata.cityofnewyork.us/.

[26]  The home of the U.S.governments open data[EB/OL].[2018-06-12].https://www.data.gov/.

[27]  GeoData@Columbia[EB/OL].[2018-06-12].https://geodata.library.columbia.edu/.

[28]  Databases[EB/OL].[2018-06-12].https://clio.columbia.edu/databases.

[29]  Spatial data on the Internet[EB/OL].[2018-06-12].https://library.columbia.edu/locations/dssc/data/spatialdata.html.

[30]  CU numeric data collection[EB/OL].[2018-06-12].https://library.columbia.edu/locations/dssc/data/numdata.html.

[31]  Hey T,Tansley S,Tolle K.The fourth paradigm:data-intensive scientific discovery[M].Washington:Microsoft Research,2009:3-26.

[32]  房小可.基于关联数据的高校图书馆科学数据组织研究[J].图书馆建设,2013(10):31-34.

[33]  Lowe B.Datastar:bridging XML and OWL in science metadata management[M].Metadata and Semantic Research.Springer Berlin Heidelberg,2009: 141-150.

[34]  About data and statistical services[EB/OL].[2018-06-13].https://dss.princeton.edu/about.html.

[35]  Advanced metadata[EB/OL].[2018-06-13].https://library.stanford.edu/research/data-management-services/data-best-practices/creating-metadata/advanced-metadata.

[36]  Research data management services in academic libraries in the US:a content analysis of libraries websites[EB/OL].[2018-05-26].https://crl.acrl.org/index.php/crl/article/view/16788/18346.

[37]  Find a data repository[EB/OL].[2018-06-10].https://libraries.mit.edu/data-management/share/find-repository/.

[38]  About DSpace@MIT[EB/OL].[2018-06-10].http://dspace.mit.edu/.

[39]  黃鑫,邓仲华.国外高校图书馆科学数据的元数据服务研究[J].图书与情报,2017(2):84-90.

[40]  Documentation&metadata[EB/OL].[2018-06-15].http://libraries.mit.edu/data-management/store/documentation/.

[41]  File formats for long-term access[EB/OL].[2018-06-10].https://libraries.mit.edu/data-management/store/formats/.

[42]  Data storage,backups,& security[EB/OL].[2018-06-10].https://libraries.mit.edu/data-management/store/backups/.

[43]  黄国彬,王舒,屈亚杰.科学数据出版模式比较研究[J].大学图书馆学报,2018,36(1):34-40,33.

[44]  赵蕾霞,钟永恒.美国高校图书馆科研数据管理服务调查分析[J].图书馆理论与实践,2015(6):54-58.

[45]  Funding mandates[EB/OL].[2018-06-20].http://researchdata.emory.edu/share/mandates.html.

[46]  Citing data[EB/OL].[2018-06-20].http://researchdata.emory.edu/share/cite.html.

[47]  Publishing your data[EB/OL].[2018-06-20].http://sco.library.emory.edu/research-data-management/publishing/index.html.

[48]  鄂丽君.国外大学图书馆的科研数据管理教育[J].情报资料工作,2014(1):101-105.

[49]  Workshops [EB/OL].[2018-06-03].http://researchdataservice.illinois.edu/workshops/.

[50]  黄如花,吉翠芳.伊利诺伊香槟大学数据管理教育现状及启示[J].图书与情报,2015(1):61-65.

[51]  Contact us[EB/OL].[2018-06-03].http://researchdataservice.illinois.edu/contact-us.

[52]  熊文龙,李瑞婻.基于科学数据管理的图书馆数据服务研究[J].图书情报工作,2014,58(22):48-53.

[53]  陈媛媛,柯平.高校图书馆科研数据服务研究综述[J].图书馆工作与研究,2017(10):17-23,30.

[54]  Si L,Xing W,Zhuang X,et al.Investigation and analysis of research data services in university libraries[J].Electronic Library,2015,33(3):417-449.

[55]  Research data management service group[EB/OL].[2018-06-21].https://confluence.cornell.edu/dis-play/ rdmsgweb/Home.

[56]  Delserone L M.At the watershed:preparing for research data management and stewardship at the university of Minnesota libraries[J].Library Trends,2008,57(2):202-210.

作者簡介:武彤,女,华南师范大学经济与管理学院硕士研究生,研究方向:科学数据开放共享、图书馆服务创新。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!