时间:2024-08-31
裴 旭,杨惠芳
(1.河北省旅游创新发展中心 数据信息中心,河北 石家庄 050011;2.河北省图书馆 综合部,河北 石家庄 050011)
元数据通常被解释为“关于数据的数据”,Jeffrey Pomerantz(2015)认为该定义缺乏准确性,有些模糊,[1]而Joudrey等认为这种观点将信息资源视为一种数据形式[2]226。目前,关于元数据还没有统一的定义,但国内外一些具有代表性的定义仍值得参考,如:Greenberg(2003)将元数据定义为“关于支持指定对象相关的功能的对象的结构化数据”[3]5;Caplan则将元数据定义为“用来表示关于任何媒体类型或格式的信息资源的结构化信息”。Lorcan Dempsey将元数据视为一种可以从用户中删除的数据,他们在潜在利益的环境中需要对事物的存在或特征有充分的了解;Muriel·Foulonneau和Jenn·Riley则认为元数据是关于数字资源及其属性的结构化信息[4];Jeffrey Pomeratz将元数据定义为“对某个潜在性信息对象做出的陈述。”[5]肖珑等(2001)认为元数据是“描述一个具体的资源对象,并能对这个对象进行定位、管理,且有助于它的发现与获取的数据。”[6]
由此可以看出,元数据的基本作用就是通过一套信息结构来描述一个具体的信息对象,但正如Taylor所说“重要的是要记住,元数据一词对于不同的团体可能意味着不同的东西。”[2]227因此,河北文化艺术产业大数据平台(以下简称“平台”)元数据的设计首先要从平台的信息对象着手,并适用于河北省本地文化艺术管理机构,这就需要对信息对象的类型、主题加以区分。
按照Anne J.Gilliland的分析,所有信息对象都可以而且应该通过元数据反映其内容、上下文和结构三个特征。因此,笔者在设计河北文化艺术大数据平台元数据框架时,采用了Anne J.Gilliland关于信息对象三个特征的论述[7]:(1)内容指信息对象包括对象本身的内容,以及与对象相关的内容。(2)上下文指与信息对象创建过程中的人、内容、原因、地点、创建方式,而非信息对象本身。(3)结构指的是单个信息对象内部或信息对象之间的正式联系的集合。
Mutha·Baca(2008)将元数据分为管理型、描述型、保存型、技术型、使用型,并提出其属性包括:元数据来源、创建方法、性质、状态、结构、语义、级别,其产生方式包括创建者设计、数字化加工系统生成以及计算机自动生成。[7]15-17根据不同的使用目的或元数据功能,其种类也有多种划分,如专家与非专家元数据、静态与动态元数据、长期与短期元数据、结构化与非结构化元数据、集合型元数据、项目型元数据等。2010年,图书馆员Jenn Riley发表了一份元数据标准的世界地图。该地图包含超过100种元数据标准,涵盖图书馆、档案馆、博物馆、信息产业、文化对象、音乐、地理信息、视觉资源等多个领域,功能涵盖管理型元数据、技术性元数据、结构性元数据、版权型元数据、内容标准、可控词表、标记语言等。[8]此外,根据元数据的层次关系又可分为全局型元数据、通用型元数据、本地元数据等[3]20-21。可见,元数据的种类和划分具有多样性、多用途的特点,根据用户使用环境的不同,采取的策略和方法也不同,笔者制定或设计元数据的关键之处就在于通过元数据设计或创建,实现其对信息对象的组织管理、重复利用、检索利用、重新情景化等。
为定义的目的开发的一组元数据元素通常称为元数据格式或元数据结构标准。国外在文化艺术资源领域的元数据标准起步早,发展比较成熟,有些已成功应用在多个工程项目,其中较有代表性的包括:VRA core4.0,由美国视觉资源协会制定,包括19个核心元素等资源;CDWA由盖蒂艺术研究所制定,包括32个核心元素;由Dublin Core美国OCLC发起制定,包括15个核心元素。关于以上三种元数据,冯项云等(2001)曾作过详细的对比介绍[9],本文不再赘述。
近年来,随着数字文化资源、数字遗产合作共建,出现了一些跨国、跨地区、跨行业的新的合作,其中较有代表性的项目及其元数据包括:欧洲数字遗产合作项目Europeana及其元数据EDM(Europena Data Model)(当前最新版本为5.2.8),其元数据适用于文学、历史、艺术、电影和音乐等多种资源,元数据结构包括:类、属性、定义。其中类包括:代理者、集合、对象、事件、信息资源、非信息资源、实物、地点、被提供的文化遗产对象、时间范围、网页资源;属性包括:集合的文化遗产对象、开始时间、集合名称、国家、当前地点、数据集名称、数据提供者、结束日期、中间提供者、代理、事件发生地点、“遇到”、资源类型、视图、合并、注释、派生、顺序、相关、代表、展示地点、展示者、相似、继承者、登录页面、语言、对象、事件发生时间、预览、提供者、认识、版权说明、资源类型、用户生成内容、未储存的、统一资源定位器、用户标签、存在于、年代。[10]美国数字公共图书馆项目DPLA,其核心类包括:(1)(源资源)替代标题、集合、贡献者、创建者、日期、描述、范围、格式、识别符、语言、地点、发行者、关系、替代品、代替、版权所有者、主题、子类型、时间范围、标题、类型;(2)网络资源,包括文件格式、版权声明、IIIF清单、IIIF基本URL;(3)集合,包括聚合的源资源、数据提供者、数字资源原始记录、观点、中间提供者、显示、对象、预览、提供者、版权说明;(4)版权说明,包括版权说明、定义、注释。同时,DPLA元数据实现了与EDM之间的互操作。[11]
国内方面,较为成熟的元数据标准多集中在图文和文博领域,在这些元数据中,有些成为了行业标准,如:肖珑等(2001)制定的中文元数据标准已成为北大图书馆和国家图书馆的元数据标准之一,包括14个核心元素3个本馆核心元素[6];国家文物局委托北京大学图书馆设计的《文物数字化保护核心元数据》,其核心元素集包括20个元素[12]。 还有些元数据方案已成功应用到项目或系统建设中,如:冯甲策(2013)设计的国家博物馆元数据规范,每个元数据元素按照层级结构概念定义了若干元素;每一个元素都由一组属性进行定义和描述,并根据“数字国博”建设进行了修订应用[13];CADAL中心委托中国美术学院院图书馆制定的《美术图像数字化元数据标准》,主要针对二维的美术图像资源,元数据共18个核心元素,应用到CADAL二期项目[14]。还有部分元数据方案属于科研项目尚未推广使用,如:兰绪柳、孟放(2013)针对书画、雕塑、曲目、民族舞蹈等艺术资源类型,以VRA Core作为核心,结合CDWA中部分元素作为扩展的方式,设计并定义了相关核心元素[15];龚花萍等(2014)根据数字博物馆的文物信息资源的特点将文物信息资源元数据分为基本信息、局部信息、历史文化信息、视觉文献、展览信息和记录管理信息6个模型,通过核心元素集+扩展元数据结合的元数据表示模型,构建了文物信息资源的元数据框架。[16]
总的来看,国内外文化艺术产业资源元数据标准的目的和功能主要集中在文化艺术资源的保存保护、管理发现以及互联互通,其范围主要涵盖以下几个维度:(1)外部属性元素,如:名称、创作者、主题/关键词、资源描述、资源类型、资源标识、语种、规格、级别等。(2)内部属性元素,如:材料/材质、技术、特色、风格/流派等。(3)时间维度元素,如:日期/时间、事件、风格时期、建设时间等。(4)空间维度元素,如:地区、地点/地理位置、收藏机构、占地面积、建筑面积等。(5)开发利用维度元素,如:所有权/收藏历史、展览/借出历史、编目历史、视觉文档、考古发掘、展览/借展史、权限管理等。在框架结构上也基本以“总分式”“ 通用+专门”“ 本地+异地”来实现大规模的数据采集与交换。
总体来看,国内外文化艺术产业元数据应用于资源层面的标准较多,也更成熟,但多停留在资源层面的保存保护与管理,而对于资源转化利用情况及产业开发层面的元数据标准相对匮乏。为此,在平台元数据设计时,充分借鉴了国内外文化艺术产业元数据标准框架,并在此基础上扩充了文化艺术资源的产业转化、资源利用等元素,以满足文化艺术行政管理部门对现有信息资源管理、保存以及未来文化艺术行业信息资源开发和分析的需求。
考虑到该平台主要在河北省使用以及今后与国家文化部有关数据平台对接的一致性,文化企业、重点项目和统计数据等方面的元数据标准研究,主要通过对文旅部网站有关数据平台和文旅部门内部有关统计表单的调研,以有关数据平台的元数据框架作为主要标准或依据,鉴于篇幅有限其详细框架和统计元素就不在此列出,河北省文化艺术产业大数据元数据主要参考标准及依据如表1所示。
表1 河北省文化艺术产业大数据元数据主要参考标准及依据
在元数据设计之初,笔者通过实地走访与网络调研方式,考察河北省文化艺术系统管理的各类文化艺术及产业资源,首先确定平台信息对象范围及其内容,包括:河北省文化艺术事业及产业发展的有关政策、法律、法规、文化艺术产业、各级产业园区与示范基地、文化与统计部门产业统计;河北省文物存量及其保存、保护情况;文物实物及相关资料、特色展览、参访情况、文创产品开发情况;各类文物建筑修复情况及其基本资料、河北省非物质文化遗产及其传承人有关资料、河北省剧种和剧目研究资料、艺术科研;文艺院团演出、剧目创排情况以及演出场所(馆)舞台剧目展演情况等。根据以上文化艺术资源及其管理机构,在本平台中,将各类数据分为五类:一是文化艺术资源,包括以各类文物、非物质文化遗产为核心的遗产资源数据,以舞台表演、美术、书法、剧目创作为主的艺术资源数据,以博物馆、图书馆、美术馆、群艺馆(文化馆)、演出场所(馆)为主的公共文化服务资源数据,以及以各类文化、艺术人才为主的人才资源数据;二是文化企业数据,包括各级各类文艺院团、经营性演出机构、演出场馆(所)、演出中介机构以及国家、省、市三级产业园区及示范基地;三是项目数据,包括国家艺术基金、省文化产业发展资金资助或扶持的重点剧目,北京文博会、深圳文博会、天津文博会、河北省特色文化产品博览交易会等参展或签约项目,太行山文化产业项目、大运河文化产业项目等河北省重要文化产业项目,以及国家艺术基金、文旅部文化产业基金重点资助和扶持的国家级文化艺术项目;四是综合资料,包括各级政府档案资料、文化艺术研究资料、各类调研报告、案例、地方文献等文献资料;五是统计数据,包括各级政府部门发布的文化及相关产业统计数据、文化艺术研究机构的地区统计数据、各类文化艺术企事业单位开展各类经济、社会活动以及所产生的经济、社会效益的统计数据。这五类数据之间的关系如图1所示。
图1 河北省文化艺术产业大数据及其关系
根据以上五类信息对象,在借鉴国内外较为成熟的元数据标准框架基础上,笔者以文化和旅游部、国家文物局、国家艺术基金管理办公室等部门和机构网站中的有关数据平台和统计报表作为参考,充分考虑后期政府间数据平台信息交换的便利性和一致性,选出部分标准及元素作为设计依据。在框架设定时,除了资源层面的框架,还增加了经济效益维度元素,如:注册资本、收入、上缴利税、利润、总投资、累计到位资金等,以及社会效益维度元素,如总演出场次、总演出观众人次、公益演出活动情况、主题实践活动开展情况、企业信用等用于文化企业、重大项目、产业及服务统计等数据对象,在结构上采用通用元素+专门元素的构成方式设计其元数据标准,其中通用元素32个、专门元素76个(见表2)。
表2 河北省文化艺术产业大数据平台元结构框架体系结构
元数据标准设计遵循以用户为中心的原则,根据对政府机构用户日常业务使用情况的研究分析,以及上下部门、系统内部之间的数据交换和采集,功能按照以下几个方面进行设定。
1. 资源描述。对遗产、艺术、企业、项目、政策法规等信息对象的内容、属性等描述,比较完整地反映出平台中文化艺术资源、文化企业、产业数据、重点项目、政策法规等信息对象的全貌。其中,最重要的是看其能否准确地与其他具体信息对象进行区分,这就需要针对每一类具体的资源对象分别研制元数据标准。
2. 检索与筛选。一是支持用户通过主题、关键词等搜索,以及地区、时间、产业类别等索引发现资源的能力,利用整个元数据来更好地组织文物、艺术、文献、企业、产业、项目等信息对象,建立各类文化艺术信息对象之间的关系,为用户提供全方位、多层次、多渠道的检索体系,从而实现用户快速发现并访问的信息资源。二是支持用户通过索引,如时间、地区、产业类别等,能够对整体文化、艺术、产业信息有基本的掌握。
3. 资源定位。一是提供数字遗产、产业项目、文化企业、数字档案等资源位置信息,如DOI、URL等信息,使用户准确获取信息对象的地址链接,便于信息访问和获取。二是提供遗产及文献收藏机构、文化服务机构、文化企业、文艺院团、演出场所等本身的地理位置信息,便于用户实地访问。
4. 资源管理。保存数字遗产、艺术资源、文化艺术档案、产业项目、政府信息资源的加工存储和使用管理等方面的相关信息,以及与版权、所有权相关的权限管理等。
5. 统计分析。一是对遗产、公共文化服务机构、文艺演出、文化企业、产业项目、政策法规等对象在数量、产品、产值、分布、服务效能、发展态势、项目推进及带动作用等指标进行统计分析,为用户提供行业发展、产业经济、项目效果、科学决策等重要信息。二是对文化、艺术、遗产资源开发利用的程度、频次、相关产品和企业、产业及产值规模等信息分析。通过对这些信息的统计分析,提供探索研究文化艺术资源在资源开发、产业利用等经济层面的联系,帮助文化艺术市场主体及管理者更好地管理利用资源,识别潜在资源在同类资源中的经济潜力和利用价值。
6. 动态管理。对重点艺术项目、重点剧目、产业项目等实施进展情况,以及重点文化企业、产业园区、产业发展态势进行定期管理考察。其基本功能框架如图2所示。
图2 河北省文化艺术大数据元数据功能框架
在该平台中,元数据标准的元素定义方法指的是元素属性构成及其文字性说明,平台采用了以ISO/IEC 11179标准为主,本地化应用为补充的原则,按以下10个方面定义元素:(1)名称:元素名称。(2)标识:元素唯一标识。(3)定义:对元素概念与内涵的说明。(4)选项:说明元素是限定必须使用的还是可选择的必备性。(5)数据类型:元素值中所表现的数据类型。(6)最大使用频率:元素的最大使用频次可重复性。(7)注释:元素应用注释。(8)级别:元素的层级。(9)隶属于:元素所从属的上级元素标识。(10)关联:元素所录入数据与其他库中相关或相同元素数据之间的逻辑联系。
以河北梆子现代戏《李保国》为例,通过检查“李保国”“河北梆子”关键词,可以查找其在文化艺术资源、文化企业、重点艺术项目等数据库中的相关数据信息,获取与“李保国”有关的文艺作品开发情况、文艺作品创排情况、创排作品演出情况、重点艺术项目资助情况、演出统计情况,并根据其相关数据实现以下目的:一是实现对河北梆子现代戏《李保国》的信息资源保存与管理;二是实现对河北梆子现代戏《李保国》的经济和社会效益评估。
总的来说,该平台元数据试图通过在部分借鉴国内外现有标准基础上,从实践应用出发,探索一套适用于未来可支撑文化艺术产业大数据平台的元数据框架标准。在设计和实施中难免存在各类操作性、应用性等不完善之处,还需日后在不断应用的基础上加以改进。正如Eva Méndez、Seth van Hooland所言,“元数据本质上是经验性的,因为它们记录了我们不断变化的环境的一部分。”[3]9
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!