时间:2024-05-04
顾东晓 盛东方
摘要:文章采用引文分析法,探究了图书情报领域研究对学术深网资源(AIW资源)的利用情况与趋势。文章首先界定学术深网资源的内涵与特征,爬取近五年出现在领域权威期刊中的学术深网资源引文作为研究样本,进而从学术深网资源引文的总体情况、资源类型、和资源来源三个层面进行分析,最后对科研资源的聚合与服务建设发展提出了建议。
关键词:学术深网资源;资源聚合;学科服务;引文分析法
中图分类号:G250.73 文献标识码:A DOI:10.1 1968/tsyqb.1003-6938.2016039
1.引言
以开放存取运动(Open Access Movement)为代表的模式变革促使越来越多的学术资源数字化后呈现在网络中,而搜索引擎的诞生极大地方便了科研工作者查找此类资源并由此改变了他们的信息搜索与利用行为。近年来国内外学者开始从网络引文角度关注网络学术资源的利用情况,多数聚焦于引文数量、域名分布、可追溯性等特征指标,鲜有对网络引文资源类型的深层次挖掘。本文以学术深网资源为研究切人点,探索通过引文分析法研究“看不见”网站资源对图书情报学科科研工作的价值,揭示本领域学者对此类资源的利用规律,以期为进一步开发和利用学术深网资源提供依据。
2.“看不见”的网站与学术深网资源
2.1“看不见”的网站与学术深网
“Invisible Web”最初产生于互联网领域,类似的概念包括“Deep Web”、“Hidden Web”等,国内学者马费成将其译为“看不见”的网站。美国图书馆员和信息专家Chris sherman和GaryPrice将“看不见”的网站定义为:在互联网上可获得的,但传统的搜索引擎由于技术限制不能,或者经过慎重考虑后不作索引的那些网页、文件或其它高质量、权威的信息。而在学术工作中,由于“看不见”的网站的存在,搜索引擎的结果质量往往引发质疑。基于此,德国学者Dirk Lewandowski与Philipp Mayr提出了学术深网(Academic Invisible Web,AIW)的概念,指包括所有数据库在内的传统搜索引擎无法检索到的学术内容,并认为,学术深网涵盖了文献(如期刊论文、学位论文、报告、图书)、数据(如调查数据)、电子内容(如开放存取文档)等资源,对学术工作极具价值。美国数据整合与企业信息分析公司Bright Planet发布的白皮书进一步显示,“看不见”的资源规模远大于表面网(Surface Web)并持续高速增长,同时,信息质量与内容深度也远高于表面网。
2.2学术深网资源类型
“看不见”的网站以关系数据库fRelationalDatabase Files)内容为主,还包括未被链接的网页(Unlinked Pages)、非HTML网页(Non-html Pages)、特殊文件(Special Files)、实时或者流动文件(Realtime or Streaming Files)以及动态网页(Dynamic Pages)等。国内学者陈红勤在Sherman和Price工作的基础上归纳出“看不见”的网站形成的原因主要有技术、经济和知识产权三类。Lewandowski和Mayr认为,从图书馆的角度而言,学术深网资源(后文简称AIW资源)以诸如PDF、PPT、DOC格式的特殊文件为主。随着技术的发展,一些AIW资源正逐渐变得可见,譬如使用“关键词+filetvpe:pdf”的查询语句可以检索PDF格式的文件,又如谷歌与百度都新增了图像搜索功能等。尽管如此,“一站式”检索并未真正实现。因而,本文仍将上述类型资源划归为AIW资源。
3.数据来源与处理
国家标准化管理委员会于2005年发布的最新版《文后参考文献著录规则》(以下简称《规则》),规定了包括数据库在内的网络资源的标引格式。但根据《规则》识别AIW资源存在两个困难:一是部分文献尤其是年代较久的文献并未严格按照《规则》进行标引:二是某些资源特征无法通过著录符号识别与区分,如动态网页与静态网页。为弥补以上不足,本文采用著录符号与URL双重特征识别方法抽取目标引文,AIW资源分类与特征见表1。
在数据来源上,为准确把握图书情报领域AIW资源利用情况,在综合考量数据的可获取性、准确性和权威性等方面的基础上,本文选取中文社会科学引文索引(CSSCI)公布的《CSSCI(2014-2015)来源期刊拟收录目录》中的《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》与《情报学报》①4种期刊2010年至2014年刊载的学术论文作为研究样本获取AIW引文。以往引文分析研究数据来源大多为CSSCI,但笔者经测试发现,从CSSCI中提取到的引文数据存在内容缺少或格式不规范等问题。比较后,本文选取万方数据库作为数据源,根据数据抽取规则编写爬虫程序获得目标著录信息。数据采集时间为2015年11月18日到11月22日,共得到含AIW引文论文1699篇,AIW引文4597条。
4.数据分析
4.1AIW引文总体描述
从期刊分布和年度分布两个维度,通过AIW引文的统计分析可以间接地反映科研工作者对AIW资源的价值认识和依赖程度。从表2可以看出,含AIW引文论文在全部刊载论文中占比超过三分之一,而《中国图书馆学报》更是超过半数,其中,篇均AIW引文数为2.71,AIW引文数在网络引文总数中占比达到30.22%。这表明AIW资源是网络学术资源的重要组成部分,被图书情报领域学者广泛认可,并在其科研工作中发挥着重要价值。按时间顺序纵向观察(见表3)可以发现2010-2014五年间单篇论文引用的AIW资源条目不断增加,引用AIW资源的论文比重也大致呈上升趋势,尤其是2013、2014两年,比重达到40%左右。这反映出图书情报领域学者对AIW资源的认同度不断提升,越来越重视AIW资源的利用。
4.2AIW资源类型分析
根据AIW资源分类与特征(表1)对样本中AIW资源引文类型进行考察,需要说明的是,数据处理中发现大量数据库类型引文未能严格按照数据库文件的著录规则进行标注,且数据库文件的URL不具备统一的可识别特征,因而本部分主要从特殊文件和动态网页两个大类进行分析。
从表4可以看出,特殊文件中PDF文件的引用明显多于其它类型,这与前人的研究结论吻合,且在AIW引文中占比逐年增多,2011年开始已超过半数,2014年更达到65.75%。PDF文件是一种通用的文件格式,具有跨平台、易于传输与存储等特性㈣,有研究表明,PDF格式的网络学术资源与较高的学术价值存在关联,这很大程度上解释了PDF文件被持续大量引用的原因。Word文档与PPT文件也多次出现在AIW引文中,此结果与一项基于Google搜索的网络学术资源类型调查结论相符。除此之外,xls、zip、xar、.exe格式的资源也出现在引文中,但频次很低。
而对于动态网页来说,一方面URL特征中的,asp、.isp、.php等仅反映了资源网页的开发语言,不代表其本身的某些特征属性差异;另一方面,网址中的“?”符号表示网页属于动态网页,经常会和其它URL特征一同出现,如“http://www.sciencenet.cn/m/user-content.asox?id=216844”,因而对这些不同特征符号之间的引文变化情况进行分析价值较小。故此处不再考察各特征动态网页引文在AIW引文中的占比,而选择将动态网页作为一个整体,分析其历年在网络引文中占比的变化。从表5可以看出,2010-2014五年间动态网页引文占网络引文的比重呈现回落趋势,从2010年的16.97%下降到2014年的9.24%,五年来合计占比为12.78%。国内学者丁敬达、杨思洛对2005-2010年间图书情报领域权威期刊网络引文进行分析发现,动态类网络引文比例是逐年上升的,六年的合计占比为10.47%。将这两组数据进行对比,发现尽管2010-2014年动态网页引文量出现下降,总体上较五年前仍有增长。相信随着用户生成内容的进一步推广及其价值逐渐被认可,动态网页型资源还将越来越多的出现在学术研究过程中。
4.3AIW资源来源分析
通过对AIW引文的域名进行分析,可以了解此类资源的来源以及研究者的利用偏好,并间接衡量不同网站的学术价值。按照域名可以将常见学术相关网站分为7类:.com(工商企业)、.org(非营利组织)、.net(网络机构)、.edu(教育)、.gov(政府)、.ac(学术)、.int(国际组织)。本文对AIW引文域名统计见图1。可以看出,出现频次较高的域名由高到低依次是.org、.edu、.com、.gov,这与国内一项对2010-2012年网络引文来源域名的研究结果(.org>.com>.gov>.edu)有所区别,也与中国互联网信息中心发布的《第36次中国互联网络发展状况调查统计报告》中的中国域名分类统计结果(.com>.net>.ac>.org)有较大差异。
为进一步探究AIW资源来源,挖掘在图书情报领域研究中发挥重要价值的网站,本文对各类型高被引网站进行了统计,结果见表6。可以看出,学术类机构协会、图书馆与数据库等传统学术资源提供方提供了大量的优质AIW资源,且受到研究者的高度关注与广泛引用。而来源网站中多次出现的各类学术数据库与搜索引擎如IEEE Xplore、CiteSeer、eLIS、e线图情等,正印证了真正的深网内容以数据库为主的论断。从网站的内容来看,高被引网站主题以图书情报为核心向相关学科和领域延伸,如面向法学与知识产权的北大法宝、世界知识产权组织。这反映出我国图情学者的研究主题与学术知识来源的跨学科性。从地域分布和语种来看,以国际图书馆协会联合会等机构协会为代表的英文类国际域名网站占了相当大的比重,除此之外,来源于美国与英国的资源也颇受关注。可见,随着我国图书情报学科国际化程度的持续提高,科研人员对国际上的学术资源越来越重视,尤其在相关非营利组织资源不断丰富、教育资源与政府信息进一步开放的趋势下,相信外文资源将会越来越多的出现在我国图情领域的研究中。伴随Web2.0产生的新型学术资源网站如社会科学研究网、读写网同样值得关注。有学者指出,Web2.0能够促进知识的交流共享,学术博客作为一种新的信息资源,包含大量前沿学术资源。统计结果表明,Web2.0下的新型网络学术资源已被科研工作者认可并广泛利用。另外,经济合作与发展组织、中国互联网信息中心等网站资源的广泛引用,反映出我国图情领域研究呈现出关注经济发展,注重与产业界结合的趋势,更表明科研工作者已不再局限于传统学术资源,而是更多地利用“非学术”资源进行科学研究。
5.总结与讨论
本文运用引文分析的方法,对近五年出现在图书情报领域四种权威期刊上的AIW引文进行分析,探究AIW资源在本学科研究中的利用情况与趋势。
(1)AIW资源大量出现在学术论文引文中,反映出我国图情学者在科研过程中对学术资源的搜集与利用已不再局限于浅层的“表面网”,更加关注那些轻易“不可见”但价值量极高的深度资源,并且,AIW资源比重的持续加大也显示了学者对其依赖程度的不断提升。然而,持续的各种数字化工程虽然有力推动了资源的开放共享,但相对落后的搜索能力侧面上加剧了学术资源的“不可见”。因而,旺盛的资源需求与有限的获取能力和较高的搜索成本成为了AIW资源利用的一大突出矛盾。AIW概念的提出者Lewandowski与Mavr认为,针对这种现状,以图书馆为代表的学科服务提供方有责任通过合作等方式努力使AIW的内容对科研工作者可见。基于此,本文认为深度聚合图书情报领域AIW资源,实现高质量科研信息导航与服务意义重大。
(2)从资源格式来看,以PDF文件为代表的非结构化文档由于在AIW引文中占比极大应予以足够重视。如前文所述,PDF格式的网络资源往往具有较高的学术价值,但学术搜索引擎如Google Scholar的搜索范围以结构化数据库中正式发表的学术文献为主,对非正式发表的学术文献覆盖率低,导致大量极具学术价值的PDF类型资源仍“不可见”。国内外学者为解决这一问题从链接、内容、文体等特征人手尝试对PDF学术资源的识别和检索加以改进并取得了一定成果。就本文研究结果而言,对PDF、DOC、PPT等格式文件的分析与处理仍是提升AIW资源利用效率的重点。另外,研究结果还表明,动态网页型资源在学术研究中颇具价值,针对此类资源的获取,有学者提出对特定“不可见”网站编写脚本或程序进行查询和提取是有效途径。
我国图情学者在科研工作中对AIW资源的利用呈现出来源网站与资源内容的跨学科、国际化、非传统、新形式的趋势。因而在进行学科知识聚合与服务中,也应突破固有思维,顺应科研活动变化。从来源上,除传统提供学术资源服务的数据库、图书馆外,一方面向提供经济、政策与行业等背景信息的非学术类工商企业、政府和非营利组织网站拓展;一方面重视Web2.0环境下各类非正式学术交流社区:从内容上,向图书情报研究的相关支撑与交叉学科延伸:从区域上,打破地区与语言的限制,引入丰富的外文资源。依据以上原则筛选出重点信息源,结合上文提到的编写特定脚本或程序进行查询和提取的方式,对其AIW资源进行揭示。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!