数字图书馆无效链接实证研究

时间：2024-05-04

刘金亚，顾立平，陈新兰

（1.中国科学院文献情报中心；2.中国科学院大学经济与管理学院，北京 100190）

0 引言

数字图书馆的出现，始于1994 年美国国家科学基金会、国防部先进研究项目局和美国国家航空与航天局联合启动的为期4 年的数字图书馆研究项目［1］。经过长期发展与实践，数字图书馆现已成为用户获取信息，满足日常知识需求的重要方式。在过去20 年，图书馆建立了成熟的数字图书馆知识服务体系和丰富的资源内容［2］，图书馆学界关于数字图书馆链接研究内容不断增加。

其中，晁亚男等［3］从用户使用意愿出发，发现平台设计质量、用户期望和信息质量是数字图书馆知识链接用户使用意愿的主要影响因素；Mirghafoori 等［4］研究结果表明，网站缺乏跳转到用户的链接是高校图书馆提高数字服务质量的主要原因之一；Cheng 等［5］提出一种基于关键词—引用—关键词网络的学科知识结构分析方法以检测具备较高语义关系的关键词间的间接链接关系；Page 等［6］提出了一个更好访问数字音乐图书馆的链接数据框架，该框架利用可重用的工具包，以支持通过实时事件定制的用户界面；Wenige 等［7］研究了如何在数字图书馆中使用链接开放数据进行推荐和信息检索的方法。然而，数字图书馆中链接相关研究在不断丰富的同时，如何简单有效地帮助管理者解决无效链接问题，维护数字图书馆链接的长期可持续性，始终困扰着数字图书馆的用户和网站管理者。谭园园等［8］对无效链接的解决方法进行了早期探索，后期也有相关学者对无效链接的清除方法作出了改进，例如可通过百度搜索资源平台查看网站失效链接［9］；Zheng 等［10］提出了一种针对可存活链接中共享链接失效的快速恢复算法，以应对网络链接失效问题。

链接虽然在丰富数字图书馆服务内容，提高数字图书馆服务质量方面起重要作用［11］，但白海燕［12］的研究表明，无效链接仍是影响数字图书馆服务质量的重要原因之一。Paris［13］认为无效链接影响了数据质量，建议学术界研究无效链接的影响和解决方法。而调查分析发现，学术界并未有针对数字图书馆无效链接的解决办法，数字图书馆中的无效链接问题，仍未得到很好的解决。

无效链接指无法打开响应的链接指向，无法实现链接的链接类型［8］。无效链接根据表现方式，可分为错误链接、死链接及重叠链接3 种。

（1）错误链接。错误链接指根本不存在的链接，是由于域名、URL 地址输入错误等原因而生成的链接。

（2）死链接。死链接指原本存在，但由于长期无人维护，对外链接的网页或文件更改了位置，或所链接到的网页被替换，服务器或数据库不再支持原有网页链接而生成的链接。

（3）重叠链接。重叠链接指原本存在，但网站在更新维护过程中，更改了部分内容，却未对原始网页进行清除，而导致原始网页内容和新网页内容部分重叠的链接。重叠链接是由于网站内部管理不当而造成的结果。虽然不会影响用户最终浏览结果，却给网站管理员造成了困扰，也降低了终端用户浏览时的精确度和使用体验。

随着时间的不断推移，数字图书馆累积了较多的无效链接。若不能有效清除，不仅影响了用户使用体验，还会降低用户获取信息的准确性，使用户丧失对网站的信任［12］。为了解决该问题，本文以某国内数字图书馆为例，并随机选取了国家科技图书文献中心（National Science and Technology Digital Library，NSTL）［14］及中国高等教育文献保障系统（China Academic Library &Information System，CALIS）［15］的38 家成员馆进行了验证分析。

1 研究过程

1.1 数据来源

本文以某国内数字图书馆网站为实验对象，利用预先设计的代码，对实验对象进行了测试，具体分析处理过程主要由3 部分构成（见图1）。

（1）确定分析目标。选取官网链接为分析对象，检验该网站内无效链接状况。

（2）选择分析工具。选取Python3.8.5［16］版本为分析工具，新建脚本文件，编写识别无效链接的程序代码。

（3）输出分析结果。测试数字图书馆的无效链接情况及代码可行性。根据分析结果，总结数字图书馆中无效链接的类型和清除方法。

Fig.1 Analysis process图1 分析处理过程

1.2 研究方法

下载Python 工具，并为其选用合适的运行环境；下载并调用访问网页的urllib 库［17］，分析网页用的BeautifulSoup库［18］；根据设计的代码返回运行结果。具体分析流程如图2 所示。

Fig.2 Code analysis process图2 代码分析流程

（1）导入分析工具并输入待分析的网页链接。结合计算机终端状况和需求，下载合适的Python 版本。之后，选取合适的运行环境（例如Spider［19］、Pycharm［20］等）。一切就绪后，打开运行环境，并新建文件，输入待分析的网页地址。

（2）抽取链接信息，形成对应的数据结构。根据待检测的网站网址，分析该网址的链接内容，形成以元组（tuples）表示的数据结构，例如http404Error=（404，“Not Found”）。

（3）遍历网站，并反馈结果。分析网页链接时，若发现网站内确实存在失效链接，则将这些链接内容以反馈信息和响应url 信息的形式返回到运行界面。

根据上述分析流程，本文设计了一段简单的代码，在经过初始代码的运行与调试后，得到了准确的代码内容，具体代码见算法1。

2 结果及讨论

本文将某国内数字图书馆官方网址输入到代码测试区，运行代码后最终得到了该网站的无效链接状况，部分结果见算法2。

Algorithm 2：The Invalid Links Results of A Digital Library

算法2：某国内数字图书馆无效链接运行结果

输入网站网址：http：//www.las.ac.cn

网页信息“查找网络数据库”的情况“http：//www.las.ac.cn/subpage/Information_Content.jsp？InformationID=6159”可能是无效链接。

网页信息“信息素质教育”的情况“http：//il.las.ac.cn”可能是无效链接。

网页信息“正在进行的活动”的情况“http：//www.las.ac.cn/others/news_activity.jsp”可能是无效链接。

网页信息“资源动态消息”的情况“http：//www.las.ac.cn/others/news_resource.jsp”可能是无效链接。

网页信息“总体概况”的情况“http：//www.las.cas.cn/gkjj/”可能是无效链接。

网页信息“60 周年馆庆网”的情况“http：//www.las.ac.cn/60/”可能是无效链接。

网页信息“馆史陈列室”的情况“http：//www.las.ac.cn/history/”可能是无效链接。

网页信息“第六次文献情报会议”的情况“http：//wxqb6.las.ac.cn/”可能是无效链接。

网页信息“博士后流动站”的情况“http：//www.las.cas.cn/jypx/bshldz/”可能是无效链接。

网页信息“2020 年中国专业图书馆学术年会征文通知”的情况“http：//www.csla.org.cn”可能是无效链接。

根据算法2 可知，代码准确且运行结果可信。网站管理员可根据运行结果，进入网站服务器或用户终端浏览器。若发现网站内确实存在结果中的无效链接，则可根据链接的内容和位置，对无效链接进行剔除和更改。

本文主要目的是通过简单的程序代码，一键了解网站无效链接概况，旨在方便日常链接维护，提高无效链接处理效率。结果发现，某国内数字图书馆的无效链接主要存在3 种类型：

一是网页更替过程中，新旧网页大部分内容相似，只是所使用标签和内容表述发生了变化，即重叠链接。产生该现象的原因是网站建设者或管理员在内部测试时，找到了管理或技术上的问题，改变了网页的窗口样式、颜色、语言描述等。该部分的网页虽并未给用户增添较大的检索负担，但用户若不了解网页内容的新旧情况，则会由于双重标准而困扰，用户无法判断网页信息内容是否准确有效。

二是用户在搜索网页过程中，被提示网页正在跳转中或返回到首页。该链接在网站中实际并不存在，终端用户无法看到最终网页，即错误链接。产生这种现象的原因可能是网站在建设或更新过程中，网站建设者或管理员输入错误的网页地址或撰改了原始网页信息，导致网页无法跳转，用户无法判断网页内容是否真的存在。尤其是用户网络状况较差时，用户可能将关注点放在网速上，其搜索时间被无限拖长。

三是指网页链接存在，但无法打开，即死链接。产生这种链接内容的原因可能是网站建立初期，有足够的资金和资源支撑数字图书馆的运作。但在网站运营过程中，负责该网站的建设者可能转移了工作重心，网站缺少资金支持，导致一部分链接无人维护或更新。链接指向发生了变更，用户在搜索时，仍可看到该链接。在点击时，却无法打开，进而可能让终端用户误以为网页正在维护中，仍可能会有最新消息发布。

之后，为检验同类机构网站无效链接状况，本文随机选取NSTL 及CALIS 38家成员馆进行验证分析，如表1所示。

Table 1 Invalid links results of digital libraries表1 数字图书馆无效链接存在情况

分析发现，除无法访问的网站外，同类机构网站中几乎都存在无效链接，但数量不一、浮动较大。其中，最大值为89，最小值为2。为更直观地对比各数字图书馆的无效链接情况，本文进行了谱段分析（见图3）。由图3 可知，各数字图书馆的无效链接数量大多处于1～13 之间，有个别超过了37。分析发现，各数字图书馆无效链接类型集中表现为死链接，其次为错误链接。但整体而言，无效链接基本为以上3 种。而具体网站无效链接状况，读者可自行验证。

Fig.3 Invalid links distribution图3 无效链接分布状况

3 结语

数字图书馆随着时间推移，其链接数量会不断增多。虽然无效链接的存在为正常现象，但若出现太多则有必要仔细检查和梳理。否则用户将会在搜索过程中，逐渐丧失其耐性，降低对网站的满意度。此外，数字图书馆网页多、项目进展快速、内容更新频繁等，也可能造成更多的无效链接。为了解决这一问题，本文设计了简单代码并运行。希望通过简单的方法，帮助网站管理员解决较为麻烦的无效链接问题。其具体作用主要包含以下几方面：①该段简洁代码和上述所述简单操作，可以协助数字图书馆的馆员（或一般网站管理员）检查网站链接状况，以便对无效链接进行及时更新、剔除或新增，以优化用户使用网站时的体验；②可用于检查无效链接外网页的处理情况，测量网页管理情况，决定非无效链接下网页间的相互链接关系，以帮助网站管理员更好地组织网页间的链接关系，提高用户使用网站的效率；③可用于检查数字图书馆网站管理工作，全面了解数字资源基本状况，定期对数字资源内容进行检查，避免资源重复建设。

以往依靠人工计算不免费时耗力，需改善网页链接，借助自动化方式，提高无效链接检查效率和准确性，并直接计算结果，但对于如何及时预警并改善数字图书馆无效链接机制需进一步研究。并且，无效链接间的比较，不能简单地用数量进行评估，应采用一种合适的计量方式：①网站总数除以无效链接数；②实现步骤①中结果标准化，即介于0 和1 之间的数值；③考虑个别图书馆在全部图书馆的无效链接频谱上的位置，并检查无效链接数的真实数值，进行合理判断。

因此，未来研究中，将会利用自动化方式，探索更多测量指标，并与富有经验的一线业务人员合作，以形成更全面、更有效的无效链接预防机制。