国内数字图书馆信息可视化应用进展∗

时间：2024-05-04

孙雨生李万蓉郝丽静

（湖北工业大学经济与管理学院武汉 430068）

1 引言

伴随Internet发展、社会信息化进程加快，数字信息资源呈现海量、分布、异构特点，与用户有限认知能力矛盾凸显，致使信息过载、知识迷航问题加剧，影响知识传播与创新及信息资源利用效率。作为重要信息基础设施，旨在提升用户使用体验、信息服务（开放共享，以用户为中心、计算机化管理与服务［1］）满意度、信息资源利用效率的数字图书馆面临同样问题，亟需新型信息技术辅助用户高效获取、处理（分类、理解）、传输信息资源并展示资源间联系及隐含规律以更好满足用户需求、提升信息资源利用率；数字图书馆信息可视化凭借其信息表现多维性、交互性、可视性［1～3］、数据兼容性［1］特点为该问题解决提供了新途径：通过人机交互、可视化展示信息检索结果，实现用户与用户、信息间图形图像级通信［2］，在降低用户认知负荷［4～6］同时辅助其高效发现并利用隐藏信息［6］；赋予数字图书馆信息资源形象和智能，降低信息检索成本并提升精确度，提高信息处理速度及利用效率［2］。因此，研究数字图书馆信息可视化问题有重要意义。

本文首先以知网、万方的学位论文库、期刊论文库及维普的期刊论文库为信息源，以“图书馆”和“可视化”为关键词组合在题名中检索相关文献（截止2017年8月26日，从知网获期刊论文163篇（3篇重复）、硕博论文6篇，从万方获期刊论文180篇（20篇重复，新发现15篇）、硕博论文8篇（新发现2篇），从维普获期刊论文163篇（新发现2篇），合计185篇，人工剔除主题无关文献后共88篇有效，阅读后发现72篇涉及数字图书馆信息可视化应用与系统）；然后详读72篇文献并归纳国内数字图书馆信息可视化实践应用、系统实现进展并根据提及频次、内容质量详细标注，本着最大限度反映国内数字图书馆信息可视化实践应用与系统实现进展重要文献、优中选优（剔除标注次数少、与其他标注文献内容重复文献）原则选出31篇参考文献（内容覆盖72篇文献）；最后从实践应用、系统实现两方面阐述国内数字图书馆信息可视化研究进展。

2 数字图书馆信息可视化实践应用与系统实现研究进展

2.1 实践应用

数字图书馆信息可视化为用户提供信息空间认知工具［7～10］和途径，降低信息检索成本，提高知识服务水平［6，10］，优化更新数字图书馆数据库并强化信息直接应用［7～10］，涉及信息浏览［6～7］（信息描述与导航［8～9］、人机交互［4，7，9］）、数据挖掘［8～9］、信息检索［8～10］及信息资源［9，10］（馆藏资源及分布，基于数字资源地图［7～10］、虚拟现实、增强现实［10］）可视化。此外，王亚凤［11］指出国内图书馆GIS应用处理论研究阶段且多介绍国外经验。

2.1.1 信息浏览可视化

孙倩［6，10］、张棋［7］、韩全惜［8］、陈俊凤［9］、黄田青［12］、张美［13］认为信息浏览可视化基于人机交互界面（用户检索信息时与系统交流通道［7，13］，多基于以二维图形为主图形用户界面（可直接拖放、旋转屏幕对象［12］）和多媒体用户界面［9，10，12，14］，发展趋势为基于虚拟现实技术实现以提升用户主动参与度［7］）实现信息描述［8～9］（以聚类方式可视化信息分类［9～10］、构建并以图形揭示其主题）［10］和导航［8～9］（提供辅助用户浏览、反映信息全局的导航路线［8］），通过可视化语义关系实现用户、资源概览交互选择，形成高效浏览工具（感知用户信息需求）［6］；人机交互界面可视化体现为人机交互［9，12～14］（在客户端以菜单（输入检索条件（属性信息）进行精确、模糊、复合条件检索，服务器与属性数据库交互及多层过滤得到结果并在浏览器上基于GIS图显示［15］）、GIS地图（分层显示图书馆空间结构［14，16～17］以便浏览任意图层并通过GIS热联结功能浏览（全图、缩放）馆藏照片（显示馆藏分布、部门布局、导航路径）以实现资源要素空间可视化［16～17］，服务器按用户所选 GIS图上目标从属性数据库动态获取信息并生成检索结果［15］）形式实现可视化浏览功能［12，14～15］）和视觉设计［9，12，14］（用多种界面表现形式［9～10，12］（如颗粒图（以按字顺排列的颗粒及其空间位置分别表示文献及其关系）、主题地图（归纳文献内容并可视化关联度）、鱼眼图（按需放大画面局部区域）［12］、拓扑图、热力图、时间轴［10］）比喻、模拟系统所需完成操作或命令［12］，通过视图交互、变换重组信息结果图形，并通过操作可视化控制来改变变换过程中参数，实现信息检索和交互［12～13］，按设计原则（融合图形、语言［4，9，13］并利用主题、颜色、位置、形状放大交互界面区域以提升其美感度［12］、简单易用性、智能性、启发性，吸引用户注意力并支持其操作［4，7，9，12～13］）优化界面，提高用户认知度及体验［12～13］）［9，14］。

2.1.2 数据挖掘可视化

又称知识发现可视化，涉及显性和隐性知识［5］。徐刚［18］认为其用信息可视化技术从网络、数据库数据（大量、不完全、有噪声、模糊、随机）中提取并直观呈现隐含、未知有潜在价值信息、知识（利用Web结构挖掘（针对文本、图像、音频、视频）来挖掘并可视化Web潜在链接结构模式）；程翔［1］、徐刚［18］、周静怡［19］提出结合信息可视化技术与科学计量方法［18～19］（文献同引、共词［1，18～20］等）构建多维科学映射［19］地图［18～19］或知识图谱［1］，表达知识域（学科、专业、文献、作者）间联系，可视化揭示学科域知识结构关系及演化历程、前沿动态；张洪敏［15］、杜慧敏［21］提出基于GIS进行馆藏空间模拟分析（开发应用分析模型（预测、比较、优化）深度挖掘信息以预测和模拟发展趋势、调整资源布局，辅助规划和决策［15～17，21］）；赵文宇［20］用报表和可视化编程实现用户知识发现可视化以分析其兴趣、活跃度，用动态报表实现文献知识发现可视化以分析其关联、热度。

2.1.3 信息检索可视化

张棋［7］、陈俊凤［9］、张美［13］认为信息检索可视化旨在可视化检索式［5，7］（基于可视化技术（可视化检索历史并用节点及连线可视化检索词间关系）和检索词语义方便用户准确表达检索需求［5，7］）［7］并在可视化空间以图形图像显示信息资源、检索模型（布尔模型、向量空间模型［7］（简化文本为向量并以空间相似度表达语义相似度））、用户提问、检索过程及结果中隐含语义关系［7，9，13，14］，辅助用户深入理解信息资源含义及相互关系［4，5，9，13］，把握检索方向［9，13］并动态调整检索策略［4，22］以提升检索效率［4，9，13，22］。

1）理论研究

张棋［7］认为信息检索可视化常先基于用户交互选取检索模型进行检索，再构建可视化接口可视化检索结果（依次确定可视化对象、构建可视化空间、确定相似度算法、数据可视化编码）；王曼茹［4］、陈俊凤［9］、孙倩［10］、张美［13］、徐刚［18］、钱力［23］、闫实［24］认为包括检索过程和结果可视化。

检索过程可视化方面，窦淑庆［25］认为包括操作方法可视化（用可视化图标［5，23，25］通过点击按钮、选择菜单项提交请求）、操作过程可视化（可视化执行、跟踪检索步骤）；程翔［1］、王曼茹［4］、陈俊凤［9］、徐刚［18］、周静怡［19］、闫实［24］以文献及相互间关系（含标引词间关系）为抽象信息空间［13］，通过为其增加经Shneiderman信息可视化分类法分析后的检索路径［4，18～19，24］将理想检索路径插入隐性马尔可夫模型（用可观察参数确定隐含参数）［1，18～19］，基于寻址网络、多维尺度分析［4，9，18～19，24］、Kohonen 特征映射（SOM）［24］技术多角度多层次了解用户检索需求、文献间语义关系，可视化引导、显示检索过程（包括提供反馈信息、追溯检索过程、控制检索策略、支持人机交互［4］）［4，9，22］，方便用户动态比较、合成检索路径［1，18～19］、准确表达检索主题，降低检索记忆负荷［4～5］、提高检索效率［4，7，9，13］。

检索结果可视化方面，王曼茹［4］、王正［22］提出图形显示检索结果，揭示结果文献间、检索词与结果文献间关系及特定文献的相关文献，辅助用户基于颜色、位置等特征信息高效检索、全面了解检索主题、发现所需信息；周宁［2］、张棋［7］认为主要可视化数据库和网络检索结果：数据库检索结果可视化涉及本地、远程Web数据库［2］，分目录型文献数据库（为原检索系统添加可视化接口［7］）、全文型文献数据库（基于图符库、词库、索引库［2，7］和可视化接口可视化描述与组织［2］单文献、文献集［25］）、数值型数据库（基于统计分析可视化）、音频数据库（基于文本转换可视化）、视频数据库（基于关键词、关键帧描述可视化）；网络检索结果（多为网站、网址或文字介绍）可视化通过以链接关系为基础的浏览界面将基于分类浏览检索（代表是加拿大Antarctic System的Visual Net（基于网站主题地图显示用户所浏览信息（点击图上类目进行检索）及检索文档所需大小、日期和类型等元数据），多人工采集标引，检准率高）和基于关键词全文检索（搜索引擎收集、组织信息且结果量大，检准率低）的结果可视化为层状（常基于Hyperbolic Tree技术显示Web站点结构）、网状（常用Google Browser可视化显示基于Google数据库、以某站点为中心的站点关联图（点击该站点图标可查看其基本信息在Google中目录分类）并支持人机交互（双击特定站点将自动以其为中心重构关联图））结构［7］。程翔［1］提出数字图书馆资源发现系统（如超星发现、智立方）融合多检索平台实现异构检索，通过对知识对象做唯一标识、深入挖掘、粒度分析构建各类文献及知识对象间关联以可视化检索结果。张美［13］、钱力［23］、窦淑庆［25］指出通过设计接口可视化检索结果（用基于分类文档簇法［25］）及其关系（用基于超链接法、基于语义内容法［25］）并用分面统计、共著、聚类、共引、关联分析法深度挖掘结果集，可视化其隐藏规律和语义关系。

此外，赵丽华［3，5］、黄田青［12］提出可视化 OPAC系统全面集成书目信息（涉及馆藏基本信息（作者、题名、出版社、出版年份、单价［5］、ISBN、索书号）、图书封面、目录、作者简介、馆藏位置［5］等），整合图书馆业务流程、用户检索行为［12］，用可视化技术直观反映检索全程并揭示书目内在联系、隐藏信息及知识体系、语义关系，为用户提供友好人机交互环境（将用户信息检索、浏览过程变为学习认知过程）以激发其检索兴趣［12］并辅助决策、提升馆藏资源检索效率及利用率；田蔚然［14］提出现有书目可视化检索系统支持空间与属性数据双向检索［15～17，21，26］、检索条件设定及共享、多媒体展示、人机交互（移动、缩放、动态检索）；姜婷婷［27］提出下一代OPAC提供排序算法优化、界面定制、分面导航工具，支持用户简单、高级、Aleph命令等形式检索、分类浏览及基于二次检索、分面导航的检索式优化以检索书目、在线访问个人服务（预约、续借）。

2）实际应用

张龙［28］基于集成管理系统Horizon设计可视化虚拟图书馆（采用B/S架构集成于导读与检索系统，分全馆、楼层、书库、书架、图书五层三维视图）以便用户检索：基于客户端Java Applet（受安全性限制无法访问本地资源，所需数据源自数据库）进行可视化操作，系统按MARC格式、通过CGI（ISAPI）与ODBC从Sybase中检索用户所需图书信息（常预处理图书数据并存入新表以提高处理速度）并返给客户端；杜娟［29］结合图书馆可视化需求，基于GIS、XSLT及Web三维显示技术设计基于图书属性与空间信息关联的图书馆可视化检索系统，实现基于空间信息的图书检索［29］（以空间图形为背景，通过逐级、区域、条件、路径检索方法［16～17］以文本或漫游（自动、交互式）方式［15，17，21，26］进行属性信息（书名、部门类别、图书馆基本信息、馆藏信息［29］）和空间信息（馆藏位置、空间关系、相关定位［29］）双向检索［15～17，21，26］）、基于 GIS 可视化显示［29］（通过电子地图［16，29］、文字显示及语言服务［29］分层以可任意开窗、移动、缩放、按比例输出［15，21］的图形三维显示图书馆综合地理或专题信息［15，21，29］）功能；钱力［23］构建灵活、易拓展、易维护、高效准确馆藏资源可视化检索系统（提供图形化场景，基于信息可视化技术（ActionScript3.0和Flex）分面检索（从资源主题、来源数据库、时间分布、作者合著关系角度））；周群［30］基于图书集成管理系统SULMIS、数据发布系统TPI（用数据库分别存储书目图像、源自SULMIS流通书目总库的书目信息并用MARC记录号关联两者）构建可视化OPAC系统：以Web形式可视化检索结果（即书目图像，点击其可查看书目详情）；此外，黄田青［12］提出美国Binghamton大学图书馆成功将可视化搜索引擎Grokker（格鲁克公司开发）用于OPAC。

2.1.4 信息资源可视化

王曼茹［4］、张美［13］、王正［22］指出以图形界面方式可视化信息资源分布以便用户快速理解全局信息并确定信息检索切入点、提高资源利用率。

1）理论研究

周宁［2］、张棋［7］、陈俊凤［9］、田蔚然［14］提出信息资源可视化对象主要为文本、音频和视频，主要可视化资源的内容、结构及位置信息［9］且需高效压缩可视化信息描述以提升可视化效率并降低存储成本［2，7］；张美［13］提出通过图标、聚类、降维技术，采用集合概览（总体显示集合或多层分类）、快速导航（结合导航和交互模式或不规则观察）、上下文条目解释（可视化标记检索结果以聚焦）形式可视化信息资源内容；窦淑庆［25］提出构建虚拟图书馆以基于直观示意图可视化图书馆空间结构，方便用户了解各书库位置及库存。

2）实际应用

杜慧敏［16，21］、黄初镇［17］设计基于 GIS数字图书馆可视化信息资源管理系统，基于GIS可视化数据提供、空间关系分析功能［26］实现基于空间数据的图书馆资源管理［17］（基于GIS、图形处理软件构建可视化虚拟馆藏空间［16～17］以分层联系数据［21］、提供空间参照［16］，支持图书馆空间信息关联、更新、查询［16，17］，基于空间信息管理并可视化属性信息［21］）、统计（用GIS叠加、复合、邻近［15，21］、空间联结［21］等工具统计图书馆建筑规模、部门设置、设备情况、馆藏量［15，21，26］、馆藏借阅量［26］并依统计数据表［16～17］、应用［26］制作专题图形［16～17］）和基本分析（基于空间数据模型［15～16］分析图书馆内部空间以辅助用户、馆员了解馆藏［15］，基于馆藏空间实体特征可视化空间关系并结合属性信息分析以揭示读者所关注知识节点间关系（相关、相邻）［16～17］）；王亚凤［11］指出陈轩泽等构建基于PCA、ArcGIS的在线阅览室管理系统（支持数据录入、编辑处理、检索分析、制图输出和二次开发）；赵文宇［20］用基于几何可视化技术（用平行坐标法可视化维度、属性信息为坐标轴式报表（横轴为维度（时间、学科、出版社、书商）且以浏览器导航形式显示，纵轴为属性信息，涉及种数、册数及两者比例、人均种数及册数比例））可视化基于藏书成分及水平的图书馆馆藏整体结构（涉及馆藏学科、等级（按馆藏目的、功能要求、读者水平划分）、时间、文献类型等），用基于图标可视化技术动态可视化用户感兴趣文献主题词及热度，用动态报表可视化馆藏利用情况（柱状图显示馆藏借出数、总种（册）数或用户预约、借阅册数，曲线图显示馆藏流通率、利用率、用户满足率）、馆藏覆盖率（主要分析对同类院校、出版社覆盖率（柱状图显示书目种数（包括本馆、同类院校、两者交叉、某出版社出版及本馆馆藏该出版社），曲线图显示覆盖率（本馆对同类院校或特定出版社）、交叉率（与同类院校或特定出版社））。此外，孙倩［10］提出世界数字图书馆提供探索（分类浏览）、时间轴、互动式地图、专题四种可视化方式（时间轴和地图概念贯穿各维资源信息显示）支持用户按需浏览资源；张美［13］提出英国哈德斯菲尔德大学数字图书馆系统可视化图书馆空间结构（显示每层平面图并用箭头标出用户所检索图书所处楼层、阅览室、书架、分类号、位置等）；赵丽华［3，5］提出用可视化技术挖掘、加工、重构信息资源并以合适方式展示［5］给特殊（聋哑）用户以便其无障碍使用图书馆信息资源。

2.2 系统实现

2.2.1 资源门户可视化系统

寇继虹［31］提出以色列 Exlibris的 Metalib/SFX学术资源门户系统提供图书馆服务内嵌、导航与发现、跨库检索、电子资源管理与建设、无缝链接、个性化服务功能，支持认证用户从内嵌图书馆电子资源管理组件SFX的统一界面检索异构远程资源库并合并、去重、排序、聚类以关联相关资源，支持Refwork、Endnote等管理并以统一格式展示特征检索结果（作者、日期、期刊）、提供开放链接（可获取其内容（全文链接、目录）和服务（咨询、文献传递、馆际互借）），支持基于商业视觉内容管理软件工具The Brain更合理组织资源（解决线性组织导致的资源间多重非线性关系（跨层级、类别）无法体现、单页面上资源堆积且部分类目重复等问题）。

2.2.2 资源检索可视化系统

赵丽华［3］、黄田青［12］、周群［30］提出综合性检索可视化系统有荷兰Medialab Solutions推出、TLC代理的AquaBrowser Library（树形图（用空间定位、节点邻近度及布局、节点与连线分别表示书目间关系、主题词相关度、主题词层次）可视化OPAC系统，界面遵循Shneiderman倡导的可视化信息检索规范（浏览-缩放-过滤并按需选择细节）［12］；支持用户交互式、可视化构建检索式，树状示意图展示检索结果并基于其优化检索式，特点为可视化分面检索展示、结果按相关性排序输出、基于检索结果提示优化检索式）［3］、加拿大 Kingston Frontenac Public Library构建的可视化Google maps OPAC mashup书目导航系统［30］。

王曼茹［4］、陈俊凤［9］提出典型检索过程可视化系统为基于检索链实现模式的AQUA（European Community支持开发，后台数据为NCSTRL与ETRDL图书馆提供、动态增加的多研究机构的技术报告［4］，用于遵守Dienst文献检索协议的数字图书馆（文献有独特永久标识符［4］）），提供基于多面板描述检索过程和结果的可视化界面（左侧（输入检索词并显示检索结果）、右侧（进一步限定检索范围）共同形成表示连续检索过程、可存储重用［4］的完整检索链；右上角按钮［4］供用户修改、增加（进一步限定范围）、删除（使检索可逆）面板以优化检索策略，下方控制台跟踪检索过程、执行控制信息（错误报告）［4］）。

徐刚［18］、周静怡［19］、闫实［24］提出典型检索结果可视化系统为Scatter/Gather（先通过活动目录辅助用户全面掌握文献，再用基于分类的文档簇法聚集文献（先将共词最多文献归为同簇并按其语义内容命名，再按网状、层次结构排列文献簇（集）以揭示簇间逻辑关系）、分解为小量且连贯文献簇并概述表达，方便用户从中选定多个文档簇二次聚集、分解，多轮迭代形成最终文档簇）和 TileBars［4，7，18～20，22，24］（用Texttiling算法将文献按页、章、段分为主题块［4，7，18，22］，按用户所输关键词自动检索并用长方条（长度反映文献长度并分为多个小矩形（对应文本单元块，长度、颜色深浅表示段落长度、关键词出现频率）［4，7，19，24］）表示检索结果（深入文献内部且针对Scatter/Gather结果中相关度最大簇［4，18～19］）且依次按检索词组命中总页数、检索词被命中总数、基于共现频率的相似检索横向排序［18～19］，用户点击对应位置［4，19］选择性浏览文献［4，7，19～20，22，24］，通过检索词位置、共现情况发现隐藏信息）；周宁［2］提出基于Web-Logic用Java开发的Visweb系统针对Web页面及其链接，通过抽取页面重要属性（URL、摘要、超链），利用形状、颜色、线条可视化描述页面（可动态调整可视化形式）并显示天网、百度、搜狐搜索引擎命中结果及有链接关系页面。

2.2.3 资源分布可视化系统

王曼茹［4］、张棋［7］、张美［13］提出美国 Belmont Abbey学院图书管理系统用Visual Net将馆藏投影到基于等级结构的可视化主题地图（按美国国会图书馆分类法、以图书形式（名称为相应类目，大小表示馆藏量）序化排列于虚拟书架）并通过放大显示用户所点图书所属类目及从属关系、馆藏量（以释义图标表示：分别用中心圆颜色、圆环厚度、箭头表示文献类型、篇幅及新旧、语种）方便用户了解馆藏分布并浏览、检索。