基于SNA的高校书籍借阅数据分析研究

时间：2024-05-04

杨斌

（浙江经济职业技术学院，浙江杭州 310018）

0 引言

当今高校面临数字化改革的需求，高校图书馆也面临着从传统服务向个性化、信息化服务转型的问题。图书馆对自身数据进行有效分析，通过量化指标指导各类服务调整，是现今高校图书馆转型的必由之路，使用社会网络分析法（Social Network Analysis，SNA）分析书籍借阅数据，不仅可以获得大量量化的测度指标，也可以绘制可视化的社群图，具体以浙江院图书馆数据为例，讨论多向需求书籍、潜在需求书籍、打包套餐类书籍等书籍推荐工作的启示，为高校图书馆数字化改革提供了一种方案。

1 背景

在互联网+背景下，师生获取知识的途径越来越多元化，高校图书馆也必须从传统的知识提供者，开馆坐等师生上门转变为知识的引领者，走出图书馆为师生提供专业的、全方位的书籍、文献推荐，为高校专业打造专业书籍群落，精准定位每一本书籍的作用。

随着大数据技术的发展，信息时代转向了数据时代，数据将是最重要的生产资料之一。高校图书馆拥有丰富的图书数据及借阅数据，同时这些数据是借阅者依据自身需求，切实产生的行为数据，可以真实反映每一本藏书的价值。对书籍借阅数据进行统计分析，计算测度指标，乃至将分析结果可视化呈现，有助于图书馆优化馆藏书籍结构，为师生精准推荐书籍，发掘师生的潜在兴趣。同时对高校师生各类数据进行统计分析，也是高校数字化改革的一个重要组成部分。

当今国内外较为成熟的推荐算法是协同过滤算法[1-2]，此算法已经在电子商务上有了成熟的运用，如淘宝、京东等，但是协同过滤算法有冷启动、矩阵稀疏性等问题，针对这些问题有很多学者从图书标签信息和用户背景信息两方面为突破点对协同过滤算法进行了补充和改进[3-4]，一般是在系统初始化时依据用户背景信息推荐相关专业书籍，但是高校图书馆图书推荐与传统的电子商务商品推荐有着明显不同的环境特征，一是借阅者和书籍的专业倾向较为明显，数据在同专业书籍中相对集中，而跨专业书籍中相对稀疏；二是在推荐借阅者同类型书籍的同时更需要为借阅者挖掘新的兴趣点[3]。

在图书馆数据分析中引入其他分析法将是一种必然趋势，而社会网络分析法也早已广泛的运用到了各行各业中，包括图书情报学中[5]，其主要运用方向分为两个：一是通过文献的引用、作者、课题等信息对文献进行社群分析，得到文献的社群图，研究文献之间的关联及分布关系；二是在图书系统中附加了社交评论模块，然后对社交模块数据进行分析[7-8]。本文尝试单纯从书籍借阅数据入手，对书籍社群进行分析。社会网络分析法能被广泛关注且运用，主要有两个显著的优点：可视化及定量的测度指标，这两个特点都是协同过滤算法所不具备的，也同时是被广大学者重视所在。可视化可以让书籍的借阅者、图书馆的管理者更直观形象的了解图书馆的书籍借阅信息，并从全局出发得到启示；定量的测度指标可以为图书馆工作的科学化、高效化提供数据支撑，做到有依据可追溯。

2 基于社会网络分析法的高校书籍借阅数据分析

运用社会网络分析法对高校图书馆书籍借阅数据进行统计分析，以同书号书籍为单个实体对象，辅以书籍、借阅者背景数据进行数据过滤，计算各种书籍量化测度指标，绘制书籍社群图，最后形成基于社会网络分析法的高校图书馆书籍数据分析报告，为书籍推荐、入库、剔旧等图书工作提供量化的数据支撑。

2.1 整体分析流程

运用社会网络分析法对高校图书馆书籍借阅数据进行分析，整体流程如图1所示，主要分为四步：①从图书管理借阅系统中导出借阅数据，并进行清洗；②依据书籍、借阅者的背景数据将借阅书籍进行简单归类，形成不同的书籍社群，得到邻接矩阵；③运用社会网络分析法，计算测度指标；④绘制书籍社群图，撰写分析报告。

图1 基于SNA高校书籍借阅数据分析概念图

2.2 数据清洗

图书借阅是图书馆核心服务之一，其产生的数据同样是图书馆的核心数据，能从侧面反映一个高校的学习氛围乃至办学质量。图书管理借阅系统中存储的借阅数据仍然有较大的冗余，不能直接用于分析，需要经过清洗转换为可用数据。

本文对于原始的借阅数据清洗遵从以下四条原则：

①以书号为书籍实体单位判别的界限，同书号不同版次的书籍数据归总为一个实体的数据，不同书号即使同名、同版次的书籍数据也区分统计；

②不同书籍实体间的书本数量存在差距，其必然对借阅数据产生影响，在此研究中此影响不作考虑，以待后期研究补充；

③同借阅者同书籍的反复借阅行为，其数据进行归总合并，单纯认为是借阅者与书籍实体间存在属性关联，此属性不做强度处理；

④剔除与被研究无关数据标签，只保留借阅者信息、书籍信息、借阅信息三部分。

明确数据清洗原则后，将数据从图书管理借阅系统中导出、清洗、整理并以书籍类型归类，选取相应类型书籍形成所需分析的底层数据。

2.3 以书籍为实体对象的邻接矩阵

使用社会网络分析法分析书籍借阅数据的首要任务是：明确分析的实体对象以及量化实体对象之间的联系，从而形成书籍借阅数据邻接矩阵，作为社会网络分析法的数据基础。本研究以书籍为实体对象，以借阅数据中书籍的一个重要属性——“借阅者”为其联系，以拥有相同借阅者的数量量化两个实体对象书籍的联系强度，如书籍a拥有41次借阅数据，书籍b拥有32 次借阅数据，其中两者拥有17 位相同的借阅者，那么认为a 与b 之间为17 的联系强度。将书籍类型确立之后，依照此方法可以得到该书籍群落中所有书籍相互间的联系强度，形成社会网络分析法分析的数据基础——邻接矩阵。

2.4 测度指标

以上述邻接矩阵为基础，可计算书籍的出入度、密度、整体中心度、中心势、凝聚子群等量化的测度指标。

出入度为书籍实体对象所有联系强度之和，出入度越大，代表此数据的局部影响力越大，与周边书籍实体对象拥有越多的相同借阅人数。而将联系强度指标进行升高，剔除弱连接，比如两本书籍间连接强度平均在20，那么10以下的我们认为是弱连接剔除，而过滤后的每本书籍出入度又发生了变化。过滤前出入度最大的书籍是较为热门，影响面较广的书籍，过滤后出入度最大的书籍是此类型书籍中地位较高，具有较高长期保存价值的书籍。

密度较高代表该类型书籍整体性越高，特别是剔除弱连接过滤后，密度仍然较高，那么意味着借阅者对该类型的书籍整体需求度较高，需要依据书籍内容做进一步分析，确定是书籍内容相似度高还是关联度高，我们认为同一类型书籍的关联度较高是馆藏书籍的合理结构。如果密度较低，则代表书籍内容相近性较低或该类型书籍对相关专业关联度较低，无法形成较高的整体性价值。

整体中心度代表书籍实体对象在该类型书籍中的位置，计算公式为：

即书籍实体对象到达其他所有书籍实体对象的距离和，整体中心度越高代表此书籍实体对象在该类型书籍中的位置越偏远，即该书从借阅者的角度来说较为独立。而整体中心度较低代表该书籍实体对象在该类型书籍中处于核心位置，即使借阅量不高，也可以重点推荐。

凝聚子群即对数据进行聚类分析，常用的是“k-核”的概念，及连接强度在k时，该类型数据分成了哪几个子群体，可以精准定位借阅者需求的重叠性或者称为延续性，同一凝聚子群中的书籍实体对象明显有较高的相互推荐性，但是如果处在不同凝聚子群，并且该书籍实体对象整体中心度和出入度又较高则认为能够开拓学生的潜在兴趣点，同样具有推荐价值。

这些指标不止在书籍推荐中具有参考意义，在图书剔旧工作、书籍上架排列工作、甚至是书籍采购工作中同样具有指导意义。

3 对高校图书馆书籍推荐工作的启示

以浙江经济职业技术学院图书馆2020 年9 月至2021年6月的书籍借阅数据为例，具体阐述基于社会网络分析法的高校书籍借阅数据分析，对于指导高校图书馆书籍推荐工作的四点启示。

首先依据上述分析流程获取数据，清洗后，本文选取了考试参考类书籍作为书籍社群，得到该书籍社群的数据邻接矩阵。具体如图2所示。

图2 考试考证参考书籍数据邻接矩阵

图3 书籍社群图

获取数据邻接矩阵后，可以根据各个公式计算各项测度指标，包括节点出入度、节点中心度、社群密度、社群中心势等等，同时可以绘制出可视化的社群图直观的展现社群结构及关系。

3.1 基于节点度数的多向需求书籍推荐

在传统图书馆书籍借阅数据分析中，大多以单本书籍借阅量衡量书籍的重要性，通常将借阅量大的书籍作为推荐书籍，方便读者查阅。而通过社会网络分析法分析借阅数据，可以进一步得到专向需求书籍和多向需求书籍的分类。

如《报关员资格全国统一考试教材》一书，共借阅19 次，通过社会网络分析法分析，发现其仅和其他3本考试类用书产生借阅联系，即大部分的读者都单独的借阅了这一本考试类书籍，这是一本面向一些特定读者的用书，具有针对性较强，需求量大且专向的特点。因此可以推断出大量读者是定向借阅该书，而不是在书架的浏览过程中借阅该书。

如《大学英语四级综合特训》一书，共借阅21次，同样通过社会网络分析法分析，发现其拥有18的出入度度数，即代表与该书产生过共同借阅者的书籍有18本，证明大量读者借阅此书时会同时或前后借阅其他考试书籍，通过查验借阅数据得到与其有借阅联系的18 本书籍中有12 本英语类考试用书，可以判断它是一本考试用途中可替代书籍或者是知识点互补书籍，需求量大且多向，较高的借阅量也证明了此书本身的价值。因此可以推断出在推荐英语类考试用书时，此书会引起更多的关注。

同理通过社会网络分析法分析在理论上还可以得到一类书籍，借阅量不高但与其他书籍有较密集的借阅联系，但此次数据分析中并未出现该类型书籍。

3.2 基于节点中心度的读者潜在需求书籍推荐

通过社会网络分析法分析借阅数据，可以得到读者更多的潜在需求书籍。

如《大学英语四级综合特训》一书，通过书籍整理得到该书两年内总计借出21次，借阅次数本身较高，同时其拥有最高的绝对中心度18，即与该书拥有相同借阅者的书籍有18本，意味着未来有借阅者在借阅这18本书籍中的任意一本时也有较大的可能会借阅《大学英语综合特训》一书。进一步分析该书距离长度为2 的网络，可以得到一些潜在同需求的书籍，如《外贸单证操作实例》一书，虽然没有读者同时借阅《外贸单证操作实例》和《大学英语四级综合特训》，但其通过《四级听力强化训练》和《初级会计》两本书籍作为中间书籍形成两条长度为2的路径，此数据分析表明多位读者分别借阅了其他书籍与这两本书籍之一，因此可以推断此两本书籍间也有同需求潜质，可以在读者借阅《外贸单证操作实例》时同时推荐《大学英语综合特训》，做到有效挖掘读者的潜在阅读需求。

同时通过整体中心度计算，得到书籍在整个社群中的位置，本文发现其中最大的凝聚子群为7本计算机类用书组成，证明计算机考试用书在借阅者中拥有更多的共同需求。可以考虑做一期计算机类考试用书的推荐集合，使读者更好的了解图书馆该类书籍的馆藏情况及各自特点。

3.3 基于聚类分析的套餐书籍推荐

图书馆一般都有推荐书籍书架，现多数按照时事信息将最受关注的书籍放置在显眼位置，剩余则按照作者、书本类型进行摆放供读者选阅。通过社会网络分析法中的聚类分析，可以到书籍间的凝聚子群，得到以读者借阅需求组合的书籍套餐，将同一个凝聚子群的书籍摆放在附近，更方便读者快速查阅。

发现计算机类考试书籍与英语类考试书籍组成了一个凝聚子群，说明有一定量的读者同时需求或者潜在需求这9本书籍，可将其摆放在一个区域做一期推荐。

3.4 基于可视化社群图的书籍推荐

依据中心度高低绘制出书籍借阅社群图，可以直观清晰的看到各书籍实体对象间的联系，如图5所示为考试类用书的借阅社群图，中心度较高的书籍呈现在社群图的中间区域，代表它们拥有更多的同类读者需求或者同类读者的潜在需求。

同时读者可以清晰地从自己借阅的书籍为起点，找到与之有联系的书籍及距离为2为3的书籍。并且读者通过自己的借阅行为，可以实时地改变社群图，做到借阅更有趣味性。

4 结束语

高校图书借阅系统中的借阅数据由读者依据自身需求所产生，可以正确反映书籍被需求的情况，被哪些类型借阅者需求、需求强度、需求时期等，是图书馆最重要的无形资产之一。灵活应用书籍借阅数据，进行统计分析，可视化呈现，是高校图书馆数字化改革的突破口之一。

基于社会网络分析法对高校图书馆书籍借阅数据进行分析，可以从另一个的角度重新认识馆藏书籍，认识馆藏书籍在读者需求中的关系结构，这不仅对书籍推荐服务的开展提供了可量化的、可追溯的工作依据，也为馆藏图书的管理工作提供了数据参考。同时大数据时代下，为数字图书馆的个性化服务提供了一种可能，也为未来人工智能在高校图书馆中的运用提供数据基础。