当前位置:首页 期刊杂志

基于数据挖掘下的高校图书馆信息资源管理研究

时间:2024-04-25

赵玉莲

(山东师范大学图书馆,山东 济南 250339)

高校作为我国培养高素质人才的重要阵地,高校图书馆需为学校师生提供科研、教学所需信息资料,具有十分重要的作用,能够结合其他学科力量,构成学科交叉优势,以提升信息资源在管理、组织、拓展服务及服务质量等方面的提升。而在信息化时代下,产生信息渠道越来越多,个人利用信息要求不再满足于获取原件与检索文件,还要求深入分析信息内容,寻找数据隐藏价值。因此,应当采取数据挖掘技术,以提高图书馆信息管理水平与效率,满足高校师生科研及教学需求。

1 数据挖掘技术概述

数据挖掘技术是从众多不完整、随机模糊、有噪声的数据中提取潜在有意义的知识与信息的过程,数据挖掘可采取数学方法或非数学方法,可以使归纳总结法,也可以是逐步演技发,挖掘数据结构有利于优化数据库、信息管理、过程控制及信息决策,维护数据[1]。数据挖掘涉及学科较为广泛,包含人工智能、数据库、数学统计、并行计算等,应用范围也随理论发展逐渐延拓,在信息资源管理中实现广泛应用。

高校图书馆在逐步推广个性化服务理念下,对于信息资源分类已经成为工作重点,利用数据挖掘技术对读者进行归纳总结,寻找读者特征信息以实现对应分类,即可分析学生学历、年龄与专业,掌握用户特点,提供针对性信息资源服务,还能借此分配购置文献费用与存储空间。

2 高校图书馆信息资源管理中数据挖掘流程

1)确定挖掘目标。在数据挖掘前应当明确数据挖掘目标,如,图书馆向了解全校师生对于文献类型需求,则应当将图书馆文献分为多个类型,以此在大数据中挖掘所需信息,使得数据挖掘具有针对性,更好地为图书馆信息管理提供服务。

2)用户信息准备。可利用图书馆系统确认师生基本信息。在师生应用图书馆中,利用RFID技术在系统内部反映出个人信息,一方面在参阅文献及图书中,获取师生详细记录,包含证件号、专业、借阅登记、院系、性别、年龄、类型等。另一方面则为读者借阅历史记录,此为图书信息资源管理的重要数据信息,以此为统计数据对象,可整合图书条码号、索书号、读者编号、借阅时间、书名、归还时间等信息[2]。对上述信息进行详细分类统计、整理分析,便于图书馆预测和分析文献利用率,且借阅历史信息还包含文献书目记录与流通日志,同样为数据挖掘目标。

3)数据挖掘关键技术。(1)数据清理。该环节是指剔除数据中的异常数据,提高数据挖掘结果准确性。处理图书数据与读者数据中,存在有噪声、不一致、不完整数据,需要对数据加以清理,其包含使用数据光滑技术及缺失值处理,对于“续借”“性别”等缺失值替换unknown,“年龄”缺失值替换ageave;记录中字段为空则使用手工编写SQL脚本少出,部分图书分类号为中文字符,在挖掘程序中应当做好处理工作,此类坏数据需及时丢弃。(2)数据整合。当获取完整信息后,即可利用大数据挖掘技术深入挖掘数据,此过程中需使用面向属性归纳算法分类数据,获得数据属性集合[3]。如,在高校图书馆信息资源管理中,产生数据可分为文献图书数据集合、记录数据集合、用户数据集合、借阅检索图书集合等,以此减少数据维度即挖掘难度。此过程中,在数据库中导入分散数据,以此构建读者借阅记录。(3)数据归约算法。在运行数据仓库一段时间后,其中数据量迅速增加,不采取归约算法直接挖掘,则会初夏以下问题,一是表的每个字段均占据较大空间,提高了内存占用率,延长了内存导入时间;二是大部分单项为汉字字符串,候选序列生产时间与空间开销均会增加,为节省空间与实践效率,需压缩每个事务记录为6个字符串,且每个字符均为单个小写字符,当系统读取属性配置后,按照顺序赋予属性值唯一字母。如程序读到“本科”,则会将“a”赋值本科,读到“研究生”,则将“b”赋值“研究生”,通过以此类推的方式,读取所有属性值,即可构建字母字符到属性值的映射表,压缩读者数据库为文件,将预处理文件减少,提高效率[4]。如,未压缩数据库前127M,数据压缩后大小11.6M,有效节省内存资源。

3 高校图书馆信息资源管理中数据挖掘技术应用

1)优化资源建设。高校图书馆每年购置文献费用有限,需结合高校科研、教学等情况分配各学科的文献购置费用,以此实现费用均衡支出,将购置文献效益充分发挥出来。原本图书馆在采集信息中通常是由少数专家与采访人员商议决定,不可避免存在信息不全面情况,造成信息资源缺失及经费浪费,存储文献空间也有限。并且,馆藏分布,包含多媒体文献与传统文献摆放、服务器上文献索引组织等,以此提高资源利用效率。

通过挖掘图书馆图书流通、借阅、检索请求等数据,根据类别统计文献频繁借阅集与拒借集,可为信息资源补充与丰富决策提供支持,借此分析文献利用率,将过时文献剔除,或是减少收集与采访部分文献。分析用户借阅文献关联,以发现文献比例关系及关联规则,对图书馆馆藏布局及信息建设进行优化。

2)拓展智能信息服务。为确保用户短时间即可获取信息,需收集用户专题浏览集合,对每位用户浏览记录构建事务库,再进行事务库操作,具体如下:一是通过关联规则寻找访问频率高于阈值项目及,利用分类算法将频繁项目及与用户浏览模式实现相似匹配,组织浏览模式相似用户到同一服务器,减少服务器页面传输数量及服务器缓存。二是对于事务库内访问频率超过阈值的专题及,通过关联分析获得专题关联规则,将其存储至服务器知识库,用户进行网页浏览,即可根据规则对关联页预先连接,提高响应速度。

智能信息检索支持联想检索、模糊检索、概念检索及多语言检索,还能借助聚类算法聚类分析查询结果,保证呈现内容条理化,便于用户筛选。

3)实现自动化信息处理。图书馆信息资源管理中,文本数据较多,可通过文本挖掘技术自动摘要分类文本数据文档。其中,文本自动摘要应用统计算法,挑出与主题联系密切的原文语句,自动生成文本摘要,该数据挖掘对于电子期刊、电子图书等文献信息应用价值较高。而文档自动分类则是结合文档文本数据特征挖掘文档类别,归入恰当主题范围供人查询。文本挖掘技术在海量数据信息下弥补了时间有限、人力不足的问题,为高校图书馆信息资源服务提供了保障。

4 总结

综上所述,在高校图书馆信息资源管理中,应用数据挖掘技术能够优化和丰富信息资源,提高信息服务质量,拓展信息服务范围,进而为高校科研及教学提供范围广、质量高的信息服务。因此,高校图书馆应当在此过程中,通过数据清理、数据整合及数据归约算法的方式,优化图书馆信息资源建设,拓展智能信息服务,实现自动化信息处理。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!