时间:2024-05-04
摘 要:本文以AI为起点,探索人工智能在图书馆发展的方向,结合AI特点,提出构建数字图书馆面临的几大挑战:图书数据源的生成与获取、数字化图书馆的平台搭建及疏通各地资源共享的问题。尝试探索以读者为中心的数字图书馆的建设方向,分析数字图书馆如何利用AI思维高效服务读者,建立以读者个人画像为基础的的智慧图书系统;同时分析了数字图书馆的建立对人工智能发展的促进作用。
关键词:AI;大数据;个人画像;自然语言理解;知识图谱
一、引言
随着人工智能(Artificial Intelligence,AI)近几年的兴起,越来越多的人都在探索人工智能在各自行业的应用。事实上,当前情况下人工智能的实现只能在大数据量背景下的行业才具有现实意义。因为眼下的人工智能时代是以大数据为基础的时代,没有大数据的行业,智能化的实现还不现实,那么结合图书馆业务,哪些方面具有大数据特征呢?
二、AI与图书馆
很显然,书是图书馆的最重要价值,书越多、越珍贵稀有,图书馆的名气越大,而书中海量的文字资源,就是图书馆的大数据。例如,四川省图书馆藏有书籍500余万册,其中古籍65万册、民国文献22万册,数字资源达150TB;若将整个四川的图书资源汇总,这个数据将是更大的资源。
此外,图书馆服务的人员、每天全川各个图书馆借阅的人员,这之间流动产生的数据也是很大的数据业务,解决图书馆服务业务也是当前面临的难题。例如,四川省图书馆从业人员就达200多人,大多数服务人员都是在做简单机械的重复工作,解放这部分人力资源是改进图书馆服务水平的关键。
人工智能的四个核心学科之一为,知识工程研究如何用机器代替人,即实现知识的表示、获取、推理、决策,包括机器定理证明、专家系统、机器博弈、数据挖掘和知识发现、不确定性推理、领域知识库;还有数字图书馆、维基百科、知识图谱等大型知识工程。
三、构建数字图书馆面临挑战
当前,各行各业都在构建自己的数字资源,数据资源就是工业革命中的石油,有了它就具备丰富的财富资源。而当前图书馆里的图书,就是人类数字财富中最优质“石油”。因此快速抢先占领数字资源,就打下了丰富的财富基础。图书馆应充分利用现有的宝贵文字资源,尽快实现文字资源的数字化。当前环境下,构建数字化图书馆还面临如下挑战。
(一)数字资源的获取与生成
首先是图书馆的藏书如何变换成数字资源,这需要投入大量人力物力去整合,但其投入产出比相当低下,也就是说,做这个事情当前看不出多少实际效益。在当前以经济利益为前提的条件下,吸引力不足,推动力就弱,如何快速有效地将图书资源转化为电子资源是当前面临的问题。关于此,应该以政府推动为主,以引入企业为铺,尽快将图书馆向数字化推进。
(二)图书馆IT平台的搭建
当前IT设备费用相较以前已经大大降低,但涉及到部署高效快速的硬件IT平台,前期投入的金额是巨大的。很多图书馆因为无法彻底进行数字化改造,仅靠年复一年的少量投入,无法满足图书馆数字化平台的建设。因此,对于如何推动图书馆IT化实施,需要相关主导单位拿出统一建设思路,做到资源不重复建设,各图书馆协调发展。
(三)图书馆数字化平台共享问题
图书馆数字化的建立需要疏通各地图书馆,需要政府层面统一规划共享,实现资源的共同建设,共同享用,不是每个图书馆都需要建立一套资源雷同的IT资源平台,只有那些具备各自特性的图书馆才有建立的必要。构建这理想化的全川数字化图书馆资源共享平台,涉及到诸多方面的制约,如县区级图书馆与省级图书馆之间,公共图书馆与专业图书馆之间,服务用户人群的差异,图书服务的收入分配问题等。
四、以读者为中心的智能图书馆的建设指引
(一)当前图书馆服务现状
OCLC 2010年报告显示出新信息环境下用户对图书馆认知和行为的变化,84%的用户使用搜索引擎开始信息检索,沒有人从图书馆网页上开始信息的检索。2014年北大图书馆的书籍借阅总数为62万本,是近10年的最低数量,与2006年的107万本相比,下降了42%。
从调查情况可以看出,当前读者已经对图书馆的运作模式逐渐失去信心,更多的人趋于使用方便快捷的电子阅览方式。
(二)当前图书馆业务发展方向探讨
构建以读者服务为宗旨的图书馆发展新方向成了当前的重要目标,图书馆要从传统的在馆内服务方式,逐渐转向馆内和馆外两手抓,以读者自由选择的方式。
在馆内,需要不断提升服务水平,以读者的角度去考虑,并以如何尽快让读者获取知识,找到相关知识点为目标,加快构建馆内图书索引;同时,建立图书智能机器人,将馆内的图书资源电子化,并能根据读者的需求,迅速搜索出馆藏内相关的书籍信息供读者选择,还可结合馆藏内原有的书籍索引系统,大大节约读者寻找相关资料的时间,减少在馆内停留的时间。此外,充分利用馆内读者信息,构建读者个人信息档案,为提供个性化服务打好基础。每个进馆内的读者,都是带给图书馆巨大的数字资源,有了数据就有了一切,就像现代工业中的石油一样,有了丰富的石油,就为现代工业的发展提供了强劲动力。因此,图书馆建设者一定要转变现有思维,要具有大数据、AI思维能力,充分挖掘在为读者服务过程中的数字资源。
在馆外,开发图书馆APP,让读者方便快捷地浏览馆内资源,同时可以开展付费方式书籍的浏览,充分利用电子资源的便利性,在不影响用户感知的情况下,引入广告资源,降低读者资费。此外,结合个人画像,对用户的个性喜好进行有针对性推送,充分服务读者,留住读者,图书馆的服务对象扩大了,图书馆的业务能力也就得到增加。
今后图书馆的强大,不是馆藏资源有多丰富,不是有多少读者来馆里访问,而是实实在在服务的人员有多少。由于直接访问图书馆的读者毕竟有距离的限制,而APP方式直接拉近读者与图书馆的距离,所以图书馆的业务扩展方向在于对馆外读者资源的争夺,谁获取的用户多,替用户考虑得多,服务质量高,留得住读者,图书馆的实力就越强大。反之,图书馆无特色,服务质量低下,终归走向被淘汰兼并的边缘。
笔者认为,图书馆的发展方向应该结合当前AI思维,结合当前人工智能化服务,建立一个包含有基础数据层、中间技术处理层、上层服务应用层的下一代图书馆人工智能服务系统,在提供图书馆所实现的文献借阅、资源定制、学科咨询、数据共享等基本的文献服务、信息服务、知识服务的同时,以“面向用户为中心”的智慧化服务方向转变,为读者提供基于用户信息行为数据挖掘分析的需求感知与传递、知识生成与发现、服务策略创建与调整、用户反馈与优化等服务产品。
五、图书馆在AI中扮演的重大历史使命
众所周知,世界各地图书馆中都藏有各种形形色色的图书,这些图书是人类几千年历史进程中逐步产生出来的优秀文字资源,他们是人类进化的知识结晶,如何充分利用这些图书资源来服务AI,来推动AI发展,是当前图书馆的一大历史机遇。
我们都知道,AI中的一重大分支就是自然语言的理解,而当前的自然语言处理方法都是基于统计的模型。在图书馆信息化过程中,将手握全球最优质语言的数字化资源。如何充分挖掘人类语言的理解规则,让机器读懂人类语言,是当前AI的重要发展目标。
图书馆在自然语言的处理中有着得天独厚的优势,就是图书馆里的文字都是优秀文化资源,对语言的理解,语言的严谨度都不同于一般的人类口语交流中产生的言语,因此图书馆应在数字化基础上积极探索机器如何理解自然语言,寻找让数学的方法描述语言的规律,让计算机处理自然语言。当前,对自然语言处理这块比较前沿的两个方法是词向量的研究和知识图谱构建。词向量就是根据一个词在一个统计范围的语言内,如在1万篇不同文字内容(这要根据当前机器算法能处理的能力来做),对该词(字)出现的前后关联做一概率算法,来判定前后词之间的出现概率,以便确定前后词,这样的推断就是按照现有的文字资源来推断当前词的伙伴关系,这种方式利用了人们学习语言的思维方式,从产生的语言文字中推断相关语言。另外一种知识图谱,需要挖掘当前语言环境下各种背后逻辑,要构建这个知识图谱,需要分许许多多不同的细化场景,挖掘出这些细小场景后,需关联更大范围的场景,不断扩大知识延伸的范围,构建整个语言的知识图谱,让机器具备逻辑推理的基础,才真正有初步智能化的思维。
因此,图书馆應该加大研发投入,让图书馆的数字资源——这一人类进化的知识结晶不要被埋没。
基金项目:本篇论文是作者主持2018-2020年四川省文化和旅游厅图书情报学与文献学项目(川文旅办发【2019】52号)规划课题“智能时代大数据与图书馆发展研究”课题的成果(项目编号:WHTTSXM[2018]21)。
作者简介:柴琳(1980—),女,四川成都人,研究生,副研究馆员,研究方向:图书馆学、情报学、文献学。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!