时间:2024-07-06
王勋鸿 马建春
(山东大学图书馆,山东 济南 250100)
近年来,基于用户画像技术的应用研究在学术界备受关注。用户画像是1999年由软件开发者、程序设计师Alan Cooper 提出的,他认为,用户画像(Personas)是基于用户真实的行为及动机,代表真实用户并在数据基础上形成综合原型(Com⁃posite Archetype),即“真实用户数据的虚拟代表”[1]。绝大部分学者将用户画像翻译为“User Pro⁃file”,用以表述基于用户数据描述的标签集合。大数据时代下,基于用户属性和行为数据的用户画像,是研究用户、开展对应服务的重要手段之一。
大数据时代的到来,引发了图书馆服务转型及变革的浪潮,用户画像在图书馆领域的应用,为智慧化图书馆的建设,以及实现图书馆向用户提供精准化、精细化和个性化服务创造了条件。图书馆是以读者为中心的服务机构,其对读者用户的研究是图书馆精准服务及创新服务的前提。自2014年,用户画像被引入图情领域后,研究如火如荼。经过七年多的快速发展,该主题研究整体状况如何,研究力量分布如何,研究的细分主题及关注点是什么,都需要进行系统的分析。为数不多的相关综述研究多是基于文献分析法,从概念界定、构成要素、模型与方法等维度进行系统的文献梳理[2-5]。笔者采用文献计量法、词频分析方法进行更为精细的内容分析,并从时间、作者、机构等角度全面呈现用户画像在图情领域的研究现状,以期为今后图书馆精准服务及用户画像研究提供参考和借鉴。
在中国知网数据库中,以“主题”为检索途径,以“用户画像”和“读者画像”为检索词进行文献检索,学科选择“图书情报与数字图书馆”进行文献筛选,检索时间截至2021年8 月25 日,共获得371条中文文献记录。将其导入文献管理工具NoteEx⁃press,进行数据清洗,去掉会议资讯等无关文献,共获得368 条记录,其中期刊论文327 篇,学位论文39篇,会议论文两篇。
笔者利用文献计量方法对获取的数据进行时间分布和研究机构的统计和分析,以此呈现“用户画像”研究主题的研究现状和力量分布。进而在此基础上,通过词频g 指数方法提取高频关键词,利用NoteExpress获得共现矩阵,进行关键词分析,再利用Gephi软件构建聚类图谱,发掘该主题的细分主题分布和研究热点,为后续相应研究提供借鉴和参考。
由数据统计可见,国内图情领域“用户画像”主题研究起步于2014年,江西省省委党校图书馆李业根的《基于大数据的图书馆信息营销策略》一文,首次将用户画像引入到图书馆学研究领域。作者认为大数据环境下构建用户需求行为画像,是进行图书馆信息营销的策略和方法。自此,图书馆界有关用户画像的研究逐年升温,主题为用户画像的期刊论文与学位论文发文量呈逐年递增趋势,研究领域不断拓展,研究成果层出不穷,因此在图情领域,用户画像已然成为研究的热点(见图1)。
图1 用户画像研究论文时间分布
了解一个研究领域或专题的研究力量,作者是重要的考量向度。科学家、科学史学家普赖斯认为,在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量约等于全部作者总数的平方根,这就是著名的普赖斯定律。该定律在文献计量中被用来获取高产作者,高产作者发表论文的下限用公式表示为:N=0.749nmax,其中nmax为最高产作者所发的论文数。
根据本研究样本数据源进行作者词频统计可知,图情领域用户画像专题研究368篇文献共涉及到作者637位,篇均作者1.7。发文大于等于2篇的共有93 人,占发文作者总量的14%。由普莱斯定律可获知发文不低于3篇的高产作者22个(表1),占比仅为3%,由此可见,图情领域用户研究作者比较分散,没有形成研究的密集地带。
表1 用户画像高产作者统计
为了更全面呈现作者之间的关系,在此选取发文量大于等于2 的作者构建作者共现图谱(图2)。图中连线越粗,说明作者之间的联系越紧密,合作关系越强。节点字号越大,说明发文量越多。图中分析可见:一方面,用户画像主题研究,作者之间合作并不多,大多是独立作者,合作关系较强的作者有刘海鸥、张亚明、张海涛、姚苏梅等,同时这些作者也是发文较多的作者,因此可以看出合作是提高产出的重要手段;另一方面,也说明用户画像研究在图情领域是一个新兴的主题,作者之间的研究相关度还不够高,随着该主题研究的不断深入,相信合作将越来越多。
图2 用户画像研究作者共现图谱
研究机构是科研文献的产出机构,对该领域的研究具有重要的导向和引领作用。统计得知,图情领域用户画像主题研究368篇论文分布于210个研究机构(笔者仅统计第一作者机构)。依照普赖斯定律,得出主要研究机构,即发文不低于3 篇的研究机构共有27家(见表2)。
表2 用户画像研究主要发文机构
图情领域用户画像研究机构排在前五的有吉林大学、燕山大学、南京大学、武汉大学、华中师范大学,高等院校是用户画像研究的主要力量,相关研究者应多加关注。
这个角度的考察,一方面可以揭示该主题研究的相关专业期刊,为相关研究提供参考;另一方面,也可以侧面反映出该主题研究的学术水平。根据布拉德福文献分散定律,如果将期刊按照刊载某个学科的论文数量的高低,以渐减顺序排列,可以把期刊分为面向这个学科核心区和包含着与核心区同等数量论文的相关区和外围区。核心区与相继各区的期刊数量成l:a:a2关系,其中期刊数量少但效率高的为核心区,数量较大、效率中等的为相关区,期刊数量最多而效率低的为外围区[6],因此,确定了研究主题论文在期刊中的分散规律,只需要重点关注核心区的期刊,就有可能获取这个领域内的重要论文。
经统计,图情领域327篇用户画像主题相关期刊论文分布在108种期刊,依据布拉德福文献分散定律,选出核心区期刊。计算可知,发文大于10篇的7 种期刊为核心区期刊(见表3),这7 种期刊发文总量111篇,占比约34%,因此,这7种期刊构成图情领域用户画像主题研究的核心期刊群。
表3 用户画像主题研究核心区期刊
通过对上表中核心区期刊分析,清晰可见,图书馆学研究、图书情报工作、情报理论与实践为该主题研究发文较多的期刊,研究者应多关注这些期刊;另一方面,核心区期刊多为图情领域的核心刊,由此说明,用户画像主题研究在图情领域备受关注,还有较大的研究拓展空间。
本研究基于样本数据源,进行关键词的抽取,进而确定高频词,在此基础上,进行词频分析和聚类分析,发掘用户画像研究热点和关注点,为后续相关研究提供参考。
基于词频的统计分析是文献计量的重要方法之一。一般认为,一定时段内某个主题词在某领域文献中反复出现,则认定该词所表征的主题为该领域在相应时段内的研究热点和关注点,所以词频分析是挖掘研究对象主题分布、研究热点的重要方法。因为这些分析和研究均是基于相应研究对象的高频词,所以,高频词阈值的确定即高频词的选择尤为重要,它直接关系到分析结果的客观性,高频词阈值选取不当则可能无法较好地反映研究的热点内容和关注点。
目前,图书情报领域研究人员进行高频词阈值计算方法主要有自定义法、齐普夫高低频词分界公式法、普赖斯公式法、g 指数方法和二八定律等方法。经过实证研究,大多研究者认为在上述方法中,比较科学且取得不错效果的是g指数法。
g 指 数是2006年Egghe 在物理学家Hirsch 提出的h 指数的基础上提出的用以评价论文质量的指数。其定义为:将论文按照被引次数降序排序,被引次数按序号叠加,当累计被引次数等于序号的平方时,该序号值即为g 指数。g 指数的计算过程为:将源项论文按被引次数降序排列,找出g值,使得前g篇论文被引次数的总和大于或等于g2,而前g+1篇论文的被引次数小于(g+1)2[7]。
g 指数在文献计量应用中被后来者不断加以拓展和修正,其中,杨爱青[8]根据g指数的计算方法和原理,提出了词频g 指数的概念,用以进行词频分析。即:某一个研究主题关键词的数量分值为g,当且仅当此研究主题的关键词总量N中,有g个关键词其累计出现频次不少于g2次,而g+1个关键词其累计出现频次少于(g+1)2次。研究者虞求雨[9]又在此基础上完善了词频g 指数计算方法,计算过程如下:将关键词按频次排列,若从第g 个开始相同频次的关键词个数为n个,若g个关键词累计出现的频次大于或等于g2,而(g+n)个关键词累计频次小于(g+n+1)2个,则截至第g+n个在内的之前的关键词即词组集合中的高频词。表达式如下:,其中,n为相同频次关键词个数。
参考此种计算方法,针对本研究的数据,我们从中选出频次大于等于6次的关键词共计26个作为高频关键词,累计词频648次。具体的关键词及计算过程见表4。
表4 高频关键词及g值计算过程
高频关键词一定程度上可以呈现研究主题的研究热点和方向,分析高频词词间关系,则有助于厘清研究主题的学术发展脉络,发现研究细分主题以及各主题之间的关系。针对于本研究筛选出的26 个高频词数据,用NoteExpress 构建高频关键词共现矩阵,部分见表5。
表5 高频关键词共词矩阵(局部)
关键词之间共现次数越多,表明其关联性越强,为了更好地呈现关键词之间的共现和聚类关系。利用可视化工具Gephi 进行可视化处理。首先将关键词共现矩阵加载到Gephi中,进行数据处理,自动生成Gephi 可以识别的节点数据和边数据,节点即为24个高频关键词,边数据为关键词之间的共现关系,研究的关键词,源数据和目标数据之间为无向连结,故类型选择“无向”。Gephi数据处理结果显示为共26 个节点(关键词),151 条边(连接线)。边数据表部分见表6。
表6 Gephi边数据表(部分)
经过软件计算,关键词平均聚类系数为0.585,关键词节点按照关联度进行渲染,选择Fruchter⁃man-Reingold 算法进行布局,得到共现图谱(见图3)。
图3 国内用户画像研究关键词共现网络
图3 中,节点即为高频词,节点间的线段表示连接各节点的无向边。节点标签字体大小代表关键词的频次多少,字体越大代表频次越多,关联度越高。线段的粗细用来呈现两词共现频次多少,边越粗表明两词同时出现在文献中次数越多。图3可以看出高校图书馆、图书馆、智慧图书馆、大数据等关键词与用户画像的连线较粗,这说明图情领域用户画像的研究主要是基于图书馆,尤其是高校图书馆的读者用户研究,这也是用户画像研究的一级主题。
图3 中二级节点主要是知识服务、阅读推广、个性化服务、精准服务、个性化推荐等几个关键词,由此分析可知,基于图书馆的用户画像研究是实现图书馆个性化服务和精准服务的重要前提。图中其他较小的节点,显示图情领域用户画像研究还多涉及到学科服务、数据挖掘、人工智能的技术和相关服务等主题。
高校图书馆是用户画像研究的重要力量,因为高校图书馆的服务对象为教师和学生,用户服务是其基本的职责,图书馆在为用户提供服务的过程中,产生大量的使用数据,包括图书借阅信息、图书预约信息以及用户入馆信息等,这些信息可以帮助管理者对用户的行为进行分析,从而进一步提高图书馆服务质量,创新图书馆的服务模式和服务内容。因此,针对不同群体用户的个性化和精准化服务,既是图书馆的工作内容,也是图书馆业界的研究主题。
为了更好地呈现用户画像研究的主题分布,进行相异矩阵的构建,进行了数据z-score标准化,进而制作聚类树状谱系图(见图4)。
图4 国内用户画像主题研究聚类谱系
分析树状聚类图,我们不难发现,国内图情领域用户画像相关主题研究大体分为4 个类团。第一类团是图书馆,尤其是高校图书馆针对读者精准服务、学科服务和阅读推广等进行的相关研究;第二类团是基于数字图书馆环境,通过数据驱动和挖掘进行的资源个性化推荐;第三类团是针对用户行为、用户需求,通过人工智能、数据挖掘技术进行可视化知识图谱呈现;第四类团是基于用户画像对知识服务、个性化服务等精准服务模式的探讨。
为了更好地呈现用户画像主题演化过程,构建了关键词时区图(见图5)。图中清晰可见,用户画像2014年被首次应用到图情领域,主要作用是用于信息营销。2016年研究主题拓延到移动数据挖掘和用户行为分析。自2017年始,用户画像研究进入高速发展时期,2017年研究主题多关注基于用户实际需求的精准服务。2018年在此基础上,又拓展到基于高校智慧图书馆建设中的相关个性化服务和阅读推广。2019年研究侧重点在数据驱动下服务模式的创新。2020年后,研究方向开始走向分散,不再仅仅关注于图书馆精准服务、个性化服务等创新服务的研究,用户画像算法和知识聚类、智能技术、情感分析、知识付费、流程再造等成为新的关注点。
图5 用户画像研究主题演化
(1)图情领域用户画像的研究已经逐渐成为该领域的研究热点。尽管用户画像概念首次应用于图情领域是在2014年,距今仅近八年时间,但发文量逐年增加,且研究论文质量较高,核心区期刊发文量高达34%,相关研究作者和研究机构数量众多。同时也要看到,高产作者并不多,且作者之间的合作较少。另外,相较其他热门主题,研究热度值还不高。
(2)研究主题较为集中单一,但技术性较强。从研究细分主题和关注点来看,用户画像研究多是基于图书馆个性化服务和精准服务的工具和实践进行的研究,内容多针对图书馆阅读推广、学科服务、资源布局和推介等基本服务,研究对象较为集中。但细分主题和关注点涉及到大数据、数据挖掘、数据聚类、智能技术、虚拟知识社区等相关概念和技术。因此,技术性较强。
(1)由上文分析可见,一方面,当前用户画像在国内图情领域的研究主题较为单一,主要基于图书馆读者服务过程及用户行为过程中产生的数据构建读者画像,目的是提高读者服务和资源利用的精准化和个性化。另一方面,图书馆用户画像的研究多是应用和实践研究,研究者多是图书馆工作人员,而对用户画像构建方法和多维度本体研究较少且不够深入,尽管细分主题多元,但应用主体单一。究其原因,这与图情领域学界和业界,在大数据时代智慧图书馆的建设中服务方式和内容的变革有直接关系。用户画像的构建和本体研究涉及到数据挖掘、智能技术等细分主题,离不开计算机、数据建模等技术应用,因此,图书馆和计算机学科交叉融合,图书馆工作人员和计算机技术人员进行合作,是拓展该主题研究广度和深度,提高科研产出,进而提升学术影响力的有效举措。
(2)目前,用户画像的构建在图情领域并没有统一的框架,相关研究多是针对具体图书馆的服务架构进行的相关研究,研究成果很难推广普及。未来,在图情领域尤其是图书馆业界,构建用户画像统一框架,实现用户数据融合和共享,建设全面细致的用户画像,是大数据时代实现图书馆联合和服务精准化的重要手段,也是用户画像纵深研究的突破口。
(3)当前,用户画像基本上是基于离线数据构建的,是一种静态画像,无论是基于其自然属性的基本数据,还是基于一段时间用户行为特性和偏好的应用数据,只能显示出用户一个时段内的特征,而实际生活中用户的行为数据随时可能发生改变,变化后的兴趣无法及时通过之前构建的用户画像显现出来,造成画像在使用时产生偏差。图情领域用户画像研究构建及使用也是如此。因此,针对图书馆用户实时画像的构建显得尤为重要,这是用户画像未来研究和使用可以拓展的空间。
最后,需要说明的是,笔者是基于图情领域用户画像研究成果的高频关键词文本分析,实际上,仅仅基于高频关键词很难准确地呈现研究的角度和核心关注点。尽管高频词在文本分析中,尤其是热点分析中有着重要的作用,但是也要看到,因高频词取词范围的问题、作者自拟关键词规范性问题,单纯用高频词挖掘研究热点,多是呈现的一级研究主题,尤其是对某一相对较小的专题,高频词分析很难较好地呈现其内在的细分主题或新兴主题,对此,次高频次、中频次,甚至低频次或可有更为重要的价值。因此,上述图情领域用户画像的主题分析方法和结果仅供相关研究者参考。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!