时间:2024-08-31
包启明,裴志利,姜明洋,熊 露
(1.内蒙古民族大学 计算机科学与技术学院,内蒙古 通辽 028043;2.内蒙古民族大学 数理学院,内蒙古 通辽 028043)
蒙医药是蒙古族人民世代与自然界、疾病作斗争的经验积累及总结,是蒙古族文化的精粹,也是中华民族医药的重要组成部分。新中国成立后,由于党和国家对蒙医药的重视,使之成为“四大民族医药”之一,是人类历史上的瑰宝,得到传承及利用[1]。与其他民族医药研究相比[2],蒙医药研究存在一定的共性问题,也有着自身发展特色,挖掘蒙医药的研究热点,对其发展具有很好的借鉴作用。
目前,在文本主题挖掘方面,使用最多的主题模型均是以隐含狄利克雷分布(Latent Dirichlet Alloca⁃tion,LDA)[3]模型为基础扩展的聚类方法。随着深度学习方法的推广和普及,此类方法在不同领域长文本主题挖掘任务中得到了认可[4]。与长文本数据相比,短文本数据具有文档长度短、整体词汇量大的特点,这导致了文档级别上稀疏的单词共现模式。因此,基于单词共现信息的经典长文本主题模型LDA通常难以从短文本集合中提取语义一致的主题。面对蒙医药短文本数据,在LI等[5]提出波利亚罐子混合狄利克雷聚类模型(General Pólya Urn Model Dirichlet Multinomial Mixture Model,GPU-DMM)的基础上,构建了一种基于背景主题的Background DMM(B-DMM)聚类模型。
主题模型聚类算法根据建模方法大概可以分为3类,分别是概率生成主题模型、基于矩阵分解的主题模型和基于神经网络的深度生成模型,其中,最常见的是概率生成主题模型。由于在建模的过程中需要生成建模概率图模型以及生成过程,所以,这类模型的可解释性较强,主题模型的发展也以此类模型为主。此外,基于矩阵分解的((SVD[6],Singular Value Decomposition),(NMF[7],Non-negative Matrix Factor⁃ization)等方法)的主题模型在早期也曾受到广泛的关注,该类模型的建模方式相对简单直观,方便对模型加入约束,求解过程上使用一些较成熟的数值求解方法使模型可以更快地收敛,但是该类模型可解释性不强,比较难构造复杂的模型,所以在深度神经网络得以发展后,该类模型并没有得到更进一步关注。随着深度神经网络的流行,近年来也出现了许多基于神经网络的深度生成主题模型(比如基于(VAE[8],Variational Auto-Encoder)和(GAN[9],Generative Adversarial Network)的主题模型)。该类主题模型的可解释性同样不及概率主题模型,导致建模灵活性的折扣。
国内已有研究者运用主题模型在医学领域进行主题热点分析研究,孙静等[10]以医学期刊文献作为数据,提出一种运用词共现方法,从中获取到热点主题并对其进行可视化分析。该方法中以词共现作为可视化分析指标,指数过于简单,导致主题词和主题对文档的贡献度考虑不足。陈斯斯等[11]从PubMed数据库中爬取8个生物医学领域研究主题,作为医学文献主题新颖性探测的数据,并对比分析。
短文本与长文本相比,两个单词共同出现在一篇文章中的概率更低,单词的共现性更为稀疏,导致了普通的主题模型并不能很好地应用到短文本数据中。现有的缓解数据稀疏性问题的方法大概可以分为2类,一种是利用外部知识,比如利用知识库,或者在大规模数据上进行词嵌入技术[12],来作为单词共现性不够时的额外补充。另一种方法则是放松对生成过程的假设,比如每篇短文档只包含一个主题,文档中的所有词都是由该主题产生。再比如Biterm Topic Model(BTM)模型[13]强制假设相邻两个单词是由同一个主题产生。对于蒙医药短文本数据,基于矩阵的方法以及神经网络方法很难对其灵活建模,所以文中提出了一种新的基于概率模型的短文本主题模型。
GPU-DMM 是在DMM[14](Dirichlet Multinomial Mixture Model)模型的基础上进行改进扩展的。在给定一篇短文本后,GPU-DMM根据模型推导得到的条件概率采样出一个主题赋给该文档。如果当前单词是其主题下的高概率单词,则GPU-DMM 模型会借助GPU[15](General Pólya Urn)的策略增强单词的语义相似词在该主题下的概率。GPU-DMM 模型与DMM拥有着相同的生成过程和贝叶斯网络图表示,此模型最主要的改进是在模型求解的过程中加入了GPU 模型的促进策略。因此,在GPU-DMM 模型的推导中,借鉴了DMM模型,同样采用吉布斯采样来对模型进行求解,在采样的过程中,使用词向量作为一种外部知识通过GPU模型同步调整语义相似的单词在同一主题下的出现概率,为本文的新算法提供了思路。
2.1 模型生成过程 在GPU-DMM模型的基础上,文中提出的B-DMM模型利用外部知识以及优化生成过程来克服蒙医药短文本数据中存在的单词的稀疏性问题。在GPU-DMM模型中,作者使用大规模外部数据上训练的词向量作为一种外部知识,但是并未考虑到训练数据自己的特性。笔者对此进行了改进,首先,使用wiki等大型通用文本数据训练词向量,在此基础上,利用训练短文本数据进行微调,使词向量同时编码大规模外部文本数据以及训练数据语义特性。对于生成过程,笔者参考DMM模型的假设:即对于每篇短文档由于其文档长度较短,假设只存在一个主题,文档中所有单词都是由该主题产生的,该假设对于短文档来说有一定的合理性,但是文档中可能会有部分单词与文章主题的语义相关性并不是很大,如果简单地假设该部分单词均为文章对应主题产生的,会导致主题的语义一致性受损。所以B-DMM参考TwitterLDA模型对GPU-DMM模型的这一假设进行了改进,即有一个背景主题负责生成与文档主题语义相关性较弱的单词。对于每篇短文档只对应一个有意义的主题,文档中的每个单词要么是这个有意义的主题产生的,要么是从一个背景主题产生的,其中,背景主题负责产生与语义主题无关的背景单词。在求解的过程中,先利用词向量来获取单词之间的相关性,使用了GPU模型在增强语义相关的单词在同一主题下的一致性。即在采样每个单词在每个主题下出现频率的时候,在更改该单词在主题下出现的统计量的同时,同步更改其语义相关单词在主题下的统计量,其余部分与传统的LDA主题模型基本类似,均是计算每个隐变量的后验分布。
概率模型见图1。每篇短文档只关联一个主题变量z,主题分布是从参数为θ的多项分布中产生的,而该分布先验分布为参数为α的狄利克雷分布。对于文档中的每个单词ω,都会存在一个二元变量y与之关联,若y=1,则说明该单词是由一个全局背景主题产生的,若y=0,则说明该单词是由一个普通语义主题产生的。二元变量y服从参数为ψ的Bernoulli分布,其先验分布为参数为γ的Beta分布。ϕk以及ϕB表示主题k或者全局背景主题B对应的“主题-单词”多项分布,其中,ϕk或者ϕB服从由参数为β的Dirichlet分布。
图1 B-DMM主题模型图形表示Fig.1 Graphical representation of the B-DMM theme model
2.2 参数求解过程 获取单词语义相关单词集合:对于每个单词ω,可以按照如下的方法获取语义相关的单词集合S(ω)。
V表示词表集合,cos(ω,ω0)表示单词的ω以及单词ω0对应词向量的cosine相似度,PMI(ω,ω0)表示单词ω以及单词ω0的点互信息,其计算公式为:
其中,p(ω)表示单词ω出现文档频率。
使用Gibbs Sampling对模型进行迭代求解。
该模型使用Gibbs Sampling 对隐变量z以及y进行采样,在采样过程收敛后,使用极大后验估计(MAP)进行模型参数估计。参考GPU-DMM的采样过程,当单词ω在主题t下的统计量增加1时,与其语义相关单词在主题t下的统计量增加cos(ω,ω0)。
主题隐变量采样公式:
单词背景词指示变量:
其中,随机变量以及隐变量的含义:dz表示文档d的主题,z-d表示除了文档d之外其他文档的主题变量,ωd表示文档d的所有单词,yd表示文档d中每个单词的背景词指示变量,nk,-d表示除了文档d中的单词主题k对应的单词数量,ndω表示单词ω在文档d中出现的次数,y-d,i表示文档d中第i个单词的背景主题指示变量。
3.1 蒙医药文本数据 在中国知网CNKI《中国学术期刊网络出版总库》的文献中检索关键词“蒙医药”“蒙医”“蒙药”,一共爬取了1 300篇文献。经过删减重复文献以及各种日报,最终得到859篇中文期刊论文的摘要作为文本数据。在对数据作处理时,采用Python中的jieba库对蒙医药文本进行分词,并结合百度停用词去除语气助词、副词、介词、连接词等。随后,在构建含有474个有关蒙医药词汇的自定义词典基础上,对蒙医药文献摘要进行分词和生成词向量表示,并作为B-DMM的原始文本输入。
3.2 实验设置 为了验证新算法在蒙医药文本中提取到更高质量的主题,使用了4个在短文本主题模型领域中比较常用的模型作为对比模型,分别是LDA、DMM、GPU-DMM 以及BTM。下面将简要介绍每个短文本主题模型及相应的参数设置:
(1)LDA:该模型假设每篇短文本都是从一个长的伪文档产生的,多篇短文档可以隶属于同一篇长的伪文档,隐式的增加单词在伪文档级别的单词共现性。(2)BTM:该模型用潜在主题结构对双术语的生成进行建模,而不是用潜在主题结构对文档的生成进行建模。(3)DMM:该模型是假设每个文档由单个主题构成,当文档的主题确定之后,文档内部的词语生成是相互独立与所在位置无关。(4)GPU-DMM:该模型是通过引入词嵌入方法,利用广义波利亚罐模型来提高同一个主题下单词的语义关系。
在实验中各主题模型“文档-主题”分布的超参α均设置为50/K,“主题-单词”分布的超参β均设置为0.01,最大的迭代次数Maxlteration设为1 500。
3.3 主题一致性评价 为了验证新模型的有效性,利用文献[16]中提到的Umass 主题一致性方法作为对比任务的评价标准。该方法的基本原理是文档并发计数,训练数据集中提取单词之间的相关信息,来计算主题的语义一致性。对于主题t,该方法的语义一致性可以量化为如下形式:
其中,M指的是主题t下概率值最大的前M个单词,单词ω出现的文档频数用D(ω)表示,单词ωi与ωj共同出现的文档频数用G(ωi,ωj)表示。Umass方法在计算过程中不需要人工干预和大型外部文本的补充,计算速度相对较快。Umass值越大,语义一致性越高,反之越低。在对比实验中,设定蒙医药文本主题个数的取值范围为{40,60,80},来测试不同语义粒度下模型的鲁棒性。具体结果见表1。
表1 主题一致性的比较Tab.1 Comparison of theme consistency
主题模型的主题一致性结果如表1所示,从结果可以看出文中提出的B-DMM算法在K=40、60、80的情况下,在蒙医药文本数据上均优于其他传统的主题模型,一定程度上验证了其有效性。这表明所提出的背景主题模型B-DMM具有较高的语义一致性。
3.4 蒙医药文本主题词可视化 对B-DMM主题模型提取出来的主题词根据其所占有的贡献度探讨热点主题,为了可以更直观地显示出来,采用词云图的形式进行展示,见图2。对每个主题进行分析,运用余弦相似度计算每一个主题之间的语义距离,并将经过B-DMM主题模型和主题词嵌入表示的相邻时间段的主题进行主题演化对比分析。经过对凸显的关键词分析,得到豆蔻、麝香、沉香、苦参、悬钩子、芒硝、丁香等属于蒙医药研究的药材。高效液相色谱法(HPLC)、含量测定、化学成分、质量标准薄层扫描法等属于蒙医药研究的实验方法。
图2 蒙医药文本热点主题可视化Fig.2 Visualization of hot topics in Mongolian medicine texts
基于知网爬取到的859篇蒙医药文本数据,引入外部知识和背景主题,结合GPU-DMM模型,完成了对蒙医药文本的主题挖掘。一方面,通过实验结果的比较,验证了B-DMM 主题模型算法在蒙医药学这一领域文本上的有效性和可行性,拓展了概率主题模型的应用范围。另一方面,通过对蒙医药文本的主题知识挖掘,不仅为其他类似领域短文本的知识挖掘提供了方法上的借鉴,而且为针对蒙医药知识挖掘的探究奠定了坚实的基础。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!