当前位置:首页 期刊杂志

一种基于PL-LDA模型的主题文本网络构建方法

时间:2024-07-28

张志远,霍纬纲

(1.中国民航大学计算机科学与技术学院,天津300300;2.南京航空航天大学计算机科学与技术学院,南京210016)

一种基于PL-LDA模型的主题文本网络构建方法

张志远1,2,霍纬纲1

(1.中国民航大学计算机科学与技术学院,天津300300;2.南京航空航天大学计算机科学与技术学院,南京210016)

Labeled LDA能挖掘出给定主题下的单词概率分布,但却无法分析主题词之间的关联关系。采用PMI虽可计算两个单词的相互关系,但却和给定主题失去联系。受PMI在窗口中统计词对共现频率的启发,提出了一种PL-LDA(Pointwise Labeled LDA)主题模型,可计算给定主题下词对的联合概率分布,在航空安全报告数据集上的实验表明PL-LDA模型所得结果具有很好的解释性。利用PL-LDA构建了主题文本网络,该网络除能反映主题词分布外,还可展现它们之间的复杂关联关系。

主题模型;文本挖掘;复杂网络;PMI

0 引言

主题建模是文本挖掘中的一项重要研究内容,用于在大量文档构成的集合中发现感兴趣的主题及隶属于这些主题的单词分布情况,主要分为无监督学习和有监督学习两种模型。PLSA[1](Probabilistic Latent Semantic Analysis)是一种无监督学习模型,通过引入潜在主题层,利用极大似然假设拟合单词与主题及文档与主题的概率分布情况。由于PLSA中的参数个数随文档数正比增加,易出现过拟合问题,Blei等[2]提出了LDA(Latent Dirichlet Allocation)模型。LDA也是一种无监督学习模型,利用极大后验概率拟合单词与主题及文档与主题的概率分布情况。由于其假设生成主题的多项分布参数θ符合Dirichlet先验分布,从而消除了由于参数个数随文档数成比例增加导致的过拟合问题。PLSA和LDA均基于一元语言模型,只能发现单个词语的主题概率分布,人们又进一步提出了二元主题模型[3](Bigram Topic Model)及多元主题模型[4-5](N-grams Topic Model),用于发现短语级别的主题概率分布。

以上无监督学习模型中需事先给定隐含主题数目K,对于分析获取的K个主题,需根据单词分布情况人工界定其主题含义,若有明显无关的单词出现在同一主题下,其解释就更加困难。实际使用过程中,人们更关心指定主题下的单词分布情况。如在分析航空安全报告(Aviation Safety Reports)时可能会问:“发生高度偏离时的单词分布情况是怎样的?”[6]。有监督主题模型[7-9]有效利用了文档标签信息,可给出明确主题下的单词分布情况。文献[7]的supervised LDA模型适用于单标签文档,文献[8]的LabeledLDA模型对多标签文档效果更好,文献[9]通过分析标签频次及标签间的相关性提出了FLDA(Frequency-LDA)和DFLDA(Dependency-Frequency-LDA)两种LDA扩展模型,在多标签有偏文档集合上取得了较好的效果。

有监督主题模型可给出明确主题下的单词分布情况,例如在分析航空安全报告的地面冲突主题时单词概率分布可能为:{tug 0.059,park 0.031,pushback 0.031,ramp 0.029…}[6],表明拖车、停泊、推出和廊桥占主要因素。考虑到地面冲突又分为跑道、滑行道及廊桥冲突等多种情况,若能同时给出单词之间的连接关系从而形成一个主题文本网络,且其社区结构可反映主题不同侧面的单词聚集及其间的复杂联系,可为分析人员提供更加直观有效的信息。另外缺乏主题词间的连接关系可能导致理解上的困难,如在分析Equipment Problem主题时出现的单词first就很令人费解,但当它与flying连接在一起时其意义就很明显了。主题模型的可视化有很多研究成果,Chuang[10]等使用表格形的Termite展示单词和主题之间的相关性并用其评估主题模型的质量;Dou[11]等使用树形的Topic Rose Tree展示主题间的层次关系;Smith[12]等使用PMI(Pointwise Mutual Information)对每个主题的前n个单词两两计算相关性,并据此画出主题词间的网络关系图。此方法中PMI相关性计算和主题模型是割裂开来的,计算的是两个词的全局而非特定主题下的相关性。另外由于PMI对噪声和稀疏数据敏感,在小规模文档上的可信度较差[13],不适合本文情况。本文主要关注给定主题下单词之间的相关性计算和主题文本网络构建问题,并提出了一种PL-LDA(Pointwise Labeled LDA)模型。

1 Labeled LDA模型

Labeled LDA[8]是一种有监督学习方法,其模型如图1所示。每一篇文档d由其单词列表w(d)={w1,w2,…,wNd}和标签列表Λ(d)= {l1,l2,…,lK}组成,其中wi∈{1,…,V},lk∈{0,1}。这里Nd是文档d的长度,V是词汇表大小,K是文档集合中不同标签的个数。在生成文档d的多项分布参数θ时LabeledLDA限制其只能从文档标签(即Λ(d)中取值为1的lk)对应的α中选取,除此之外,其余均与标准LDA类似。例如若Λ(d)= {0,1,1,0},则θ(d)服从参数为α(d)= (α2,α3)T的狄利克雷分布(上标T表示转置)。观察到Λ(d)后,标签先验参数Ф和模型的其余部分满足d-seperation条件,因此可以和标准LDA一样使用collapsed Gibbs抽样算法[14]进行训练,文档d中第i个位置单词的主题zi的概率计算公式为

2 PL-LDA模型

Labeled LDA主题模型可得到任意主题下单词的概率分布,即{p(wi|k),i=1,…,V,k=1,…,K}。回忆一下我们的目标是不但要找到某主题下概率值高的单词,还要找到这些单词之间的关联关系。假设两个单词wi和wj在主题k下均具有较大的概率,那么两者之间是否一定有关联关系呢?答案显然是否定的。考虑天气异常时暴雨和暴雪均可能概率较大,而两者同时出现在一起的可能性却很小。PMI是一种衡量单词相关性的有效方法,首先由Church[15]等引入自然语言计算领域,并在词语关联[15-16]和同义词识别[17]等领域取得了非常好的效果。计算公式为

其中,联合概率p(x,y)由x和y在某尺寸窗口中共现频数f(x,y)除以词量总规模N估计。若文档规模不够大,数据太稀疏,PMI的计算就不可靠,如文献[13]中处理的单词总量为2个billon。由于我们处理的文本规模较小,不适合采用PMI作为度量指标。但受启发于其统计两个单词在尺寸固定窗口中共现频数的思想,若两个单词在相同窗口中频繁同时出现,直观上感觉两者之间应存在某种关联,因此本文转而计算两个单词在主题k下的联合概率即p(wi,wj|k)。若p(wi|k)和p(wj|k)均较大且p(wi,wj|k)也较大,说明两个主题词之间存在较强的关联性;若p(wi|k)和p(wj|k)均较大而p(wi,wj|k)较小(考虑上面的暴雨和暴雪的例子),虽然两者的关联性不强,但其反映了主题k的不同侧面;若p(wi|k)和p(wj|k)只有一个较大且p(wi,wj|k)也较大,说明两个单词之间存在较强的关联性,且概率低的单词为概率高的单词提供了额外的解释信息(考虑上面的first和flying的例子)。

图1 Labeled LDA模型图Fig.1 Graphical model of Labeled LDA

图2 Pointwise Labeled LDA模型图Fig.2 Graphical model of PointwiseLabeled LDA

2.1 PL-LDA模型

每篇文档d中所有位置的单词均生成大小为2L的窗口,因此文档大小变为原来的2L倍,记为dL。所有dL构成新的文档集合DL,则PL-LDA的计算过程等同于文档集为DL和词汇表为VL的Labeled LDA,而βk,即为所求的联合概率p(wi,wj|k)。

2.2 窗口大小对数据稀疏的影响

由于窗口的引入,新的词汇表VL可能远大于V,易导致数据稀疏问题。假设文档集合D共包含N个词,词汇表大小为V,则每个单词w的平均出现次数f(w)=N/V。单词w在所有出现位置上均生成大小为2L的窗口,最多生成2L个不同的词对,则VL最大的可能值为f(w)×2L×V= 2NL,即原文档的2L倍,等于新的文档集合DL的大小。若真如此,则数据太稀疏,计算也就失去了意义。为此在数据集上进行了实验,实验数据选取的是2013年22个异常事件主题的航空安全报告(详见3.1),共4 279篇文档,去掉停用词后共包含约52.6万个词,词汇表大小约为1.9万。实验结果如图3所示,当L取1到5时VL大概为V*2L的7.5倍。具体地当L=5时VL约为128万,这一倍数为128/(1.9*2*5) ≈ 6.7。考虑到DL的大小亦为原文档的2L倍,则数据较原始文档稀疏6.7倍,仍在可接受范围之内。

2.3 窗口大小对实验结果的影响

本节主要讨论窗口大小和主题词对及主题词的关系,实验数据仍为4 279篇航空安全报告。

首先窗口大小对主题词对的结果有何影响?对每个主题取前100个概率值较大的词对,计算窗口增大时词对的变化情况,即当窗口为L时,其前100个词对中包含多少窗口为L-1时的结果。实验中取22个类别的平均重复率,实验结果如图4中带方块线所示,可知词对间的重复率在51%到77%之间,且随着窗口的增大,其和前一个窗口的重复率也同时增大。增大窗口导致计算量急剧增加,而对结果的影响又不大,因此认为L取值为5较合理。

图3 航空安全报告中窗口和词汇表大小关系Fig.3 window size and vocabulary size in ASRS reports

图4 词对之间及其和主题词的重复率Fig.4 overlap ratio of wordpairs and topic words

其次主题词对和主题词间的关系是怎样的?对每个主题取前20个概率值较大的单词,计算窗口增大时主题词对和主题词的重复情况。实验结果如图4中带加号线所示,可知词对和主题词间的重复率在64%到70%之间,较为稳定,说明超过一半的主题词之间存在较强关联关系,这也印证了本方法的有效性。

表1 “Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”主题下3种方法结果对比Tab.1 Results comparison of 3 methods under the topic of “Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”

表2 “Aircraft Equipment Problem Critical”主题下3种方法结果对比Tab.2 Results comparison of 3 methods under the topic of “Aircraft Equipment Problem Critical”

2.4 实验结果对比

为进一步检验结果的合理性,表1和表2分别给出了PL-LDA模型当L=5时EventSomke主题和Equipment Problem主题中前10个概率值较大的词对。作为对比,取Labeled LDA的前10个主题词,以及PMI值中前10个相关度大的词对(取Labeled LDA的前20个主题词的两两组合,计算方法同文献[12],PMI窗口大小为10,和PL-LDA的2L相当)。由表1可见,三者均与对应主题基本吻合,PL-LDA所得词对之间亦存在很强的相关性,并且符合主题描述,如SMELL SMOKE,SMOKE FUMES,SMELL BURNING等。值得一提的是,PMI中很多词对的计算结果为负相关,如SMOKE FIRE,SMOKE FUMES等(限于表格大小原因,此处并未列出,实际上从第12个开始全部为负相关),说明PMI在小规模文档集上的计算存在较大偏差。

表2是关于Equipment Problem主题下3种方法的对比结果。其中PMI值全部为负相关,用黑体字予以标识。PL-LDA所得词对与主题切合度较好,如LANDING GEAR,LEFT ENGINE,RIGHT ENGINE等,由此进一步说明PL-LDA较单纯的PMI在小规模文档集上效果更好。

3 主题文本网络

3.1 实验数据

ASRS(Aviation Safety Reporting System,http://asrs.arc.nasa.gov)收集民航从业人员自愿提交的影响航空安全的事件或情况的报告,由领域工程师进行分析,以识别民航运行过程中包括程序、手册、设备等在内的各种缺陷并向相关人员发布告警信息,提高民航运行安全。实验数据选取自ASRS上2013年全年的航空安全报告。抽取了其中的22个异常事件主题(每个主题均超过100篇文档),共得到4 279篇报告,平均每篇报告涉及2种主题。预处理包括去除标点符号、纯数字、长度为1的单词及停用词(使用google-stop-words-collection,包含174个停用词,下载地址:http://code.google.com/p/stop-words/),共得到19 324个不同单词组成的词汇表。

3.2 主题文本网络构建

根据第2节开始部分的讨论,概率大的词反映了主题的不同侧面,而概率大的词对反映了这些词之间的关联关系。首先运行Labeled LDA,得到每个主题的前20个主题词,记为集合A。然后运行PL-LDA(L=5),得到每个主题的前100个主题词对,记为集合B。对于每个主题,取A和B中所有单词的并集作为节点集,词对之间有边连接,无关联关系的主题词表现为一个独立的点。使用cytoscape软件绘制的“Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”主题文本网络如图5所示。其中集合A中的主题词为红色,字体大小和其概率值成正比,词对中的非主题词用较小的浅蓝色字表示,以作区别。文本网络较好地表现了主题词的分布情况及连接关系,另外词对也提供了非常有意义的信息,如strong smell,smell noticed,visiblesmoke,oxygenmasks,fireextinguisher,emergencylanding等。

生成的“Aircraft Equipment Problem Critical”主题文本网络如图6所示。和图5相同,词对提供了非常有意义的信息,如engine shutdown,engine failure,aircraft damage等。和图5不同的是,有两个主题词back和time以及7个词对未连接到最大的网络中,但这些词对仍然提供了较多的分析内容,如hydraulic system,EICAS(发动机指示和机组警告系统:Engine Indication and Crew Alerting System)message等。

图5 “Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”主题文本网络Fig.5 Topic text network of “Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”

图6 “Aircraft Equipment Problem Critical”主题文本网络Fig.6 Topic text network of “Aircraft Equipment Problem Critical”

图7和图8是根据PMI计算结果构建的两个主题的文本网络,其中PMI值大于0的主题词之间有边连接。对比图5和图6可知,此种方法提供的有效信息少,有时主题词间的关联信息甚至全部丢失,不利于工作人员的分析。

对于航空安全异常事件如InflightEvent等大的类别,其下又包含了若干不同的子类如encounter fuel issue,encounter weather turbulence,encounter loss of aircraft control等,不同子类之间描述的信息存在较大的差异。对比了encounter fuel issue和encounter weather turbulence两种主题文本网络,如图9和图10所示。图9中都是一些和燃油紧密相关的词语,且这些主题词间存在较多的关联关系,如TANK(油箱)和GALLONS(加仑),LBS(磅),PUMP(泵)等。图10中都是一些和天气密切相关的词语,且这些单词之间也存在较多有意义的关联,如VFR(Visual Flight Rules可视飞行规则)CONDITIONS,SEVERE TURBULENCE,HEAVY TURBULENCE等。

图7 基于PMI构建的“Flight Deck / Cabin / Aircraft Event Smoke / Fire / Fumes / Odor”主题文本网络Fig.7 Topic text network of“Flight Deck/Cabin/Aircraft Event Smoke/Fire/Fumes/Odor” based on PMI

图8 基于PMI构建的“Aircraft Equipment Problem Critical”主题文本网络Fig.8 Topic text network of “Aircraft Equipment Problem Critical”based on PMI

图9 “Inflight event-encounter fuel issue”主题文本网络Fig.9 Topic text network of “Inflight event-encounter fuel issue”

图10 “Inflight event-encounter weather-turbulence”主题文本网络Fig.10 Topic text network of “Inflight event-encounter weather-turbulence”

4 结论

PL-LDA是一种有监督的主题模型,可计算给定主题下词对的联合概率分布,在航空安全报告上的实验证明该模型具有较好的效果。窗口增大后数据规模的增大导致计算量急剧增加,且易受数据稀疏影响,并且所得结果和增大前存在较多重复,因此需选择合适的窗口大小。基于PL-LDA模型构建的主题文本网络以更直观的方式展示主题词的分布情况和它们之间的复杂联系,主题词对补充和丰富了主题词的解释并提供了额外的有效信息,对领域工程师的分析具有辅助作用。

[1]Hofmann T.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning,2001,42(1):177-196.

[2]Blei D M,Ng A Y,Jordan M I.Latent dirichletallocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[3]Wallach H M.Topic modeling:beyond bag-of-words[C]//Proceedings of the 23rd International Conference on Machine Learning.NY:ACM,2006:977-984.

[4]Wang X,McCallum A,Wei X.Topical n-grams:Phrase and topic discovery,with an application to information retrieval[C]//Proceedings of the seventh IEEE International Conference on Data Mining.NJ:IEEE,2007:697-702.

[5]Noji H,Mochihashi D,Miyao Y.Improvements to the Bayesian topic N-Gram models[C]// Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing.Seattle:ACL,2013:1180-1190.

[6]Zhang D,Zhai C X,Han J,et al.Topic modeling for OLAP on multidimensional text databases:topic cube and its applications[J].Statistical Analysis and Data Mining:the ASA Data Science Journal,2009,2(5/6):378-395.

[7]Blei D M,Mcauliffe J D.Supervised Topic Models[J].Advances in Neural Information Processing Systems,2010,3:327-332.

[8]Ramage D,Hall D,Nallapati R,et al.Labeled LDA:A supervised topic model for credit attribution in multi-labeled corpora[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.Singapore:ACL,2009:248-256.

[9]Li X,Ouyang J,Zhou X.Supervised topic models for multi-label classification[J].Neurocomputing,2015,149:811-819.

[10] Chuang J,Manning C D,Heer J.Termite:Visualization techniques for assessing textual topic models[C]//Proceedings of the International Working Conference on Advanced Visual Interfaces.NY:ACM,2012:74-77.

[11] Dou W,Yu L,Wang X,et al.Hierarchicaltopics:Visually exploring large text collections using topic hierarchies[J].IEEE Transactions on Visualization and Computer Graphics,2013,19(12):2002-2011.

[12] Smith A,Chuang J,Hu Y,et al.Concurrent visualization of relationships between words and topics in topic models[C]// Proceedings of the Workshop on Interactive Language Learning,Visualization,and Interfaces.Baltimore:ACL,2014:79-82.

[13] Han L,Finin T,McNamee P,et al.Improving word similarity by augmenting pmi with estimates of word polysemy[J].IEEE Transactions on Knowledge and Data Engineering,2013,25(6):1307-1322.

[14] Griffiths T L,Steyvers M.Finding scientific topics[J].PNAS,2004,101(suppl 1):5228-5235.

[15] Church K W,Hanks P.Word association norms,mutual information,and lexicography[J].Computational Linguistics,1990,16(1):22-29.

[16] Manning C,Schütze H,Foundations of Statistical NaturalLanguage Processing[M].Cambridge,MA:MIT Press,1999.

[17] Turney P D.Mining the web for synonyms:PMI-IR versus LSA on TOEFL[J].Computer Science,2002,2167:491-502.

(责任编辑 耿金花)

A Topic Text Network Construction Method Based on PL-LDA Model

ZHANG Zhiyuan1,2,HUO Weigang1

(1.School of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China;2.College of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)

Labeled LDA can mine words’ probabilities under a given topic,however,it can’t analyze the association relationships among these topic words.Although the correlation between word pairs can be calculated by utilizing PMI (Pointwise Mutual Information),their relationship to the given topic is lost.Motivated by the operation of counting word pairs in a fixed window used in PMI,this paper proposes a topic model called PL-LDA (Pointwise Labeled LDA),which can compute the joint probabilities between word pairs under a given topic.Experimental results on aviation safety reports show that this model achieves results with good interpretability.Based on the results of PL-LDA,this paper constructs a topic text network,which provides rich and effective information for analyzers including reflecting the distribution of topic words and displaying the complex relationships among them.

topic mode; text mining; complex network; PMI

1672-3813(2017)01-0052-06;

10.13306/j.1672-3813.2017.01.008

2015-05-01;

2016-03-22

国家自然科学基金(61201414,61301245,U1233113)

张志远(1978-),男,河北景县人,硕士,副教授,主要研究方向为文本挖掘,数据仓库,复杂网络。

TP181

A

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!