时间:2024-08-31
李梅 阚峻岭 汪贵生
(1.安徽中医学院,安徽合肥230031;2.铜陵学院,安徽铜陵244000)
一种虚拟社区话题相关性算法的研究
李梅1阚峻岭1汪贵生2
(1.安徽中医学院,安徽合肥230031;2.铜陵学院,安徽铜陵244000)
由于虚拟社区语言不规范,使用传统的语义分析方法计算话题相关性时存在较高的不确定性。文章提出一种新的方法,依据主题的文档结构图计算该主题的话题相关度,试验结果表明本文所提出的方法优于传统的语义分析方法,在一定程度上解决了计算话题相关性时出现的不确定性问题。
虚拟社区;话题相关性;文档结构图
虚拟社区(Virtual Community)研究的先驱Rheingold认为虚拟社区是一种社会的集合体,它源自于网络空间上有足够的人、足够的人类情感以及人际关系在网络上长期发展,因此他将虚拟社区定义为“一群通过互联网相互沟通所形成的群体,他们彼此之间有某种程度的认识、会分享知识与信息、如同对待友人般彼此关怀”[1]。Hagel&Armsrtnog认为虚拟社区的真正意义在于把人们聚集在一起,通过互联网建立起互动的基础,满足人们的兴趣、幻想、人际关系或交易等需求,而虚拟社区吸引人们的地方在于它为人们提供了一个自由交往的生动环境,使人们能够在社区里持续性的互动,并从互动中创造出一种相互信赖和彼此了解的气氛[2]。虚拟社区的形成为人们提供了一种新的交流方式、新的工作方式、新的购物方式甚至一种全新的生活方式,这种新的社会组织形式越来越显著地影响着传统社区中的每一个人。
随着信息和网络技术的发展,伴随Web2.0的广泛应用,世界上虚拟社区的数量正以前所未有的速度增长,社区中的人员和话题的数量都在急剧增加,而社区中的数据又包含着大量与现实社会相关的信息。虚拟社区的快速发展为我们提供了许多值得研究的课题,这些研究涉及信息技术、经济学、管理学、心理学等各个方面。然而我国对虚拟社区研究只是对实践起着基本的推动作用,理论研究无论在深度上还是广度上都相对滞后,因此对虚拟社区进行研究和探索具有很大的现实意义[3]。其中对于虚拟社区中的信息分类是当前研究的热点,本文结合文档向量空间模型的理论,提出一种新的社区话题相关性计算方法,该方法优于传统的语义分析方法,在很大程度上解决了原有方法在计算话题相关性时所存在的不确定性。
文档向量空间模型[4](Vector Space Model,VSM)是一种使用向量表示文档的方法。文档中的词称作特征,文档表示为由特征组成的向量空间中的一个特征矢量,表示成D(t1,W1;t2,W2;…;tN,WN),其中D为文档,tk是第k个特征项,Wk为特征项tk的权重,表示其在文档D中的重要程度。令t1,t2,…tN为一个n维坐标系,W1,W2,…,WN为相应坐标值,则D可以表示为n维空间中的一个向量。提取每类文档的特征向量建立向量空间模型,文本转化为向量形式并经过特征提取以后,便很容易进行分类挖掘了。虽然VSM模型不考虑语义信息并且部分丢失了文本中词和词的相互关联,但它简单易处理,并且对文本处理(主要是分类)可以得到很好的效果,是目前较常用的方法[5]。
两个文档D1和D2之间的相关程度用文本相似度Sim(D1,D2)来度量,当文档表示为向量空间模型时,可以用向量间的夹角余弦值来表示:
在向量空间模型中,常采用TF-IDF算法[6][7]计算特征词的权重,其基本公式为:Wik=tfik/dfk,其中tfik表示项tk在文本Di中的出现频数,dfk表示出现tk的文档数目。
由于在虚拟社区中存在大量简短的对话,这类文本内容用向量空间模型计算其相关性存在较大的不确定性。我们提出的只依据某话题下所有文章的回复结构来计算该话题主题相关性,就可以很好的解决此问题。
2.1.1 文档结构图
在虚拟社区中,一个话题通常包含一篇主题文章与同主题的回复文章,它们通过文章间的回复关系有机联系在一起,构成该话题的文档结构图,如图1所示。
图1 话题的文档结构图
2.1.2 文档子树
在计算话题的主题相关性之前,需要提出文档子树的概念,其构造方法如下:
(1)对于第m层的第i个文档Dmi,构造其所属的文档子树时,首先根据文档的回复关系找出文档Dmi指向位于第0层的主题文档的链路,如图2(a)所示。
(2)将所有直接指向该链路中节点的节点添加进来,构成文档Dmi所属的文档子树。如图2(b)所示。
这样对于如图1的文档结构图,可以构造出若干个如图2所示的形如文档Dmi的文档子树,图中文档Dmi由黑色实心节点表示。
图2 构造文档Dmi的文档子树
2.1.3 文档主题相关度传递因子
根据虚拟社区的实际,我们提出以下假设:文档Di在话题的文档结构图中所属的层次n越大,则该文档Di的内容偏离主题的概率越大。基于该假设,可以认为文档主题相关度传递因子是文档与其直接回复文档之间主题相关的统计概率k(k∈[0,1])。
2.1.4 节点值的传递
我们将文档结构图中的每个文档视为一个节点,并赋予其节点值。当一个话题中只存在主题文档而没有回复文档时,该话题的主题相关度为1,该主题文档的节点值为1。
当文档结构图中存在多个层次时,节点值在层次间以主题相关度传递因子k进行传递。对于第m层的第i个文档Dmi,假设其节点值为ami,如果它被位于第m+1层的n个文档直接回复,那么这n个回复文档的节点值均为(ami/n)*k,即文档Dmi的节点值ami以概率k传递到下一层并被所有直接回复文档均分。
文档结构分析系统的实验流程如图3所示。
图3 系统实验流程图
我们于2008年5月从水木社区WorldSoccer版下载了2000多篇文章,以此作为数据源,使用文档结构分析方法计算其主题相关度,部分实验结果如下:
表1 部分话题的主题相关度
在实验中,通过调整主题相关度传递因子k值发现,当k取值为0.8时,系统得到的主题相关性数值与使用向量模型计算的结果相近。但在处理相同数量数据时,系统效率明显高于使用向量模型方法。
本文以虚拟社区中话题相关性计算方法为主要研究对象,通过对已有话题相关性计算方法的分析和归纳,提出了根据某话题下所有文章的回复结构来计算话题相关性的文档结构分析方法,并利用此方法对虚拟社区话题相关性进行实验和计算,实验结果表明本文提出的方法明显高于传统的向量空间模型法。为进一步深入研究虚拟社区成员的行为模式提供了必要的基础。
[1]Rheingold H.Virtual Communit y:Homesteeding on the Elect ronic Frontier[Z].Reading Mass Addison-Wesley Inc,1993.
[2]Hagel,Johnand Armasrt rong,Arthur G.Net Gain:Expanding Markets Through Virtual Communities[M].Michinsey&Company Inc,1997.
[3]孙颖,毛波.基于数据挖掘技术的虚拟社区成员行为研究[J].计算机应用,2003.1,23(1):50-53.
[4]G Salton,A Wong,C S Yang.A Vector Space Model for Automatic Indexing[C].Communications of the ACM,1975,18(11):603-620.
[5]陶秋香,喻金科,涂继亮.基于向量空间模型的公文分类系统研究与实现[J].南昌航空大学学报,2009.12,23(4):66-70.
[6]C.T.Yu,K.Lam,G.Salton.Term Weighting in Information Retrieval Using the Term Precision Model[J].Journal of the ACM(JACM),Jan.1982,29(1):152-170.
[7]唐果,陈宏刚.基于BBS热点主题发现的文本聚类方法[J].计算机工程,2010.4,36(7):79-81.
A Topic Relevance Algorithm on Virtual Community
Li Mei1,Kan Jun-ling1,Wang Gui-sheng2
(1.Anhui university of Traditional Chinese Medicine,Hefei Anhui 230031,China;2.Tongling University,Tongling Anhui 244000,China)
When the method of semantic analysis is applied to the practice of approaching the topic relevance in the virtual community,a great deal of uncertainties would be brought by the substandard languages.The article presents a current approach to figure out the theme relevance based on the documentary structure diagram.It also separates itself from the traditional semantic analysis method and removes the uncertainties in working out the topic relevance.
virtual community;topic relevance;documentary structure diagram
TP301.6
A
1672-0547(2011)01-0089-02
2010-11-17
李梅(1973-),女,安徽合肥人,安徽中医学院实验师。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!