当前位置:首页 期刊杂志

中文在线评论中的商品特征聚类研究

时间:2024-05-04

秦成磊 魏 晓

(上海应用技术大学计算机科学与信息工程学院 上海 201418)



中文在线评论中的商品特征聚类研究

秦成磊魏晓*

(上海应用技术大学计算机科学与信息工程学院上海 201418)

摘要针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类算法。算法包括 “分配”和“转移”两个过程。“分配”过程对特征词进行聚类得到初始簇序列;“转移”过程依次遍历初始簇序列将簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。实验结果表明该算法聚类质量高、时间复杂度小且对数据输入次序不敏感。

关键词商品特征聚类特征聚类语义相似度评论挖掘

0引言

Godes David等[1]早在2004年针对服装、计算机、旅游等行业的研究发现,有近半数以上的网购消费者在做出购买决定前参考了该商品的评论信息。Cone公司在发布的《2011年网络影响趋势跟踪》中也得到类似结论:89%的消费者认为通过网络渠道获得的商品信息是值得信赖的,64%的消费者主要根据商品的相关评论来验证该商品的质量[2]。事实上,很多消费者无论是网上购物还是实体店购物都会事先在相关网站上查看该商品的评价信息以便作出有利的决策。因此,如何在海量的评论中挖掘出有价值的信息是目前研究的热点之一。

商品特征聚类在获取消费者对商品性能的关注度、辅助商家提升商品质量等方面具有重要作用。目前的研究主要包括从评论中抽取商品特征、提取观点词、判断情感极性等。而近几年网购用户数量骤增[3],一件商品的评论数也大大增加,不同的用户所关注商品特征的视角往往不同,对同一商品特征的描述也不尽相同。这给基于特征词、观点词判断用户情感极性带来较大的困难,致使挖掘结果不够直观。因此,有必要对商品特征进行聚类。

本文首先从评论中提取商品特征,其次计算特征词之间的语义相似度,最后根据本文提出的聚类算法将同类特征进行聚类。实验结果表明,该算法具有聚类质量高等优点。

1相关工作

商品特征聚类的关键技术之一是从评论语料中提取商品特征。现有的文本特征选择方法如TF-IDF、信息增益、X2统计量、互信息等[4,5]对主题较为鲜明的文本具有较好的抽取效果。但用户的商品评论通常只含一个句子,较为简短。因此,上述方法在商品特征抽取中效果并不理想。

商品特征抽取分为人工定义和自动提取:

姚天昉等[6]人工定义了汽车领域的商品特征,准确度较高。网络的快速发展,使得人工定义商品特征的缺陷逐渐显现出来:首先没有考虑用户对商品特征的描述,其次商品更新时需要手工添加新的特征。

商品特征自动提取最具代表性方法的是MinQing Hu等[7]提出的利用词性标注提取评论中的名词或名词性短语并生成事务集,根据Apriori算法[8]提取特征候选集,最后利用邻近规则和独立支持度规则过滤商品特征。李实等[9]在Hu的方法上做了一些改进,使其适合中文商品特征自动提取。

在商品特征聚类方面,Zhongwu Zhai等[10]认为对同一特征描述的词语或词组应该放在一类中,提出一种半监督SC-EM商品特征聚类算法,但随着数据规模扩大,对自动化程度的要求逐渐提高,该算法适用性有待提高。张珠等[11]以语素和评价词作为衡量商品属性之间关联程度的特征,采用K-Means方法进行商品属性归类,但K-Means聚类方法存在固有的缺陷,如聚类质量易受数据输入次序、离群点等影响。李爱清等[12]通过构建商品特征粒度树对商品特征进行归类,但对商品新特征的识别分类存在着一定的不足。

2商品特征聚类

2.1提取商品特征

要对商品特征进行聚类首先要从用户评论中提取商品特征。文中所述的商品特征主要包括商品属性名称、功能性名称。为方便处理,将抓取的评论存放到文件中,每一行代表一条评论。商品特征提取步骤如下:

(1) 为了提高评论分词的效果首先要构建停用词表和用户词库并对用户词库中的词条进行词性标注;

(2) 利用中科院分词动态连接库对评论进行分词,剔除评论中的人名、地名、团体机构名和其他专用名称,只保留名词性惯用语和名词性语素并生成事务集;

(3) 使用Apriori算法从事务集中提取频繁1项集、频繁2项集、频繁3项集[7]。为了提高获取商品特征的准确率,频繁项集的最小支持频度分别为为5、3、2;

(4) 通过上述步骤得到的商品特征词尚不能自动识别商品特征词组,如“配件包装”,“配件”和“包装”单独作为商品特征会造成歧义,因此需要通过邻近规则[7]识别商品特征词组。为了提高特征词组识别的准确率,本文在文献[9]的基础之上做了改进。首先将频繁1项集中的特征加入商品特征列表List中。频繁2项集中商品特征词(a,b)在评论集S(S1,S2,…,Sn)任意Si中的坐标为Xa,Xb,要求|Xa-Xb|≤2且包含特征词(a,b)的评论条数K≥2,则认为(a,b)是一个特征词组并加入List中。对频繁3项集中特征词(a,b,c)考虑三种情况:|Xa-Xb|≤2、|Xa-Xc|≤2、|Xb-Xc|≤2,符合任意一种,则认为其对应的组合是商品特征词组并加入List中。

(5) 商品特征列表List中存在着一定数量的非商品特征的名词,如“理由”、“心愿”等。因此还要用独立规则[9]除去这些词。特征词a在频繁2项集、频繁3项集中的父项分别表示为(a,b)、(a,b,c),评论集S(S1,S2,…,Sn)中含有a、(a,b)、(a,b,c)的评论条数分别是K1、K2、K3,要求(K1-K2-K3)≥3,则认为特征词是符合要求的,否则从商品特征列表List中删除。

经过上述五个步骤之后,从评论中挖掘的商品特征具有较高的准确率。

2.2特征词相似度计算方法

2.2.1同义词词林简介

目前常用的中文语义词典主要有《知网》、《同义词词林》。《知网》中两个主要的概念:“概念”与“义原”。“概念”是对词汇语义的描述而“义原”是描述“概念”的最小语义单位。由于中文意境广博深远, “概念”与“语义”并没有明显的分界线,用于计算语义相似度有一定的不足。因此,本文根据《同义词词林》计算特征词之间的语义相似度。

《同义词词林》是梅家驹等于1983年编写而成,但由于时间久远,本文采用的是哈工大信息检索研究室的《同义词词林扩展版》[15]。《同义词词林》把其收录的词汇分成大、中、小3类,大类12个,中类97个,小类1 400个。每个小类中的词根据语义相关性又分成若干行,每行中的词汇语义基本相同或者具有很强的相关性。

扩展版同时提供五级编码,也就是说为词林中的小类中每行词汇提供编码,如下所示:

Aa01A01= 人 士 人物 人士 人氏 人选

Bk02C07# 大脑 中脑 小脑 前脑 丘脑

Di09D52# 计划科 考评科 调查科 行政科 保卫科 调研

《同义词词林扩展版》收录高达7万余个词条,但还是不够完善。因此,还要将扩展版未收录的一些词汇添加到词林中,如“WIFI、蓝牙、无线网”等添加到“网、网络”所在的行。

2.2.2相似度计算方法

《同义词词林扩展版》提供五级编码使计算词汇之间的语义相似度具有可行性。文中采用田久乐等[12]提出的词语相似度计算方法。

(1) 两个词汇不在同一棵树上:

Sim(A,B)=f

(1)

(2) 两个词汇在一棵树上:

(a) 在第二层分支:

(2)

(b) 在第三层分支:

(3)

(c) 在第四层分支:

(4)

(d) 在第五层分支:

(5)

原文f、a、b、c、d的取值分别为0.1、0.65、0.8、0.9、0.96; n,k分别表示分支层总结点数和分支层之间的距离。本文中β在第二层分支取0.6,第三层分支取0.8,第四层分支取0.9,第五层分支取0.95;若词汇的编码完全相同,则Sim(A,B)=1;若两个词汇不在一棵树上,则Sim(A,B)=0.1。

2.3商品特征聚类算法

2.3.1“分配”过程算法描述

本文提出的基于语义相似度的商品特征聚类算法将商品同类特征进行聚类,同类特征之间具有很强的语义相似度,因此本文认为每个簇的簇中心一旦确定就不再改变。“分配”过程具体算法描述如下:

(1) 获取商品特征列表List中每个商品特征在扩展版中的编码,构建<编码,特征词>对,形如< Aa01A01,人物>记为efList{(E1,f1),(E2,f2),(E3,f3),…,(En,fn)};

(2) 任选(Ei,fi)其中1≤i≤n作为第一个簇的簇中心并创建Cluster[0]{(Ei,fi)};遍历efList剩余元素计算Sim(efList[j].Encoding,Cluster[0][0].Encoding)(Encoding表示特证词在同义词词林中对应的编码)其中1≤j≤n且j≠i,若Sim>0.85,将efList[j]加入到Cluster[0]中,否则将(Ej,fj)作为第二个簇的簇中心并创建Cluster[1]{(Ej,fj)};遍历efList剩余元素,计算Sim1(efList[k].Encoding,Cluster[0][0].Encoding)其中1≤k≤n且k≠i且k≠j,若Sim1≥0.85,则将efList[k]放入Cluster[0]中;否则,再计算Sim2(efList[k].Encoding,Cluster[1][0].Encoding),若Sim2≥0.85,则将efList[k]放进入Cluster[1];否则将(Ek,fk)作为第三个簇的簇中心并创建Cluster[2]{(Ek,fk)},重复上述过程,直到遍历完特征列表为止。也就是取efList中剩余的元素的编码依次与已创建过的簇的簇中心计算相似度,一旦符合条件将该元素放进对应的簇中,如果直到遍历完所有的簇都不符合条件,则创建一个新簇,并将该元素作为新簇的簇中心。算法伪代码如下所示。

Begin:

1构建<编码,特征词对>,记为:

efList{(E1,f1),(E2,f2),…,(En,fn)};

2设置信号量p=0;

3for(i=1;i<=features.Count;i++)

4if(Clusters.Count==0)

5将(Ei,fi)作为Cluster[0]的簇中心创建Cluster[0]{(Ei,fi)};

6else//计算簇中心与特征词的相似度

7for(j=0;j

8计算sim(efList[i].Encoding,Cluster[j][0].Encoding)

9if(sim>=0.85)

10设置p=1;

11将(Ei,fi)加入Cluster[j]中;

12else

13Break;

14if(p!=1)

15将(Ei,fi)作为Cluster[j+1]的簇中心并创建Cluster[j+1]{(Ei,fi)};

End.

算法执行的示意如图1所示。

图1 “分配”过程算法执行示意图

2.3.2“转移”过程算法描述

上述算法执行完后,可能存在着 efList[k].Encoding与后创建簇的簇中心相似度较大的情况。因此为提高聚类质量,还需进行以下操作。将生成的簇按照生成顺序排列,即{Cluster[0],Cluster[1],Cluster[2],…,Cluster[n]},将Cluster[p]中除簇中心外的所有元素分别与所有Cluster[q]的簇中心计算相似度,其中0≤p

2.3.3时间复杂度分析

3实验及分析

为验证提出方法的有效性,本文首先进行了商品特征提取实验并与李实等提出的方法进行对比; 其次将提取出的商品特征进行聚类并与人工聚类结果对比。实验数据集分别来自京东商城某型号手机的用户点评数据和携程网某酒店的用户点评数据,评论数分别为2165、3700条。

3.1商品特征提取与对比实验

本文在李实等提出的邻近规则基础上做了改进,改进后的邻近规则在识别商品特征词组具有较高的准确率。实验结果如表1所示。

表1 邻近规则对比实验

实验表明改进的邻近规则有较高的准确率,使抽取到的商品特征的维度降低,能够提升商品特征聚类的效率。

3.2商品特征聚类与对比实验

为验证提出的算法具有聚类质量高的优点,进行聚类实验。本文的商品特征聚类算法的聚类结果如图2所示。

从图2的数据可以发现,厂家所给的商品参数与用户在评论中使用的特征名称有较大的出入,如“机身尺寸”在评论中简称为“尺寸”、“副摄像头”被称为“前摄像头”或“前置摄像头”等;自动聚类结果有效的降低了商品特征的维度并与人工聚类的结果相近。手机、酒店的特征聚类部分结果如表2、表3所示,表中第一列表示的是该簇的簇中心。

表2 手机特征聚类部分结果

表3 酒店特征聚类部分结果

从表中可看出,算法聚类结果质量较高且不受离群点的影响,如“赠品”、“保安”都作为单独的一个簇。而K-Means算法聚类质量易受离群点影响,即离群点终将被分到与其距离最近的簇中,从而影响聚类的质量。

4结语

本文提出的基于语义相似度的商品特征聚类算法能够有效地对相同或相近的商品特征进行聚类,降低商品特征维度,为评论挖掘的进一步研究奠定基础。但也存在着一些不足,如语义词典更新周期长,不能及时地收录新词,这给基于语义的相关研究工作带来不便。针对这些存在的不足,将做进一步研究。

参考文献

[1] Godes David,Mayzlin Dina.Using online conversations to studyword-of-mouth communication[J].Marketing Science,2004,23(4):545-560.

[2] Cone Communications LLC.Cone Releases the 2011 Online Influence Trend Tracker[OL].[2011].http://www.conecomm.com/contentmgr/showdetails.php/id/4008.

[3] 第31次中国互联网络发展状况统计报告[R].中国互联网络信息中心,2012.

[4] 宗成庆.统计自然语言处理[M].北京:清华大学出版社,2008.

[5] 代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32.

[6] 姚天昉,聂青阳,李建超,等.一个用于汉语汽车评论的意见挖掘系统[C]//北京:中国中文信息学会二十五周年学术会议,2006:260-281.

[7] Minqing Hu,Bing Liu.Mining Opinion Features in Customer Reviews[C]//InAAAI,2004:755-760.

[8] Rakesh Agrawal,Ramakrishnan Srikant.Fast algorithms for mining association rules in large databases[C]//Proceedings of the 20th International Conference on Very Large Data Bases (VLDB)1994.Santiago:ACM,1994:487-499.

[9] 李实,叶强,李一军.中文网络客户评论的商品特征挖掘方法研究[J].管理科学学报,2009,12(2):142-152.

[10] Zhongwu Zhai,Bing Liu,Hua Xu,et al.Clustering product features for opinion mining[C]//Proceedings of the 4th international conference on Web search and data mining(WSDM)2011.Hongkong:ACM,2011:347-354.

[11] 张珠,贾文杰,夏迎炬,等.商品属性归类技术研究[C]//黑龙江:第六届全国信息检索学术会议,2010.

[12] 李爱清,何烁,郗亚辉.商品评论挖掘可视化实验平台的开发[J].河北大学学报:自然科学版,2012,32(2):212-217.

[13] 田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报:信息科学版,2010,28(6):602-608.

[14] 梅家驹,竺一鸣,高蕴琦.同义词词林[M ].上海:上海辞书出版社,1983.

[15] 哈工大社会计算与信息检索研究中心.同义词词林扩展版说明[OL].[2012].http://www.datatang.com/datares/go.aspx?dataid=612465.

收稿日期:2014-12-02。秦成磊,硕士生,主研领域:Web文本挖掘,Web智能信息处理。魏晓,副教授。

中图分类号TP3

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.07.015

RESEARCH ON COMMODITY FEATURES CLUSTERING IN CHINESE ONLINE COMMENTS

Qin ChengleiWei Xiao*

(SchoolofComputerScienceandInformationEngineering,ShanghaiInstituteofTechnology,Shanghai201418,China)

AbstractIn light of the situation that in comments there are so many commodity feature numbers while multiple different descriptions are just for one feature, we proposed a semantic similarity-based commodity features clustering algorithm. The algorithm includes two processes, the “allocation” and the “transfer”. The “allocation” process clusters the feature words to get primary clusters sequence; and the “transfer” process traverses the primary clusters sequence in turn and transfers the feature words within a cluster which possibly have higher similarity in semantics as of other clusters to the corresponding cluster. Experimental results indicate that the algorithm has high quality, small time complexity and is insensitive to data input order.

KeywordsCommodity features clusteringFeatures clusteringSemantic similarityComment mining

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!