在线商品评论可信性评价方法

时间：2024-05-04

李超向静向军

摘要：针对现有商品评论存在数量大、质量参差不齐、可信度差，导致用户难以快速获取有效信息并制定高效的决策，而现有评论可信性评估主要考虑评论来源和投票形式的支持度等问题，提出了一种从评论内在质量角度实现评论可信度评估方法，即通过融合评论者等级、评论支持度和评论观点一致性等实现评论可信性评估。首先基于规则库和方法库完成了评论数据的预处理;然后基于商品特征库、通用词典、情感词典以及方法库，完成了商品特征识别和特征值提取及标准化;最后基于建立的模型完成评论可信度评估。实验结果验证了该方法的可行性，该方法可以应用于其他电商平台实现商品评论可信性自动评估。

关键词：商品评论;评论质量;可信性;一致性;质量评估

中图分类号： TP391.1; TP18

文獻标志码：A

Abstract： Since there are many troubles such as large quantity， uneven quality and poor credibility in getting helpful information and making effective decision for stakeholders， and the existing research work on credibility assessment mainly considers the sources of reviews and the support of reviews in form of votes， an assessment method on review credibility from perspective of intrinsic quality was proposed. That is， the credibility assessment of reviews was realized by integrating the ratings of reviewers， the support degree of reviews and the consistency in reviews， etc. Firstly， the pre-processing of review data was completed based on rule and method libraries. Then， the feature recognition and the feature value extraction and standardization were completed based on product feature library， generic dictionary， sentiment dictionary and method library. Finally， the credibility assessment of reviews was completed based on the established models. The experimental results verify the feasibility of this method， and it can be applied to assess the credibility of product reviews automatically on other e-commerce platforms.

Key words： product review; review quality; credibility; consistency; quality assessment

0 引言

电商平台如Amazon.com、Taobao.com和JD.com等为消费者提供了分享其所购买商品质量及服务体验的平台，消费者可以浏览他人发表的评论并对评论进行有用性投票，评论管理系统可以根据评论发表时间、有用性和评论者级别等进行排序与展示[1-3]。产品制造商、销售商、消费者和其他利益相关人员通过遍历评论获取相关信息，进而实现商品质量评估与预测、客户关系管理、新产品研发等[4-6]。在电子商务系统中，评论的价值严重依赖于评论质量[7-8]。

商品评论主要涉及消费者及专家发表的关于商品质量及服务体验的描述，目前多数电商平台都为消费者提供了评价评论“有用性”途径，然而因为误操作、广告宣传、导向性和欺诈行为等导致许多不可靠、不相关评论的存在[9-10];同时，因为评论者随意性和主观性，评论观点存在不一致或相互矛盾。相关人员要获取有价值信息，往往遍历很多评论，从而判断哪些评论更加合理和可靠，并进行综合分析与决策。在电商平台中，评论存在数量大、质量参差不齐、可信度差、不及时等问题[11-13]，严重阻碍了用户进行有效决策。为了帮助用户高效地获取信息，“有用性”投票和评论者等级成为了评价评论有用性和可靠性的主要指标，然而，“有用性”投票往往只能够反映两个极端情况，高“支持率”和高等级评论者发表的评论对商品质量及消费体验描述内容侧重点不同，同时可能存在不符合事实的情况甚至商业欺诈。

评论质量管理是评论排序、观点与情感识别、评论融合、摘要提取、垃圾评论检测、产品质量评估与预测等工作的基础。可信性是评论质量的重要方面，评论的可信性与评论来源（如发布者类别与级别、发布平台等）和评价对象相关，一般而言：1）具有较高等级的评论者发表的评论，可信度往往比较高，但部分评论也可能存在导向性;2）具有更多支持度的评论，评论观点往往与多数用户一致，可信度往往也比较高，但部分评论也可能被操纵而获得较多支持;3）各评论者对于相同商品的质量及服务消费体验存在不一致的观点，如果观点存在严重的不一致问题，那么某些评论的可信度较低，但存在不一致性是合理的。

1 相关工作

评论质量被定义为评论满足用户使用评论要求的程度[14]，Zhang等[15]认为评论质量应该从相关性、真实性、可靠性、主观性、可理解性和充分性等方面进行度量。评论的数量、可读性和文本内容的正确性对产品销售量有重要的影响[16]，评论信息不一致可以体现新产品独特性反而会增强消费者购买意愿[17]，但评论不一致在不同产品领域影响产品销售方面有不同结论;Lee等[18]认为评论质量主要在于可用性，并认为评论有用性主要依赖于评论者的专业性、写作风格和评论及时性等因素，并提出了相应的评价方法;Singh等[19]分析了评论语言表达及语义特征等因素对评论有用性的影响;Baek等[20]分析了评论者等级、评论者名称、评论字符数、否定词比例等因素對评论质量的影响;针对发表越早的评论往往会获得更多关注及投票，而最新发表的评论获得的投票往往较少[21]等问题，Miao等[22]引入了评论新鲜度和相关性实现评论的排序进而满足消费者信息需求。

评论的可信性是评论质量的重要方面，可信度是从定量的角度对可信性进行度量。Racherla等[23]从评论者和评论特征信息角度研究了评论者对评论可信度的感知体验。目前，对于Web数据可信性评估主要通过Web数据来源以及来源相关对象的可信性方面直接或间接地完成评估，但来自相同数据源的不同类别对象其数据值准确和数据可信性方面也存在差异[24]。目前对于Web数据可信性的研究很多[25-27]，评论数据属于一类特殊的Web数据，现有用于Web数据可信性评估的方法对于评论可信性评估具有很好的借鉴意义。针对评论可信性，现有研究主要考虑评论来源和投票形式的支持度，没有从评论内在质量角度进行评估，因此，本文提出了一种融合评论者等级、评论支持度和评论观点一致性的评论可信性评估方法，从评论内在质量角度实现评论可信度的评估，实验结果验证了该方法的可行性。该方法可以应用于其他电商平台实现商品评论可信性自动评估。

2 在线商品评论的可信性评价模型

2.1 评论可信性评价体系结构

评论可信度评估，首先基于相关规则和方法实现评论数据的预处理，然后基于词典和商品特征库识别商品特征及取值，最后基于评估模型及方法库实现评论的可信性评估，体系结构如图1所示。

2.2 评论观点一致性评价

相关人员要获取有价值的信息，往往需要遍历很多评论从而判断评论合理和可靠性，进而进行综合分析以便于决策。商品评论主要涉及消费者及专家发表的关于商品质量及服务体验的描述，因评论者强烈的主观性和随意性以及商业宣传和欺诈等而存在评论观点不一致甚至相互矛盾等现象，因此对评论一致性进行分析和评估变得十分必要。评论一致性评价（目标）对象可以是任两个评论间的一致性、任一评论集（如某个评论者或某评论者团体发表的相关评论集、某时段发表的相关评论集、某商品关联评论集等）特征项取值的一致性，具体分为以下几种情况。

1）两条评论间观点相似性。

评论r1和r2的一致性取决于评论在各个特征项上取值的相似性。基于Con（r1，r2）可以用来判定或与给定评论相似的评论集，发现与给定评论关联的评论者持相似观点的评论者集。

2）任一特征项上观点一致性。

假定Rp表示任一商品p关联的评论集，Rp={r1，r2，…，rK}，这里K商品p相关联的评论数量，Rp涉及的特征项表示为集合IP={iP1∪iP2∪…∪iPn∪…∪iPN}，Val（iPn[j]）表示特征项iPn在评论集中第j条评论相应特征上的取值，1≤j≤N1，即评论集中包含特征项iPn的评论数量为N1。当特征值为非数值类型时，则基于规则把特征值统一转换为数值类型。定义商品p相关评论集在任一特征项iPn上观点的一致性表示为取值的一致性Con（iPn）：

其中：Val（iPn）表示特征项iPn在评论集的均值，Val（iPn[j]）表示特征项iPn在评论集中第j条评论相应特征上的取值。Con（iPn）的取值越大，则相关的评论者在信息项iPn上分歧越大，观点越不一致。

3）评论集任一评论观点一致性。

相似地，假定从任一评论r提取待的信息项表示为集合Ir，Ir=ir1∪ir2∪…∪irn∪…∪irN，评论集Rp在信息项irn上取值的均值为Val（irn），则评论集R中评论r的一致性表示为Con（r）：

2.3 评论支持度评价

在电子商务平台中，评论往往会引起消费者的关注，如果某条评论获得了较多点击或支持（如点赞、转发等形式），则表示该评论的支持度往往高。假定评论r被点击的次数为CN（r），其中支持和反对的数量分别为CNoS（r）和CNoO（r）这两处（CNoSr和CNoOr）的表达，应该与后面的表达式一致吧？请统一。回复：用红色边框框起来的内容，分别改为CNoS（r）和CNoO（r），CN（r）=CNoS（r）+CNoO（r）;同时，假定评论rΦ获得了最多的点击（“支持”和“反对”两种形式）次数，点击次数为CN（rΦ）;评论rΘ获得最多的支持且次数为CNoS（rΘ），评论r的支持度为Sup（r）：

这里α和β为两个可调因子，0≤α≤1，0≤β≤1且α+β=1。相关取值可以由专家赋初值，由反馈系统调节。

2.4 评论可信性评价

评价者等级和评论支持度越高，评论往往越可信，但也存在某些评论因为商业操纵行为而获得较高支持度的情况。在获得了相同点击次数情况下，如果点击评论的评论者数量越多，其可信度越高（即在点击次数不变情况下，具有更多评论者的评论或评论集其可信度较高），为此定义评论者覆盖率。假定任一评论集R（或一条评论），相关评论者集为Aut（R），NofAut（Aut（R））表示评论集R相关评论者的数量，NofC（R）表示评论集R被点击次数，则评论者覆盖率定义为Cov（Aut（R））：

与评论观点一致性评价相似，评论可信度评价（目标）对象同样可以是任一评论或评论集。通过对相关评论集的可信性进行评估，进而为用户展示在支持度较高、一致性较好的评论。评论者等级经过归一化处理后为Rat（Aut（R）），评论集R的可信度表示为Cre（R）：

对于评论集的可信性评估，首先确定参与一致性评估的特征集，然后完成评论集在相关特征集上取值一致性评估。

3 实验结果及分析

3.1 实验数据及环境设置

本文所有实验运行在一个双核Intel Core i5-4590 CPU 3.3GHz、内存8GB的Windows 7 64位操作系统，实验验证程序采用Java语言编写，JRE1.7环境下运行。通过爬蟲从某知名电商平台上爬取了5个服装商品相关联的近10万条评论并识别出了相应的评论者。

3.2 实验分析

基于规则库和方法库完成了评论数据的预处理，然后基于商品特征库、通用词典、情感词典以及方法库，完成了商品特征识别和特征值提取及标准化（商品特征及特征值的提取方法本文不作介绍，可见前期工作[28-29]）。通过统计分析与评论挖掘，得到了不同等级评论者发布评论数量情况、评论特征集、评论特征值一致性、评论者级别与一致性相关性以及任一评论或评论集可信度评估结果。

从图2可以看出，多数评论者处于等级1、2和3;从图3可以发现，等级为1、2和3的评论者发表评论的平均次数要多于其他级别。换句话说，处于中等级别的评论者更乐于分享他们的购买观念和消费体验质量。

2）评论特征值的一致性。

基于用Apriori算法、商品特征库和SCEPD（中国科学院发布的“简化中文情感词典”），从评论集半自动提取了频繁信息项并选择了15个重要的特征项，它们分别是quality、baby、price、size、logistics、color、seller、service、style、packaging、fabric、workmanship、color、dress、odor，分别用ft1到ft15表示。通过计算得到上述评论集在这15个信息项上的一致性结果如图4所示。

从图4可以看出：a）商品P#A01的评论集中关于“logistics”和“style”的观点差别很大，而在“odor”和“price”比较一致;b）商品P#B02的评论集对于“logistics”和“color”也有显著区别，但相对于P#A01来说，分歧要小;c）商品P#C03相关的评论集中，在“service”和“style”上观点不同，在“price”和“color”趋于一致。同时统计得到了关于这三个商品一致性取值的平均值，分别为0.569、0.286和0.570，这意味着评论者对于商品P#B02的观点相对于其他两种商品更加一致。

3）评论者级别在不同特征项取值的一致性。

通过分析不同等级评论者发表3种商品相关评论集在上述15个特征项上取值一致性，得到了在每个特征项上的一致性取值结果，分别如表1所示。表1中间各个单元都表示具有相同等级的评论者发表的评论在相关特征项上观点的一致性取值，最后一列表示相应等级评论者在各个特征观点一致性取值的均值。

从表1的结果可以发现，相同评论者对于相同对象发表的评论关于商品的不同特征其一致性存在差异;相同评论者对于不同的评论对象发表的评论在一致性方面也存在差异;具有较高等级的评论者发表的评论往往整体上具有较高的一致性，但具有最高等级的评论者发表的评论总体一致性并不是最高的。

4）评论可信度评估。

评论可信度评价（目标）对象可以是任一评论或评论集（如任意选择的评论子集、评论者相关的子集、某时段相关的子集、某商品关联评论集等）。这里模型（3）在不考虑评论发布者等级及相关评论支持度差异的情况下（即Sup（r）和Rat（Author（r））都取常量a）和不区分商品特征项重要情况下，得到了不同等级评论者发表评论的可信度（a=1时），如图5所示。

通过图5可以看出，处于最高等级发表的评论其一致性并不是最高的，但总体来说，具有较高等级评论者发表的评论集其评论观点具有更高的一致性。在进行可信度评估时，如果融合了评论支持度和评论者等级得到结果与该结果总体趋于一致。

4 结语

针对评论可信性，现有研究主要考虑评论的来源和投票形式的支持度，没有从评论内在质量角度进行评估，因此，本文提出了一种在考虑评论者等级、评论支持度情况下，融合评论观点一致性的评论可信性评估方法，通过实验统计及分析给出了评论者所属等级、不同等级评论者发表评论的一致性以及特定评论集可信度评估结果。实验结果表明，高等级的评论者发表的评论其支持度和一致性往往较高，但来自相同数据源的不同类别对象其评论可信性存在差异。

还有许多工作有待完善：1）本文没有考虑评论者专业性等方面不同对发布评论可信性的影响;2）评论数据集的来源局限于特定领域，相关方法在其他领域的适应性方面还有待改进;3）实验中涉及的评论集在时间上间隔时间较短，后期工作可以分析较长时间范围内相关评论者发表评论在一致性方面的变化，比如验证具有较长评论发表历史的评论者，其发表的评论是否具有更好的一致性等。

参考文献（References）

[1] GHOSE A， IPEIROTIS P G. Estimating the helpfulness and economic impact of product reviews： mining text and reviewer characteristics [J]. IEEE Transactions on Knowledge and Data Engineering， 2011， 23（10）： 1498-1512.

[2] HUANG A H， CHEN K， YEN D C， et al. A study of factors that contribute to online review helpfulness [J]. Computers in Human Behavior， 2015， 48： 17-27.

[3] PAN Y， ZHANG J Q. Born unequal： a study of the helpfulness of user-generated product reviews [J]. Journal of Retailing， 2011， 87（4）： 598-612.

[4] 刘云，孙宇清，李明珠.面向社会化媒体用户评论行为的属性推断[J].计算机学报，2017，40（12）：2762-2736.（LIU Y， SUN Y Q， LI M Z. User attributes inference based on reviews on social media [J]. Chinese Journal of Computers， 2017， 40（12）： 2762-2736.）

[5] KWARK Y， CHEN J， RAGHUNATHAN S. Online product reviews： implications for retailers and competing manufacturers [J]. Information Systems Research， 2014， 25（1）： 93-110.

[6] YAN Z， XING M， ZHANG D， et al. EXPRS： an extended PageRank method for product feature extraction from online consumer reviews [J]. Information & Management， 2015， 52（7）： 850-858.

[7] LI M， HUANG L， TAN C H， et al. Helpfulness of online product reviews as seen by consumers： source and content features [J]. International Journal of Electronic Commerce， 2013， 17（4）： 101-136.

[8] NGO-YE T L， SINHA A P. The influence of reviewer engagement characteristics on online review helpfulness： a text regression model [J]. Decision Support Systems， 2014， 61： 47-58.

[9] LIU L， ZHAO X， WANG H， et al. Research on identification method of anonymous fake reviews in e-commerce [J]. TELKOMNIKA Telecommunication Computing Electronics and Control， 2016， 14（4）： 1510-1520.

[10] SIKORA R T， CHAUHAN K. Estimating sequential bias in online reviews： a Kalman filtering approach [J]. Knowledge-Based Systems， 2012， 27： 314-321.

[11] HU N， BOSE L， GAO Y， et al. Manipulation in digital word-of-mouth： a reality check for book reviews [J]. Decision Support Systems， 2011， 50（3）： 627-635.

[12] HU N， LIU L， SAMBAMURTHY V. Fraud detection in online consumer reviews [J]. Decision Support Systems， 2011， 50（3）： 614-626.

[13] 李璐旸，秦兵，劉挺.虚假评论检测研究综述[J].计算机学报，2018，41（4）：946-968.（LI L Y， QIN B， LIU T. Survey on fake review detection research [J]. Chinese Journal of Computers， 2018， 41（4）： 946-968.）

[14] KWON O， LEE N， SHIN B. Data quality management， data usage experience and acquisition intention of big data analytics [J]. International Journal of Information Management， 2014， 34（3）： 387-394.

[15] ZHANG K Z， CHEUNG C M， LEE M K. Examining the moderating effect of inconsistent reviews and its gender differences on consumers online shopping decision [J]. International Journal of Information Management， 2014， 34（2）： 89-98.

[16] DEVI J I. Estimating the helpfulness and economic impact of product reviews [J]. International Journal of Innovative Research and Development， 2012， 1（5）： 232-236.

[17] HE S X， BOND S D. Why is the crowd divided？ attribution for dispersion in online word of mouth [J]. Journal of Consumer Research， 2015， 41（6）： 1509-1527.

[18] LEE S， CHOEH J Y. Predicting the helpfulness of online reviews using multilayer perceptron neural networks [J]. Expert Systems with Applications， 2014， 41（6）： 3041-3046.

[19] SINGH J P， IRANI S， RANA N P， et al. Predicting the “helpfulness” of online consumer reviews [J]. Journal of Business Research， 2017， 70： 346-355.

[20] BAEK H， AHN J， CHOI Y. Helpfulness of online consumer reviews： readers objectives and review cues [J]. International Journal of Electronic Commerce， 2012， 17（2）： 99-126.

[21] LI H， CHEN Z， MUKHERJEE A， et al. Analyzing and detecting opinion spam on a large-scale dataset via temporal and spatial patterns [C]// ICWSM 2015： Proceedings of the Ninth International AAAI Conference on Web and Social Media. Menlo Park， CA： AAAI Press， 2015： 634-637.

[22] MIAO Q， LI Q， DAI R. AMAZING： a sentiment mining and retrieval system [J]. Expert Systems with Applications， 2009， 36（3）： 7192-7198.

[23] RACHERLA P， FRISKE W. Perceived ‘helpfulness of online consumer reviews： an exploratory investigation across three services categories [J]. Electronic Commerce Research and Applications， 2012， 11（6）： 548-559.

[24] 馬如霞，孟小峰.基于数据源分类可信性的真值发现方法研究[J].计算机研究与发展，2015，52（9）：1931-1940.（MA R X， MENG X F. Truth discovery based credibility of data categories on data sources [J]. Journal of Computer Research and Development， 2015， 52（9）： 1931-1940.）

[25] LU T C， YU T， CHEN S H. Information manipulation and Web credibility [C]// Proceedings of the 2017 International Symposium on Distributed Computing and Artificial Intelligence. Berlin： Springer， 2017： 86-95.

[26] ABDOLRAHMANI A， KUBER R， EASLEY W. Web search credibility assessment for individuals who are blind [C]// Proceedings of the 17th International ACM SIGACCESS Conference on Computers & Accessibility. New York： ACM， 2012： 369-370.

[27] FLANAGIN A J， METZGER M J， PURE R， et al. Mitigating risk in ecommerce transactions： perceptions of information credibility and the role of user-generated ratings in product quality and purchase intention [J]. Electronic Commerce Research， 2014， 14（1）： 1-23.

[28] LI C， ZHOU H， ZHOU X F. Design and implement of hydrological data quality assessment system based on business rules [C]// Proceedings of the 2012 IET International Conference on Information Science and Control Engineering. Stevenage， UK： IET， 2012： 925-929.

[29] LI C， ZHOU H， ZHOU X F. Data quality assessment in hydrological information systems [J]. Journal of Hydroinformatics， 2015， 17（4）： 640-661.