时间:2024-05-04
邱秀连 邹珞彬,2 王 峥
(1.南京烽火软件科技有限公司 南京 210019)(2.武汉邮电科学研究院 武汉 430074)
在书籍、影音等垂直网站以及电子商务网站不断涌现的过程中,对产品和服务的在线评论已经成为一种重要的信息载体[1],越来越多的用户通过社交媒体平台表达自己的观点和想法[2]。
对商品、电影、餐厅等评论和评分的使用是一种可以在决策过程中帮助其他用户提供用户意见的快速方式[3]。据文献[4]的调查研究表明,受访者中占91%的人们认为其购物决策过程除了会参照电商平台中的用户评价外,还会结合来自博客等社交平台中的用户生成内容(User Generated Content)。以上受访者中占46%的人们表示,这些社交平台中的评论内容会对他们的购物决定造成一定影响。
可见如今用户评价已成为网络用户在进行商品选购、观影选择等一系列决策时考虑的首要因素。为了实现对电影评论的准确预测,本文在进行了相关研究的基础上,提出了一种基于文本摘要的长影评评分预测模型,该模型能够提高对电影长评论数据进行评分预测的准确率。
评分预测工作在之前的研究中已经得到解决。例如,文献[5]利用主题模型针对大众点评网的餐饮评论挖掘用户评论中隐藏的评论主题,通过评论主题来对用户偏好和画像进行刻画,最终利用线性回归和Logistics回归训练主题与评分之间的关系,得到较为准确的评分预测结果。文献[6]针对英文电影评论数据,采用隐变量模型来描述用户行为偏好(User Preference)与特征属性之间的依赖关系,通过领域知识指导对模型进行启发式结构学习,最后通过用户行为偏好模型来推理得到电影评分。获得的平均预测准确率为72%。同时,为了改善数据较为稀疏的情况下评分预测的准确性,文献[7]提出了一个基于文档向量表示模型并融合了多种回归模型的评分预测框架。该评分预测框架使用Amazon的评论和评分作为实验数据集,得到了优于基准模型的结果。
以上所有这些方法的共同点在于,它们都是针对商品、电影评论中的短评来预测其评分。当试图通过很短的评论文本(最多包含三句话的评论)来预测产品评论的评分等级时,分类过程取得了很好的效果。相反,当处理较长的文本时,准确度会大打折扣。以前的研究表明,在处理较长的评论时,评分预测的任务尤其具有挑战性。文献[8]研究发现评论长度与分类效果成反比的关系,使用短评论进行分类的效果更好。这一结论与特征向量较为稀疏造成传统短文本分类效果不好的结论不同[9]。
文本摘要在很大程度上没有被用于长评论的评分等级预测的研究。文献[10]对于文档级情感分析的研究中进行了相关实验,实验结果显示文本观点摘要对分类任务的影响,但实验是在英文电影评论的背景下进行的。基于此,一种简单明了来获取短文本的方法是应用文本摘要技术,除了压缩文本之外,还应该保留文档最关键的信息。与使用完整评论文本相比,文本摘要能够选择重要信息来正确预测相关评论的评分。因此,本文将文本摘要技术的相关研究运用于电影影评领域的评分预测,提高评分预测模型的准确率。
本文的研究思路如图1所示。
图1 研究思路
首先从豆瓣电影网站抓取电影长影评数据,对获取到的影评信息进行预处理,每篇评论文本都可以看作是句子的线性组合,通过对每一个句子进行文本分词可得到该句子的词向量。然后,利用文本摘要算法进行摘要抽取。最后,采用基于词袋模型的SVM分类器来对完整的影评和生成的影评摘要进行评分等级预测。
TextRank算法是基于Google公司的PageRank算法发展而来的[11],该算法实现的基本思想是利用“投票”或“推荐”来判断图中一个句子重要性[12~13]。一个句子的投票数越高,句子的重要性就越高。因此该算法利用矩阵迭代收敛的方式计算每个句子的权重,从而进行权重的排序[14]。
假设 S={S1,S2,…,Sn}是由 n个句子Si(1≤i≤n)所构成的句子集合。图G=(S,E,W)是由n个句子及这些句子间的相似关系为边构成的无向图,其中E为边的集合,W={ωij|1≤i≤n˄1≤j≤n}为边的权重集合,ωij为句子Si与Sj间的权重值,本文采用如式(1)所示的基于两个句子共现词的个数计算权重,其中wk代表第k个词,Si代表第i个句子。
由此可以得到一个句子间的相似度矩阵:
根据相似度矩阵Sn×n可迭代计算各个句子的权重,计算公式如式(3)所示:
其中WS(Si)是句子Si的权重值,d是阻尼系数,一般设为0.85。 In(Si)代表指向Si的句子集合,Out(Si)代表Si指向的句子集合。假设句子的初始权重值均为1 ||S,根据式(4)的收敛条件,对得到的权重值进行排序即可得到对应的排名。
在传统TextRank算法的基础上,文献[15]综合文本结构和上下文的信息提出了一种改进方法,在新方法中构建TextRank图时,通过考虑统计和语言特征,如标题、段落结构、特殊句子、句子位置和长度等,来调整节点的权重。文献[16]针对标题特征、句子长度、句子位置和关键词频率四个元素的计算,在TextRank算法的基础上得到文本摘要。TextRank算法根据句子间的相似度计算每个句子的权重,现有研究多采用基于位置要素、主题相似度等方式对该算法进行改进。本文在此基础上,引入句子的情感特征信息,通过获取评论中每个句子的情感倾向对句子节点的权重进行调整。
3.3.1 句子位置
句子位置是反映评论句在整篇文章中权重值的一个重要特征。通常评论的前几句和最后几句涵盖了整篇评论的主要信息,因此,可根据评论文本中句子的位置进行加权计算。基于此,本文对比了两种计算方法,一种是对评论文章中前面的评论句赋予较大的权重,评论文章后面的评论句赋予较小的权重;另一种方法则相反。两种位置权重调整向量分别记为
3.3.2 句子的情感特征
评论文本中包含了作者大量的个人情感,不同的情感态度反应了作者不同的观点,因此基于情感的文本摘要可以通过情感分析的方法捕捉到作者对某个主题的观点和看法。根据评论句情感的强弱,可以很好地反映文本评论句的重要程度。本文利用武汉大学ROST EA进行情感强度的抽取,获得所有评论的总体情感分布,包括消极情绪、中性情绪和积极情绪。其中,消极情绪和积极情绪又可以分为高度,中度和一般。当情感倾向值小于-25时为高度消极、情感倾向值大于或等于-25且小于-15时为中度消极、情感倾向值大于或等于-15且小于-5时为轻度消极、情感倾向值大于或等于-5且小于或等于5时为中性情绪。类似地,情感倾向值大于25时为高度积极、大于15且小于或等于25时为中度积极、大于5且小于或等于15时为轻度积极。
基于此,本文提出Extract(Senti)方法,在TextRank算法的基础上利用情感分析抽取句子情感特征,根据句子的情感程度,设置如式(7)所示的情感权重调整向量:
根据ROST EA工具设置的情感倾向值及其对应的量值,设置初始的情感权重值。当情感强度为高度积极或高度消极时,stn=3;情感强度为中度积极或中度消极时,stn=2;情感强度为轻度积极或轻度消极时,stn=1;情感强度为中性时,stn=0。
图2 Extract(Senti)摘要抽取样例图
Extract(Senti)文本摘要抽取样例如下图2所示。通过对情感程度的等级赋予不同的权重值进行调整以获得基于情感强度区分的综合情感权重调整向量对句子进行权重值的调整。根据迭代计算得到每个句子的权重值,对权重进行排序从而得到摘要文本。
首先通过网络爬虫从豆瓣网电影中抓取了若干部电影的长影评,其中包含电影名称、电影简介、电影评论、评论打分等级、评论用户账号、评论发布时间等信息。最终共获取7579篇电影长评论作为本实验的数据集。每一篇评论对应一个评分等级,评分等级有五个值(1=很差,2=较差,3=还行,4=推荐,5=力荐),代表作者对每部电影的感受,平均每篇评论有1397个字。此外,大多数的评论(2682篇评论)被归类为四星级,对应数据集中文本总数的35.4%
实验过程中对电影评论正文进行了预处理,剔除一些内容过长或过短的评论信息。以句号,感叹号,问号和换行符作为一个句子结束的标志,每篇文章可划分为若干个句子,其中最短的文章有15句,最长的评论文章有253句,平均长度为35.9句。具体统计信息如图3所示。
图3 样本数据中评论长度统计图
本实验通过基于TextRank的文本摘要算法及其改进算法提取豆瓣电影长影评,生成一些压缩率在10%到50%的单文档摘要。除了TextRank自动文本摘要算法外,为减少冗余度和提高实验效果,本文在原有算法基础上提出了基于情感分析的文本摘要算法Extract(Senti)。自动文本摘要为文档的内容提供了一个概览,而基于情感的文本摘要则捕捉了作者对某个主题的观点和看法。
实验将现有数据集分为两组:80%的影评文本用于分类器的训练,20%用于测试。为了量化完整影评和采用文本摘要算法的性能指标,本文计算了预测结果的准确率及均方误差值,将预测类别与实际类别误差不超过1的分类结果视为正确。
使用ROST EA工具在进行情感分析时,初始权重值设置中性情绪为0,高度、中度、轻度情绪分别为3,2,1。为了了解几种情感强度在不同权重下的预测情况又不过于繁琐,在此设置5种不同加权方式进行对比,中性情绪、高度、中度、轻度情绪权重比分别为 0∶3∶2∶1,0∶4∶2∶1,0∶5∶3∶1,1∶4∶3∶2,1∶5∶3∶2。预测结果的均方误差值如图4所示,从图中可以看出当中性情绪的权重为0时,预测结果比权重为1时的均方误差小。由于中性情绪所包含的情感特征不明显,因此中性评论对于评分预测的准确率有一定干扰,将中性情绪设置为0后准确率有所提高;同时发现当权重比为0∶5∶3∶1时,预测结果的均方误差最小。这表明此时高度情绪与中度、轻度情绪能被很好地区分,得到的评论文本摘要更加能表达作者的真实情感。
图4 不同情感权重值预测MSE值
本实验针对完整影评和不同的文本摘要方法进行实验测试,得到的平均准确率如图5所示。从图中数据可以发现,使用完整影评进行分类的准确率在80%以上,而使用文本摘要的准确率在78.9%到84%之间。
图5 评分预测结果准确率
总体来说,对于压缩率超过20%的情况,TextRank摘要方法和完整影评得到的预测基本相同。而对于其他的文本摘要方法,它们得到的准确率和完整影评相比更高。这意味着本文提出的文本摘要方法能够从完整的长影评评论中删除嘈杂的干扰信息,同时保留与文本分类过程相关的有用信息。
此外,当评论文本靠后的句子赋予较高权重时,得到的预测结果更好。由此可以得出结论,影评最后的句子中包含作者对电影的强烈感觉。最后,根据基于情感分析的文本摘要和其他文本摘要算法的实验结果对比发现,基于情感分析的摘要算法得到的结果要好一些。因为基于情感的文本摘要包含大量作者对该电影的情感态度,据此可以帮助确定作者是否喜欢这部电影。
用户评价正越来越广泛地被使用并且影响到用户、商家、平台所有者等,其重要性不言而喻[17]。本文基于豆瓣电影长影评进行了评分预测分析,通过抽取影评的文本摘要获取评论的重要组成部分并与完整影评进行比较,为此通过实验针对不同的文本摘要方法进行评估。结果显示,文本摘要有助于过滤与评论文本不是直接相关的干扰信息,提高了预测的准确率,因此这种方法适用于评分预测任务。此外,实验结果证明利用情感分析能在评论中挖掘作者更多更强有力的观点,提高预测的准确率。
虽然,我们可以得出结论自动文本摘要有利于对评论文本进行评分预测,但仍有很多需要改进的地方。例如评分与评论文本表达的观点完全相反或存在网络水军恶意炒作或诋毁某部电影等情况。因此,在将来我们将深入分析如何度量评论中表达的观点与真实评分之间的关系。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!