当前位置:首页 期刊杂志

跨领域情感分析综述

时间:2024-07-29

赵晓鹏,施水才

(1.北京信息科技大学 计算机学院,北京 100192;2.北京拓尔思信息技术股份有限公司,北京 100101)

0 引言

跨领域情感分析在情感分析中是一个新兴的领域,目前相关研究尚且不多,主要集中在如何寻找从源领域到目标领域的映射关系,或者从源领域迁移到目标领域的媒介。研究主要使用半监督学习方法,利用少量的源领域标签数据集和大量源领域与目标领域的未标签数据集,进行逐次迭代,逐渐减少训练集和测试集之间的差异,最终形成适合目标领域的函数。

1 相关定义

跨领域情感分析是情感分析的一个子领域。文献[1-2]对情感分析问题进行了很好的总结,其他研究者也做出了各自的贡献。情感分析和跨领域情感分析涉及的定义主要包括:

定义1 情感词典情感词典是拥有一系列暗示积极或消极情感的情感词的列表,它是许多情感分析任务的基础[3]。

定义2 目标目标又称作特征、主题、方面、实体等,是情感评价的对象(实体)。该实体可以被递归定义,即实体的每一部分也可以是一个目标。

定义3 领域一个领域D代表客观存在或是一个语义概念所表达的一类实体,它代表一系列情感与目标的集合[4]。

定义4 情感给定一个特定的领域D,情感是文本文档中用户对该领域的某些实体的观点。根据对象粒度的不同,情感分类可以分为文本级别、句子级别、短语级别和单词级别等[5]。

定义5 标签数据和未标签数据给定一个特定的领域D和某一情感数据xi,令yi表示xi的情感极性[6]。如果xi的整体情感为积极情感,则把xi标记为“积极”(yi=+1);如果xi的整体情感为消极情感,则把xi标记为“消极”(yi=-1)。情感文本和对应的情感极性组成的二元组{xi,yi}称为标签数据。如果xi没有进行极性赋值,则称作未标签数据。如果xi的整体情感为中性情感,则把xi标记为“中性”(yi=0)。大部分研究中只使用积极和消极两种情感标签,但也有对情感标签进行积极、消极和中性的三元分类的研究[7-8]。

定义7 跨领域情感分类给定两个特定的领域,即源领域和目标领域,在至少拥有一定的源领域标签数据的前提下,跨领域情感分类的任务是学习一个精确的分类器,去预测未标签的目标领域的情感数据的极性。有时源领域可能会有多个[9]。

定义8 跨领域目标抽取给定两个特定的领域,即源领域和目标领域,在至少拥有一定的源领域标签数据的前提下,跨领域目标抽取的任务是学习一个精确的分类器,去预测未标签的目标领域的情感数据中每个单词对应的目标标签,并从中找到标记为yi=2 类型的单词。

2 跨领域目标抽取

目标抽取又称特征抽取、主题提取、方面抽取等,是抽取主观评论中情感评价的实体。据统计,97%的目标是领域依赖的,同时73%的情感词也是领域依赖的[10],因此跨领域问题在目标抽取任务中有重要研究意义。跨领域目标抽取任务的关键与跨领域情感分析一样,需要找到源领域与目标领域的关联。方法可分为监督学习算法和无监督学习算法两种,前者需要找到两个领域之间的关联,而后者更偏向于找到独立于多个领域的特征,依赖这些特征进行目标抽取。本文作者对近几年跨领域目标抽取任务的研究进行了总结,如表1所示。

2.1 监督学习算法

近几年对跨领域目标抽取的研究不多。Jakob等[11]把目标抽取看作信息抽取任务,使用多个领域无关的特征构成特征向量,训练一个条件随机域连续标注器,标注每个单词是否为要抽取的目标。领域无关的特征的选择使得该监督算法能够应对跨领域问题。其选择的特征包括:①词项本身;②词项的词性标注;③最短依赖路径(所有和目标具有直接依赖关系[12]的词项。依赖关系如图1所示);④词项距离(每个单词和最近名词的距离);⑤情感句(标记所有出现在情感句中的词项)。

Jakob等还对该算法在单一领域问题和跨领域问题上的效果进行了评估,评估结果表明该算法应用到跨领域数据集上,与应用到单一领域数据集上效果相近,F值下降不到5%。文中也对当时(2010年)最好的目标抽取监督学习算法,即Zhuang等[13]提出的算法,应用在跨领域目标抽取上进行评估。先根据一个电影评论的结构固定下来一些特征,包括与电影评论中“元素和人”有关的特征,形成特征表。根据特征表、语义依赖关系和情感词找到一些语义依赖模型,进而根据这些模型找到其他特征。对于不明显的特征,统计词语出现的频率,根据频率确定不明显特征。

Li等[6]提出一种两阶段框架进行跨领域的情感词和目标的协同抽取。在算法的第一个阶段,使用基于统计的方法生成一部分高质量的情感词和目标,以其作为种子,训练出一个分类器。在算法的第二个阶段,使用一种关系适应的自举法进行种子集的扩张。自举法通过迭代地增加训练集来增强分类器效果,最后反复迭代得到跨领域的分类器。该算法从标签数据训练集中学习两方面的知识:一是学习目标候选词的集合;二是学习明显目标与情感词对之间的依赖树路径。当把该算法应用到跨领域目标抽取问题上时,不能很好地解决跨领域目标抽取问题,平均F值不到20%。

2.2 无监督算法

跨领域目标抽取的另一类方法是无监督算法。目前的方法是找到一系列领域无关的特征,并使用无监督(或半监督)算法进行目标抽取。由于特征与领域无关并且是无监督算法,所以不存在跨领域的问题,使得算法可以高效地应用到任何领域。

Qiu等[3]提出双向传播算法进行产品特征(目标)抽取,抽取基于“情感词与产品特征间具有某种关系”的假设进行,把语句间词语的依赖关系,即情感词与产品特征之间的修饰关系和产品特征间的并列关系,作为挖掘产品特征的工具。首先使用少量的具有普遍性的情感词(通过情感词典获得)寻找目标和情感词,然后利用挖掘出来的产品特征寻找新的产品特征,同时用产品特征寻找情感词,反复迭代,直到不能找到新的情感词或产品特征为止。最后使用频率信息,固定词组过滤等启发式规则进行剪枝。该算法应用在5个不同领域的 Amazon 产品评论数据集上,F值均可达到 85%左右。然而双向传播算法在小规模数据集以及大规模数据集上存在准确率偏低的问题。

Zhang等[14]在双向传播算法的基础上,增加了“part-whole”规则和“no”规则。其中“part-whole”规则用来挖掘用户评论中产品特征(部分)与产品(整体)间的联系。“no”规则为“no+名词”的模式,在文档中出现此种模式,则说明符合“no”规则,和“no”搭配的名词为目标。同时考虑情感词和产品特征间的互斥增强关系(mutual reinforcement relationship),使用搜索引擎中的HITS算法对增加规则后的双向传播算法的结果进行进一步的优化,有效地提高了双向传播算法在小规模数据集以及大规模数据集上的准确率。

3 跨领域情感分类

3.1 概述

在跨领域情感分析中,目前的研究热点是跨领域情感分类,研究表明情感分类问题对训练集所属的领域是高度敏感的。从一个领域的情感文档集训练(源领域)得到的分类器往往在另一个领域的测试集(目标领域)表现很差,原因在于在不同领域中用来进行情感表达的单词和语言结构相差非常大。而且,同一个单词在一个领域表达积极情感,在另一个领域可能表达消极情感,因此需要进行领域适应或迁移学习。跨领域情感分类要解决的问题是,找到从源领域到目标领域的一种映射关系,或者说寻找从源领域迁移到目标领域的媒介。现存的跨领域情感分类主要基于两种设定:第一种需要源领域标记数据和少量来自目标领域的标记数据;第二种需要源领域标记数据但不需要任何目标领域的标记数据。近几年的研究主要集中在第二种设定上。

Whitehead等[15]做了大量实验对跨领域情感分类问题进行分析,使用支持向量机分类器进行11个不同领域下跨领域情感分类的研究,得出多个结论,主要包括:

结论1在源领域训练得到的分类器不能很好地应用到目标领域,并且当应用到不同的目标领域时,得到的结果相差很大。

结论2使用多个不同领域训练得到的分类器,能够较好地应用到这些领域的情感分类中。

结论3使用多个源领域进行训练得到的分类器,应用到一个新的目标领域时,得到的结果与使用单一源领域进行训练得到的最好结果相差不多。

结论4可以通过领域间的相似度预测使用某一个源领域训练的分类器应用到目标领域时,准确率下降的比例。

结论5可以通过联合一组模型来增强分类器的表现。

根据以上几个结论跨领域情感分类可以划分为两类方法:一是寻找多个领域适应的分类器;二是寻找适合某一给定目标领域的源领域训练集。本文对近几年跨领域情感分类的研究进行总结,如表2所示。

表2 跨领域情感分类总结

3.2 寻找领域适应分类器

近些年研究者们通过对领域独立情感词、情感敏感词典、高层概念、文档的情感主题等多方面的研究,找到了多种从源领域迁移到目标领域的媒介。

Pan等[4]把单词分为领域依赖情感词和领域独立情感词,前者为某一领域特有的情感词(特征),后者为两个领域共同具有的情感词。领域依赖情感词是造成跨领域情感分类准确率下降的原因。领域独立情感词可以通过简单的启发式规则获得,规则为:①统计单词频率,即在不同领域出现且共同出现的频率大于k的情感词为领域独立情感词。②计算特征与领域的依赖性,即与文档的互信息较高的情感词为领域依赖情感词。研究者首先把两类词作为两个集合构建一个二项图,如图2 所示。

如果两个集合中的某两个单词共现,则把它们连接起来,边的权值为两个单词的共现频率。共现可以定义为两个单词在同一个文档或特定大小的窗口(范围)内出现。然后使用谱聚类算法对二项图中的VDI和VDS进行聚类。如果两个领域特定单词频繁地与某些领域依赖单词连接,则这两个单词相似;如果两个领域依赖单词频繁地与某些领域独立单词连接,则这两个单词相似。最后在对目标领域进行情感分类时,领域依赖情感词可以根据在源领域与之相似的情感词的极性进行分类。使用该框架进行文档级别和语句级别的分类任务,准确率平均在75%左右。

Bollegala 等[9]提出一种使用来自多个领域的标签数据和未标签数据自动创建情感敏感的同义词典的方法,来关联不同领域间相近的情感词。首先建立每个词项的基础特征向量,对于词项u,先把在评论中与其共现的词项作为特征向量,然后在特征向量中,对每个单词增加其评论所属的情感标签,接下来度量不同领域间情感词的相近性,使用与两个情感词的特征向量中共现的单词占所有单词的比例计算。通过该方法扩充原有的特征向量,形成最终的情感敏感的同义词典。最后使用该词典训练跨领域的二元情感分类器。该方法可以同时使用多个不同的源领域的数据集进行训练,得到的分类器可以同时在多个领域进行情感分类。该算法进行跨领域情感分类准确率平均在 80%左右。

Glorot等[18]提出使用机器学习中的深入学习思想进行跨领域情感分类,利用不同领域间相同的高层概念来关联训练集和测试集。深入学习算法的思想是无监督学习可以通过特征的层次级别迭代进行,每一次迭代时所需要的特征由上一次利用高层特征学习获得。高层特征又称高层概念,是多个领域共同的概念,利用高层概念进行深入学习,得到多个领域下的底层特征。其提出的策略分为两阶段:第一阶段,使用 SDA 算法在所有可用的源领域中利用无监督的方式进行高层概念的抽取。第二阶段,利用这些特征组成特征向量,使用线性 SVM 分类器进行训练得到情感分类器,利用该分类器进行跨领域情感分类。使用该分类器在22个不同领域的数据集上进行情感分类,结果表明该方法能够同时进行多个目标领域的情感分类。

He等[16]使用混合的主题模型同时得到文档的主题和情感(情感主题),使用情感主题关联不同领域的训练集和测试集。Yoshida等[19]提出了一种通过领域依赖情感词和领域独立情感词把多个源领域的知识迁移到多个目标领域的方法。源领域和目标领域的关联和Pan的研究类似,使用领域依赖情感词和领域独立情感词。提出对一个单词建立3个属性:领域标签,领域依赖或领域独立标签,单词极性标签。在对源领域所有单词进行建模后,在目标领域使用Gibbs Sampling计算每个单词在不同标签下的后验概率,判断一个单词的极性和是否属于领域依赖或独立情感词。Raksha Sharma等[17]使用卡方检验通过带标记的源领域数据,经源领域的关键词协助发现目标领域的关键词,通过两个领域的关键词及其倾向,得到SCP。然后利用SVM分类器实现目标领域的情感分析。

3.3 寻找领域相似训练集

与上述利用媒介得到能够同时应用到多个领域的分类器的方法不同,寻找领域相似训练集是从训练集的角度出发研究跨领域情感分类。考虑如何能够找到和目标领域数据集分布最相近的源领域数据集,使用该数据集进行分类器的训练,从而弥补源领域和目标领域因为特征分布不同带来的准确率下降。

Ponomareva N等[20]对领域相似训练集进行研究时,提出一种预测准确率下降的方法,即预测使用不同领域的数据集训练分类器应用到同一个目标领域时,准确率会如何下降。研究者认为领域相似性和领域复杂度是评判不同领域间数据集相似性的标准。对比使用余弦相似度、Jaccard 系数、χ2相关系数、DKL距离、DJS距离等来度量领域的相似性。两个数据集相似性越高,说明它们之间带来的跨领域误差越小;对比稀有单词百分比、单词丰富程度、相似熵等来评估数据集的复杂度。两个数据集复杂度相差越少,说明它们带来的跨领域误差越小。最后综合考虑上述两个标准,提出能够找出针对目标领域最合适的训练集的线性回归模型:

F(sij,Δcij)=β0+β1sij+β2Δcij

式中:sij为领域相似度;Δcij为领域间复杂度的差。并且利用该模型预测把使用某一源领域训练集训练得到的分类器应用到目标领域时,准确率下降的百分比。在跨领域情感分类问题中,该模型在预测分类器带来的跨领域误差时平均标准差在 1.5%左右。

4 跨领域情感分析资源

跨领域情感分析的资源包括两部分:数据集和情感词典。前者分为训练集和测试集,用来进行跨领域分类器的训练和分类器准确率的测试;后者用于分类器的学习,提供基础的情感词极性,增强分类器的准确率。本文对近几年跨领域情感分析任务的资源及自动生成方法进行了总结,如表3所示。

表3 资源自动生成

4.1 主要数据集

对于跨领域目标抽取主要的数据集有Liu 等[22]提供的数据集,可以从研究者的个人主页获得[23]。其中:亚马逊产品评论数据集目前已经扩充到9个产品超过580万条产品评论,包括评论内容、评论目标、产品信息等内容;比较数据集,包括5个领域的产品评论,评论的内容以对比两个产品的好坏为主。

跨领域目标抽取数据集需要对多个领域的大量评论进行人工标注,判断每条评论中用户评价的对象,即目标。并且在评价对象中存在大量的不明显对象,即该评价对象的词项并没有出现在整条产品评论中。对于跨领域情感分类主要的数据集有Blitzer使用的亚马逊产品评论数据集[24],其中包括22个不同产品类型的超过34万条评论,每条评论均标注了它的极性。与跨领域目标抽取数据集相比,跨领域情感分类数据集更容易构造,因为存在大量可以用以明确判定一条用户评论情感极性的信息。

Whitehead等[15]提出了一种使用启发式规则自动建立用于进行跨领域情感分类的数据集的方法。首先用网络爬虫在多个网站下载评论数据,包含用户评论和用户对目标的打分,一般打分为5个等级或0~5分。使用阈值对每条评论进行情感标签标注,打分大于3.5分的用户评论表达积极情感,否则表达消极情感。并由此生成了9个领域的数据集。

4.2 情感词典的自动生成

在跨领域情感分类任务中,情感词典是重要的资源。它提供在未加标签的数据集中每个单词普遍情况下的情感极性,一般为领域独立单词的极性。目前已有的情感词典如SentiWordNet,Inquirer 等。研究者也在考虑如何自动生成情感词典。词典自动生成方法可以分为人工方法,基于词典的方法与基于语料库的方法。这里简单介绍后两种方法。

4.2.1 基于词典的方法

Hassan[21]在2010年提出使用在单词相似度图上利用马尔可夫随机游走的方法来判断一个给定单词的情感,进而生成全部单词的情感词典。单词相似度图可以简单地使用WordNet等同义词词典生成。首先,使用WordNet 同义词词典中的同义词建立单词相似度图。在建立好的单词相似度图上使用平均命中次数h(i|S)来度量从节点i到节点集合(单词集合)S的距离,这个距离反应单词的极性。平均命中次数利用随机游走来计算,计算从状态i不属于S到第一次进入状态i属于S的平均游走次数。给定一个积极词汇种子集合S+,和一个消极词汇种子集合S-,为了评估一个给定的单词w的情感极性,需要计算平均命中次数h(i|S+)和h(i|S-)。如果h(i|S+)的值大于h(i|S-)的值,则认为给定的单词为积极词汇;如果h(i|S+)的值小于h(i|S-)的值,则认为给定的单词为消极词汇。

2011年,Hassan等[25]提出了寻找外文单词情感极性的方法。首先建立一个双语的单词网络图,包含3种单词对的关系:英文单词-英文单词,英文单词-外文单词,外文单词-外文单词。对于英文单词-英文单词的网络,使用WordNet同义词词典进行单词的连接。对于外文单词-外文单词的网络,使用类似的方法,只不过利用其他语言中与WordNet相似的词典。对于英文单词-外文单词的网络,度量外文单词与英文单词在英文词典中的释义的相似度。该方法类似于Hassan 2010年提出的随机游走方法,只不过把它应用到另一个环境中。利用人工标注的测试集在英语、阿拉伯语和印度语之间进行测试,其平均准确率在 85%左右。

Velikovich等[26]提出一种使用网络构建情感词词典的方法。该算法基于一个在语句相似图上的图传播算法,其输入为积极情感语句种子集合和消极情感语句种子集合。语句图中的每个顶点为一个候选语句,候选语句由将40 亿个页面中的语句按照一元组、二元组直到十元组组合而形成。利用启发式规则,即候选语句的频率和单词间的互信息等,选择这些候选语句中的200万个,为每个候选语句建立边,边由在所有40亿个网页中在一个窗口大小下与该单词共现的单词组成,边的权重定义为对应的两个顶点的余弦相似度,如果一条边(vi,vj)中的两个顶点都没有关联到权重最大的25条边上,则删除该边。最后使用图传播算法计算每个语句的情感,形成情感词典。

4.2.2 基于语料库的方法

基于语料库的情感词典自动生成方法更类似于跨领域情感分类,不过它是从单词的角度进行情感分类。其目的是通过不同领域的语料库,使源领域的情感词典应用于目标领域中,找到的词项也更多的是领域依赖情感词。

Du等[27]研究情感词典从一个领域应用到另一个领域时的适应性问题。提出了两个假设:第一,如果一个文档含有许多积极(或消极)词项,那么它很可能是一个表达积极(或消极)情感的文档。如果一个词项出现在许多表达积极(或消极)情感的文档中,那么它很可能是一个积极(或消极)词项。该规则类似于使用二项图对文档和词项进行聚类。第二,尽管源领域和目标领域可能服从不同的分布,但仍然可以识别两个领域中共同的部分,例如两个领域中相同的词项拥有相同的极性。需要指出的是,这个假设并不总能成立。

5 结束语

跨领域情感分析是情感分析的子领域,主要包括跨领域目标抽取和跨领域情感分类两个任务。在跨领域目标抽取任务中,可分为监督学习算法和无监督学习算法。前者需要找到两个领域之间的关联,训练出同时适应于两个领域的分类器,但目前准确率仍然偏低;后者偏向于找到独立于多个领域的特征,依赖这些特征进行目标抽取,达到同时适应于多个领域的目的。在跨领域情感分类任务中,研究者主要在寻找能够从源领域迁移到目标领域的媒介。近些年研究者使用领域独立情感词、情感敏感词典、高层概念、文档的情感主题等多种策略进行跨领域情感分类,得到领域适应分类器。同时,有些研究者从数据的角度出发,通过寻找和目标领域数据集分布最相近的源领域数据集的方法,解决源领域与目标领域特征分布不同的问题。目前存在大量进行跨领域情感分析的数据集和情感词典,一些研究者也在考虑如何自动扩充某一给定领域的情感词典及自动生成不同领域的情感分类数据集。

目前跨领域情感分析的准确率仍然较低,在使用更好的机器学习算法进行目标抽取和情感分类的同时,更应该根据情感分析问题本身,找到该问题的主要特征,进行跨领域情感分析研究。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!