当前位置:首页 期刊杂志

基于多模态方面术语提取和方面级情感分类的统一框架

时间:2024-05-04

周 如 朱浩泽 郭文雅 于胜龙 张 莹

(南开大学计算机学院 天津 300350)(zhouru@mail.nankai.edu.cn)

随着互联网的发展,社交媒体平台成为人们发表言论和观点的主要阵地,高效地识别用户对重要组织、重要人物、商品等实体及其方面①方面指的是实体或实体的属性.的情感对平台治理用户的不当言论、建模用户偏好以实现精准的个性化推荐有重要的实用意义.同时也有助于监控消费者行为、评估产品质量、监控舆情、调研市场等.

不同于句子级情感分析任务为整个句子预测情感,方面术语提取和方面级情感分类(aspect-term extraction and aspect-level sentiment classification, AESC)任务的目标是抽取句子中的方面-情感对.方面术语提取(aspect-term extraction, AE)提取句子中包含的方面术语,方面级情感分类(aspect-level sentiment classification, ALSC)预测用户对给定方面的情感.比如来自Twitter 的一条评论:“I love animals , so nice to see them getting along ! Here are our dogs , Greek and Salem ,laying together”,提取出的方面-情感对为〈“Greek”,正面〉〈“Salem”,正面〉,即句子中包含方面“Greek”和“Salem”,表述者对它们的情感都是正面的.

在文本领域中,已有研究[1-3]实现了方面-情感对提取方法,并应用于商品评论数据的情感分析.然而在Twitter,Instagram 等社交媒体平台上,人们习惯发表短小且口语化的文字并配以图片,相关研究指出,文本单模态的模型在此类用户数据上表现并不好[4-6].考虑图片非仅仅依靠文本来分析用户发表的观点是时代的趋势,因此在多模态领域实现方面术语提取和方面级情感分类将具有一定的实用价值和现实意义.

在多模态领域,Zhang 等人[7]和Yu 等人[8]分别研究了方面术语抽取和方面级情感分类.通过实体识别技术提取句子中包含的方面术语,接着将提取的方面术语和句子输入到方面级情感分类模型进行情感预测,可通过这种流水线方式实现方面-情感对的提取.然而,目前的这种方法存在不足之处:首先,使用2 个完全独立的模型分步实现方面-情感对的提取,使得建模特征的语义深度不同且不关联,忽略了2 个任务之间潜在的语义关联,当句子中包含多个方面时,情感分类模型可能会混淆它们之间的上下文信息而造成预测失误;其次,方面术语提取模型一次提取句子中的多个方面术语,而情感分析模型一次只能预测一个方面的情感,前者的吞吐量大于后者,且情感分析必须在方面术语提取完成后进行,降低了方面-情感对的抽取效率.

针对以上问题,本文提出了一个同时进行方面术语提取和方面级情感分类的统一框架UMAS.该统一框架包含3 个模块:共享特征模块、方面术语提取模块、情感分类模块.首先,该统一框架使用共享特征的方式表示方面术语提取和情感分类2 个子任务的底层文本和图像特征,在学习的过程中建立2 个子任务之间的语义联系.相比于之前的方面术语提取模型和方面级情感分类模型使用不同的网络编码文本和图像的特征,本文所提出的特征共享的方法简化了模型.其次,采用序列标注的方式,同时输出句子中包含的多个方面和对应的情感,方面术语提取模块和情感分类模块可并行执行,大大提升了方面-情感对提取的效率.

此外,既往多模态方面术语提取方法[7,9-10]未能充分利用文本的语法信息,而方面级情感分析方法[8,11]由于缺乏观点词的标注而未能通过观点信息更好地判断情感倾向.为提升2 个子任务的性能,本文使用词性标注工具spaCy[11]获取单词的词性,对2 个子任务做如下改进:在方面术语提取模块中,使用多头自注意力机制获取词性特征,融合视觉特征、文本特征、词性特征作为分类层的输入,提升了方面术语提取的性能;在情感分类模块,为充分发挥观点词对情感分类的作用,通过词性标注将动词、形容词、副词、介词标记为观点词,在情感分类中增加对这些观点词的注意权重,并将观点词特征融入到最后的分类层以提升情感分类的性能.本文提出的方法与多个基线模型相比,在方面术语提取、方面级情感分类、AESC 任务上的性能都有明显的提升.

本文的主要贡献有3 个方面:

1) 在多模态领域提出方面术语提取和方面级情感分类的统一框架UMAS (unified multi-modal aspect sentiment),通过建模方面术语提取和方面级情感分类任务之间的语义关联,同时提高了方面-情感对提取的性能和效率.

2) 本文通过引入词性特征提升了方面术语提取的性能;通过词性标注获取观点词特征并结合位置信息,提升了方面级情感分类的性能.

3) 该统一框架在Twitter2015,Restaurant2014 这2 个基准数据集上相比于多个基线模型在方面术语提取、方面级情感分类、AESC 任务上都具有优越的性能.

1 相关工作

目前,文本领域的基于方面的情感分析研究发展的比较成熟,现有研究[12-18]在Restaurant,Laptop,Twitter 等数据集上,根据提供的方面术语预测情感类别;Ying 等人[19]根据方面术语提取对应的观点并判断情感倾向;Oh 等人[20]、Chen 等人[21]、Xu 等人[22]则使用多任务模型将方面术语提取、观点词提取、情感分类3 个任务统一.其中,Chen 等人[21]详细阐述了3 个任务之间的关系,并在多层的网络模型RACL中通过关系传导机制促进子任务之间的协作,最终以序列标注的方式分别输出3 个任务的结果.RACL将3 个任务的关系总结如下:方面术语和观点词存在对应关系(比如“美味”一词不适合描述地点),方面术语和观点词的配对有助于预测情感,观点词对情感预测有最直接的帮助,方面术语是情感依托的对象.文本领域的方面术语提取方法更关注文本的语法信息,Phan 等人[23]和薛芳等人[24]借助句法成分、依存关系提升方面术语提取的性能.在情感分类中,Chen 等人[21]、He 等人[25]利用观点词的信息提升了情感推断的准确性,He 等人[25]还利用了位置信息使注意力集中在方面的上下文.文本领域基于方面的情感分析的研究,对多模态基于方面的情感分析的研究有重要的启发式意义.

在多模态领域,可使用Zhang 等人[7]提出的方面术语抽取模型和Yu 等人[8]提出的方面级情感分类模型流水线式地抽取方面-情感对.尽管流水线方法符合人们处理此类问题的直觉且有利于灵活变动2个模型,但Wang 等人[26]指出该方法在方面术语提取中的错误将传播到情感预测阶段,导致方面-情感对预测性能下降.方面术语提取和方面级情感分类2 个模型的独立无法像RACL 一样建模2 个任务之间的语义联系,且串行执行使得模型效率低下.多模态方面术语提取方法[7,9-10]充分关注了图像对提取方面术语的帮助,并且使用门控机制降低图像引入的噪音,但忽视了文本中包含的语法信息.在文本领域的方面级情感分类中,多种方法[19-21]利用观点词提取作为辅助任务提升情感分类的效果,然而多模态方面级情感分类的数据集主要是Twitter,目前数据集中包含的信息包括句子、图片、方面、情感等的标准,但是未有观点词的标注信息,所以多模态领域中以观点词提取为辅助任务的方法不存在监督信息,难以开展.此外,目前多模态方面级情感分类模型如EASFN[8],ABAFN[12],以句子、图像、方面术语为输入,一次只能识别一个方面的情感,而文本领域采用序列标注的方法可同时识别句子中所有方面的情感.

2 基于多模态方面术语提取和方面级情感分类的统一框架

本节主要介绍任务定义,并详细阐述本文所提出的基于多模态方面术语提取和方面级情感分类的统一框架.

2.1 任务定义

给定长度为n的句子,即S={w1,w2,…,wn},方面术语提取任务的目的是获取句子的方面术语标注序列YA={yA1,yA2,…,yAi,…,yAn},yAi∈{B,I,O},其 中B 表示方面术语的开始单词,I 表示方面术语的中间单词及结尾单词,O 表示不是方面术语.而方面级情感分类任务的目的是获取句子的情感标注序列YS=∈{0,1,2,3},其中0表示该单词不是方面术语,不被赋予情感,1 表示情感为负面,2 表示情感中立,3 表示情感为正面.方面术语提取和方面级情感分类的目的是抽取句子中包含的方面-情 感 对, 即YP={as1,ae1,s1,…,asi,aei,si,…,asm,aem,sm},其中asi,aei,si分别为第i个方面术语的起始位置、终止位置和对应的情感类别.

2.2 模型概述

本文设计的方面术语提取和方面级情感分类的统一框架主要分为3 个模块:共享特征模块、方面术语提取模块和情感分类模块,模型图如图1 所示.

Fig.1 Framework of our proposed model图1 本文模型框架

在共享特征模块,使用VGG-16 模型[27]获取图片特征表示,通过双向长短期记忆网络(bi-long shortterm memory,BiLSTM)获取单词和字符的联合特征表示,通过多头自注意力机制[28]获取词性特征表示.方面术语提取模块和情感分类模块以共享特征为输入,编码出特定于各自任务的私有特征.在方面术语提取模块,通过文本和图像的交互注意力以及门控机制获取多模态表示,并与文本及词性特征拼接,作为方面术语提取模块最终的融合特征,最后通过条件随机场(conditional random fields,CRF)层获取方面术语序列标注.情感分类模块将共享特征和特有特征融合,获取情感特征和观点词特征.通过门控机制融合由情感特征引导的视觉注意特征和情感特征以获得多模态特征,并通过情感文本注意、位置信息和词性获得观点词特征,然后,将多模态特征和情感特征以及观点词特征融合,通过全连接层及softmax 层获得情感序列标注.在获得方面术语序列标签和情感序列标签后,通过简单的代码提取方面-情感对,实现AESC 任务的目标.图2 是本文所提出的基于多模态方面术语提取和方面级情感分类的统一框架.

Fig.2 Unified framework based on multimodal aspect term extraction and aspect-level sentiment classification图2 基于多模态方面术语提取和方面级情感分类的统一框架

本文提出的方面术语提取和方面级情感分类的统一框架借鉴了多任务学习的思路,即通过参数共享建模2 个子任务的语义联系,提升每个子任务的性能,并使用子任务的加权损失作为模型的损失.但多任务模型通常有多个主要目标,而本文所提出的模型的主要目标只有1 个,即抽取方面-情感对.

2.3 共享特征模块

共享特征模块的图像特征、文本特征、词性特征分别由图像编码器、文本编码器、词性编码器生成.

2.3.1 图像编码器

裁剪图片为224×224 像素,作为VGG-Net16[27]的输入,图像编码器保留最后1 层池化层输出结果作为图像特征(维度为512×7×7).其中,7×7 代表图像的49 个区域,512 表示每个区域的特征维度.所以图像 特 征 可 表 示 为={vi|vi∈Rdv,i=1,2,…,49},vi代 表图像区域i的具有512 维度的特征向量.

2.3.2 文本编码器

字符级的嵌入式表示可以减轻罕见词和拼写错误的问题,且能捕获前缀后缀的信息,因此,本文将字符级表示作为单词表示的一部分.通过查找字符向量表,可以获取第t个单词的字符表示ct,W={ct,1,ct,2,…,ct,m} , 其中ct,i∈Rdc为第t个单词第i个字母的向量表示,m为单词的长度.k个不同窗口大小的卷积核 [C1,C2,…,Ck]被应用在单词特征上,每一次卷积后加一步最大池化操作,最后将获得的k个特征w′t,1,w′t,2,…,w′t,k拼接在一起作为单词的字符级表示,即

通过查询预训练的词向量矩阵,可获得单词t的词嵌入式表示w′t′,将其与字符特征w′t拼接在一起作为单词t的联合表示,即wt=[w′t,w′t′].接着,使用BiLSTM获取包含上下文信息的单词t的隐藏特征ht,即

其中H表示最终的共享文本特征,d为隐藏特征的向量维度.

2.3.3 词性编码器

Phan 等人[23]使用句法成分信息提升了方面术语提取的准确率,本文同样也使用spaCy 工具获取单词的词性.根据随机初始化的词性向量矩阵,可获得句子的词性特征(n为句子长度).然后,本文使用文献[27]中的多头自注意力机制进一步获取深层次的词性嵌入式特征P.

本文提出的模型中共有2 个结构相同的文本编码器,分别为共享文本编码器和情感模块的私有文本编码器.方面术语提取模块和情感分类模块共享图像编码器、词性编码器、共享文本编码器的输出数据.

2.4 方面术语提取模块

方面术语提取模块通过文本注意和视觉注意建模不同模态之间的语义交互作用,使用门控机制获取多模态融合特征,并使用过滤门减少多模态引入的噪音,最后将多模态融合特征、文本特征、词性特征拼接作为CRF 解码器的输入,获得方面术语标注序列.

首先,使用线性层分别将图像特征映射到与文本同维度的空间,将共享文本特征编码为方面术语提取模块的私有文本特征,即

其中WIA,WHA,bAI,bAH为可训练参数.

通常情况下,句子中的单词只对应图像中的一小块区域,为减小图像其他区域引入的噪音,该模块使用文本引导的视觉注意来获取不同区域的权重,图像区域与单词越相关,它被赋予的权重越大.给定一 个 单 词 的 特 征xAt(xAt∈XA),通 过 神 经 网 络 和softmax 函数来生成单词t对应的图像权重分布 αt,并通过加权和生成单词t对应的图像特征表示,即

其中∈Rd,d为单词和图像特征的维度,∈Rd×N表示N个图片区域的特征,∈Rd表示图片第i个区域的特征.为可训练的参数.符号⊕表示2 个特征的拼接,当2 个操作数分别为矩阵和向量时,表示复制多个向量与矩阵的每一列进行拼接.

类似地,上下文有助于丰富当前单词特征包含的信息,且对上下文不同的单词应当有不同的关注程度,所以本文通过视觉引导的文本注意力来获取单词t所需关注的上下文的权重 βt,通过对句子中单词的加权获得单词t的新的特征表示.

当句子中包含多个实体时,往往并不是每个实体都存在与图像中的某个区域对应的关系,可能图片中描述了一个实体,而句子中有3 个不同的实体.为此,在融合多模态特征时,也需动态权衡视觉特征和文本特征的比例.方面术语提取模块使用式(12)~(15)获取多模态融合特征:

尽管多模态融合特征考虑了文本和图像的权重,但方面术语提取所依赖的最重要的数据应该是文本,所以方面术语提取模块将初始的文本特征、多模态特征和词性特征拼接起来作为解码器的输入.此外,当预测的单词是动词或副词时,加入图像特征会引起噪音,所以在拼接之前,对多模态特征进行过滤操作,具体公式为:

最后,方面术语提取模块使用CRF 作为解码器进行方面术语的序列标注.以X={w0,w1,...,wT}作为一般化的输入序列,其中wi表示第i个单词的特征向量,Y={Y0,y1,...,yT}表示X对应的一种序列标签,Y表示所有可能的序列标注集合.对于给定的X,所有可能的y可以由式(20)计算得到:

其中 Ω表示可能性函数.

2.5 情感分类模块

情感分类模块可以分为4 个部分:情感私有特征、多模态融合、观点词特征、情感分类.

2.5.1 情感私有特征

由于方面术语提取和情感分类的目标不一致,使用完全的共享特征机制会使训练效果不好,同时共享特征包含的信息有助于在底层更好地表现2 个任务之间的语义联系,特别是方面作为情感的寄托者有助于情感的预测.所以,在情感分类模块,存在一个私有的文本编码器以获取特有的情感特征.接着,将共享表示层的文本特征和特有情感特征进行动态融合.考虑使用动态融合是因为更关注共享特征中的方面而非其他单词.该模块的情感私有特征表示XS由式(21)~(25)获取:

其中,fSC表示表示情感模块私有文本编码器的函数,S表示输入的句子,,WH,,,bH为参数.

2.5.2 多模态融合

用户在社交媒体发布的文字具有不完整、较短、口语化的特点,仅仅使用文本内容来推测情感是不充分的.因此,情感分类模块使用图像信息来提升预测的准确性.与方面术语提取模块一样,在判断单词t(假设单词t为方面术语)的情感时,需要着重关注图像中该方面对应的区域,应尽量减少其他区域引起的干扰,所以使用相同的方法为不同的视觉区域分配不同的权重.首先,将共享图像特征转换至与文本同一维度的空间内,然后使用情感引导的注意获取图像的权重分布 γt,最终加权获得单词t在情感分类模块对应的图像特征,运算公式为:

不同于方面术语提取模块对文本引入视觉注意的处理,在情感分类模块,为减少视觉特征引起的噪音,本文采用多头自注意的方式来获取单词t对上下文的关注,使某个位置的单词关注来自不同表示子空间的其他单词的特征.该模块多头自注意力的查询矩阵、键矩阵、值矩阵都为情感特征矩阵.最终多头自注意力输出的文本特征为

接着,同样通过门控机制获得情感特征和图像特征的多模态融合特征

2.5.3 观点词特征

由于人们表达情感是通过观点抒发的,即观点词有助于情感的判断,所以本文模块中使用词性标注识别的观点词信息帮助情感的预测,首先使用简单的神经网络编码得到观点词特征表示XO.

观点描述的短语通常由动词、副词、形容词、介词构成,比如“agree with”“run fast”“beautiful”等.在获取第t个单词的上下文时,应该给予这些单词更多的权重.此外,通常情况下,观点词会出现在描述对象的附近,因此,位置关系也可以被考虑.基于上述的分析,为获取单词t对应的观点信息,本文模块使用单词t(假设为方面术语)引导的注意,并考虑形容词、副词、动词和介词的权重以及位置权重,最终得到单词t对应的观点特征.

2.5.4 情感分类

将多模态融合特征、情感特征、观点特征融合,输入到分类层,得到最后的情感分类结果为:

其中Ws,bs为可训练参数.

2.6 模型训练

AESC 模块的损失函数是最小化交叉熵损失,实验的目标是最小化这2 个模块的加权损失,即

其中 α1,α2为超参,为2 个模块损失函数的权重.

2.7 方面-情感对提取

通过AESC模块,可分别获取句子的方面术语和情感标注序列,即YA={yA1,yA2,…,yAi,…,yAn},yAi∈{B,I,O}和YS={yS1,yS2,…,ySi,…,ySn},ySi∈{0,1,2,3}.为 了 实 现AESC 任务的目标,本文进行方面-情感对抽取,具体的算法如算法1 所示.

算法1.方面-情感对抽取.

输入:句子长度L,方面术语标注序列YA,情感标注序列YS;

输出:方面-情感对YP.

① 令YP=[],i=0;

② whilei<Ldo

③ ifYA[i]==B then

④ 令start=i,end=i;

⑤i+=1;

⑥ whilei<LandYA[i]==I do

⑦end=i;

⑧i+=1;

⑨ end while

⑩YP.append((start,end,YS[start]));

⑪ else

⑫i+=1;

⑬ end if

⑭ end while

3 实 验

3.1 数据集

为验证本文所提出的模型的有效性,本文使用了数据集Twitter2015[8]和Restaurant2014[20]进行实验.Twitter2015[8]是一个多模态数据集,其包含文本内容、图片、方面信息以及情感类别信息.Restaurant2014[20]属于文本领域的方面级情感分类数据集,其不包含图片信息.本文数据集的训练集、测试集以及验证集与来源保持一致.表1 和表2 分别是这2 个数据集的统计信息.

Table 1 Statistics of Twitter2015 Dataset表1 Twitter2015 数据集统计信息

Table 2 Statistics of Restaurant2014 Dataset表2 Restaurant2014 数据集统计信息

3.2 实现细节

为了初始化模型中的词嵌入式表示,本文使用了Zhang 等人[7]在3 000 万条推特上预训练好的GloVe[29]词嵌入式词典.词嵌入式表示的维度为200,不在词典内的单词被随机初始化,并服从-0.25~0.25的均匀分布.字符嵌入式表示、词性嵌入式表示的维度分别为30 和16,且随机初始化服从-0.25~0.25 的均匀分布.句子和单词最大的长度都取数据集中的最大值,不满足最大值的单词或句子采用填充的方式使所有单词或句子等长.BiLSTM 输出的隐藏向量维度为200,方面术语提取模块的私有特征维度为200,情感分类模块私有特征的维度为100.方面术语提取和情感分类2 个模块的损失权重分别为0.5 和0.5.训练过程中,周期(epoch)为50,批大小为20,优化器为Adam,学习率为0.001.

3.3 基线模型

在实验中用作对比的模型主要包括文本领域和多模态领域的模型.

3.3.1 文本领域

CMLA+TCap 和DECNN+TCap.CMLA[30]和DECNN[31]是方面术语提取任务中经典的模型,TCap[32]是方面级情感分类领先的方法,本文分别将2 个方面术语提取模型和1 个情感分类模型进行整合,形成2个流水线模型.

1)MNN[26].该模型是使用联合标注方法的方面术语提取和情感分类统一的模型.

2)E2E-AESC[33].该模型是使用联合标注方法,并以观点词提取为辅助任务的方面术语提取和情感分类统一的模型.

3)DOER[34].该模型是联合训练方面术语提取和情感分类的多任务统一框架.

4)RACL[21].是将方面术语提取、观点词提取、情感分类统一的多任务模型,该模型使用多层叠加的框架.

5)UMAS-Text.该模型是本文提出的方面术语提取和方面级情感分类的统一框架,它将模型中关于视觉特征处理的网络层去除,变成处理纯文本数据的模型.

3.3.2 多模态领域

1)VAM[9].VAM 使用视觉注意机制和门控机制的多模态方面术语提取模型.

2)ACN[7].ACN 使用文本注意机制、视觉注意机制和门控机制的多模态方面术语提取模型.

3)UMT[10].UMT 使 用Bert 预 训 练 模 型 表 征 文 本的多模态方面术语提取模型.

4)Res-RAM 和Res-MGAN.它们是2 个方面级情感分类模型.采用Hazarika 等人[35]提出的多模态融合方法将视觉特征和RAM[36]或MGAN[37]的文本特征融合,最后采用softmax 层分类.

5)Res-RAM-TFN 和Res-MGAN-TFN.它们是采用Zadeh 等人[5]提出的多模态融合方法将视觉特征和RAM 或MGAN 的文本特征融合进行方面级情感分类的模型.

6)MIMN[38].MIMN 是采用多跳记忆网络建模方面术语、文本和视觉之间交互关系的方面级情感分类模型,具有较高的性能.

7)EASFN[8].EASFN 是目前多模态领域最新的方面级情感分类模型.

8)ACN-ESAFN.ACN-ESAFN 是使用ACN[7]获取方面术语、ESAFN[8]获取方面级情感的流水线模型.

9)UMT-ESAFN.UMT-ESAFN 是 使 用UMT[10]获取方面术语、ESAFN[8]获取方面级情感的流水线模型.

10)UMAS-AE.UMAS-AE 是将本文提出的模型中的共享特征模块和方面术语提取模块组合成单任务的方面术语提取模型.

11)UMAS-SC.UMAS-SC 是将本文提出的模型中的共享特征模块和情感分类模块组合成单任务的方面级情感分类模型.

12)UMAS-Pipeline.UMAS-Pipeline 是 将 独 立 的UMAS-AE 和UMAS-SC 模型使用流水线方式合并而成的模型.

13)UMAS:UMAS 是本文提出的多模态方面术语提取和方面级情感分类的统一框架,由2 个模块共享浅层的特征表示.

3.4 评价指标

本文使用精确率(precision,P)、召回率(recall,R)、F1 评价方面术语提取模型的性能,以下简记为AE-P、AE-R、AE-F1;使用准确率(accuracy,ACC)、F1 评价情感分类的性能,简记为SC-ACC,SC-F1;使用F1 评价方面-情感对提取的性能,简记为AESC-F1,即当且仅当方面术语提取和情感预测同时正确时记为预测正确.

3.5 实验结果

3.5.1 与基线模型的对比

表3 报告了本文所提出的模型UMAS 在文本领域与现有方法的性能对比.在文本数据集Restaurant 2014 上,UMAS 的F1 在方面术语提取、情感分类2个子任务上相较于第2 优秀的模型RACL-GloVe 的F1 值分别提升了0.21 个百分点和1.9 个百分点,且方面-情感对的提取表现也是最好的.说明UMAS 在删除视觉处理的相关网络后,在文本领域也具有良好的表现.

Table 3 Performance Comparison of UMAS-Text and Existing Methods on Restaurant2014 Dataset表3 Restaurant2014 数据集上UMAS-Text与现有方法的性能对比 %

表4 和表5 报告了UMAS 在多模态领域与现有方法在方面术语提取和方面级情感分类2 个子任务上的性能对比.在多模态数据集Twitter2015 上,UMAS 与当前3 个方面术语提取模型相比,F1 值分别提升了21.78 个百分点、4.25 个百分点、0.15 个百分点,比使用BERT 预训练的方面术语提取模型UMT 略有优势.方面术语提取的P值比ACN 高了1.99 个百分点.然而R值比UMT 模型低了2.22 个百分点.这一定程度上体现了UMAS 相对于UMT 在识别方面时边界更加严格,提升了P值的同时损失了R值.在情感分类任务中,UMAS 的性能超过了所有的基线模型,比当前最新的模型ESAFN 的F1 值提高了5.97 个百分点、ACC提高了0.1 个百分点.

Table 4 Performance Comparison of AE on Twitter2015 Dataset表4 Twitter2015 数据集上AE 性能对比 %

Table 5 Performance Comparison of SC on Twitter2015 Dataset表5 Twitter2015 数据集上SC 性能对比 %

表6 报告了UMAS 和当前多模态流水线方法的性能对比.UMAS 在多模态数据集上提取方面-情感对的F1 值为58.05%,分别高于现有流水线方法2.49个百分点和1.16 个百分点,且时间效率是现有方法的16.3 倍和16 倍,体现了本文所提出的统一框架具有最优的性能.

Table 6 Performance Comparison of AESC on Twitter2015 Dataset表6 Twitter2015 数据集上AESC 性能对比

表7 报告了UMAS 和单任务模型的性能对比.结果表明,UMAS 相比于方面术语提取和情感分类单任务模型,性能都有一定的提升,F1 值分别提升了0.01 个百分点和2.55 个百分点,方面术语提取的ACC提升了2.79 个百分点,情感分类的ACC提升了2.22 个百分点.然而,UMAS 中方面术语提取的R值相对于单任务下降了2.7 个百分点,这可能是因为在UMAS 中方面的特征表示受到了情感模块的影响.此外,UMAS 的AESC 性能与2 个单任务串联的流水线模型对比,UMAS 对方面-情感对提取性能有1.29个百分点的提升.结果表明了底层的特征共享对2 个子任务的性能提升都有帮助,通过建立2 个任务之间的语义联系有利于提高方面-情感对提取的准确率.

Table 7 Comparison of Unified Model and Single-Task Model表7 统一框架和单任务模型的对比 %

结合表4、表5、表7,可以看出本文的方面术语提取单任务模型比ACN 的性能高了4.24 个百分点,验证了词性特征对方面术语提取的重要影响.相比于其他方面级情感分类,本文的单任务情感分类模型也有较大的改善,说明观点词和位置信息对情感分类有一定的帮助.

3.5.2 消融实验

首先介绍UMAS 的7 个变体模型.

1)UMAS-no_visual.删除视觉特征.

2)UMAS-no_POS_features.删除词性特征.

3)UMAS-no_opinion.删除情感分类模块中观点词特征.

4)UMAS-no_self_attention.删除情感分类模块中情感特征的自注意机制.

5)UMAS-no_gate_fusion.将情感分类模块中私有特征获取部分的门控融合机制改为直接拼接操作.

6)UMAS-special.只保留情感模块中私有特征部分中的特有情感特征,删除共享文本特征.

7)UMAS-share.只保留情感模块中私有特征部分中的共享文本特征,删除特有情感特征.

表8 报告了变体模型的性能.通过分别消除视觉特征、词性特征、观点特征、情感模块的自注意机制、情感模块私有特征的门控融合机制、情感模块的共享文本特征、情感模块的特有特征,验证了各个部分存在的作用.由于2 个模块之间存在参数的共享,所以一个模块的结构的变化不仅影响自身,而且影响另一个模块.表8 的第1 行和最后1 行的对比显示了视觉特征对方面术语提取和情感分类模块都有明显的性能提升,F1 值分别提升了2.45 个百分点和2.07个百分点.情感分类模块中的观点词特征将方面级情感分类的性能整体提升了2.61 个百分点.情感模块的自注意机制对该模块的性能有2.83 个百分点的提升.情感模块私有特征获取的门控融合机制,既考虑了方面对情感预测的影响,也考虑了情感特征本身的重要性,将情感分类的F1 提升了3.59 个百分点,AESC 性能提升了2.35 个百分点.根据表8 最后3 行的结果,可以看出在情感分类模块中的私有特征部分单独使用共享特征或特有特征的效果都不好,将这二者融合是最佳的选择.

Table 8 Results of Ablation Experiment表8 消融实验结果 %

3.5.3 补充实验

为了说明情感分类模块私有特征部分不同选择的不同效果,本节进行了相关的可视化分析.首先,情感分类模块的私有特征可以有3 种选择:情感模块私有文本编码器输出的特有情感表示、共享文本编码器输出的共享文本表示、特有情感表示和共享文本表示的融合特征.为了方便说明,将这3 种特征对应的模型记为UMAS-special,UMAS-share,UMAScombine.表9 说明了图3、图4 涉及的统计量的含义.

Table 9 Instruction of Statistics表9 统计量说明

Fig.3 Result comparison of different sentiment private features图3 不同情感私有特征的结果对比

Fig.4 Different representations contribute to sentiment classification图4 不同表示对情感分类的贡献

图3 显示了不同情感私有特征表示的结果.首先,在AE 模块,UMAS-combine 预测正确且UMASspecial 预测错误的数量为128,而UMAS-combine 预测错误且UMAS-special 预测正确的数量为99,说明UMAS-combine 对UMAS-special 的纠正能力要强于UMAS-special 对UMAS-combine 的纠正能力,即UMAScombine 模型的性能较优越.通过图3 中其他数据的对比分析,可以发现无论是对方面术语提取还是情感分类,UMAS-combine 的性能总是要强于UMASspecial 和UMAS-share.其次,在情感分类模块,UMASspecial 预测正确而UMAS-share 预测错误的数量为83,而UMAS-share 预测正确而UMAS-special 预测错误的数量为53,体现了特有情感特征和共享特征对情感模块性能的不同贡献.图4 展示了特有情感特征和共享特征对情感模块的不同贡献程度,特有情感特征的贡献约为60%,共享特征的贡献程度约为40%.

综上体现了将特有情感特征和共享文本特征进行动态融合的必要性,且特有情感特征对方面级情感分类的贡献比较突出.同时,也说明了方面术语提取和方面级情感分类2 个任务之间既有联系又有区别,既要考虑2 个任务之间的交互关系,又要充分考虑任务本身的特征.

4 总结与展望

为了解决目前AESC 任务流水线方法的不足,本文提出了多模态方面术语提取和方面级情感分类的统一框架UMAS.该统一框架使用3 个共享编码器,即文本、图像、词性编码器构建方面术语提取模块和情感分类模块底层的共享特征模块.该共享特征模块不仅使模型在训练过程中学习到2 个任务之间的语义联系,而且简化了模型.同时,该统一框架能并行地执行2 个子任务,同时输出句子中的多个方面及其对应的情感类别,解决了流水线方法效率低的问题.此外,本文通过词性标注获取单词的词性,并使用多头自注意机制获取词性特征,将视觉特征、文本特征、词性特征融合作为方面术语提取模块解码器的输入,提升了方面术语提取的性能.在情感分类模块,本文使用词性识别句子中的观点词,在情感分析中增加对这些观点词的注意权重并考虑位置信息以提升情感分类的性能.本文所提出的统一框架在Twitter2015和Restaurant2014 这2 个数据集上相比于其他基线模型都有良好的表现.

随着transformer,BERT 等技术的不断发展,在未来的研究中可以考虑将预训练技术加入到本文模型中以获得更好的特征表示.

作者贡献声明:周如提出了算法思路和撰写论文;朱浩泽提出了实验方案并负责完成实验;郭文雅、于胜龙、张莹提出指导意见并修改论文.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!