当前位置:首页 期刊杂志

嵌入常识的混合注意力LSTM用于主题情感分析

时间:2024-05-04

任晓奎 郭 娟 陶志勇

1(辽宁工程技术大学电子与信息工程学院 辽宁 葫芦岛 125105)2(阜新力兴科技有限责任公司 辽宁 葫芦岛 125100)

0 引 言

情感分析[1]在博客、微博、在线社区、维基百科等在线平台上处理数据已成为一个研究热点。其中,主题情感分析扩展了其典型框架设置,即极性与特定主题(或产品特性)而不是整个文本单元相关联来聚集情感分析。

深度学习模型[2]在没有人工标注的特征工程[3-4]前提下,应用于特定主题情感分析时,准确率很高,特别是神经序列模型,但传统的神经序列模型如长短时记忆网络以一种隐式的方式捕捉上下文信息[7],而不能明确显示某一主题的线索。此外,现有的研究在有效地融入深层神经网络的外部知识(如情感或常识知识)方面存在不足,情感常识的引入可以访问有限的训练数据中没有的外部信息。这些知识可以有效地帮助识别情感极性。

自Pang等[8]提出有关情感分析的工作之后,情感分析发展为基于传统的方法和基于深度学习的方法。随着Hinton等[9]提出深度学习之后,越来越多的学习任务被应用到自然语言处理中。然而,神经网络模型在处理主题级情感分类主题还处于起步阶段,代表性的方法有Kiritchenko[11]等基于特征的支持向量机和Dong[12]等研究的神经网络模型。最近,目标依赖情感的分类可以从考虑目标信息中获益,如Tang[4]等研究的目标依赖LSTM(TD-LSTM)和目标连接LSTM(TC-LSTM)。然而,这些模型只能考虑给定目标,而不能考虑主题信息。

本文探讨了主题情感分类中主题与情感极性的潜在关联。为了捕获针对给定主题的重要信息,设计了一种基于全局注意力和位置注意力的混合注意力LSTM,并在基准数据集[8]上评估所提出的方法,经验证该方法是有效的。

1 相关工作

1.1 特定主题情感分析

特定主题情感分类是一种细粒度情感分类任务,目标是对于给定的句子和句子中出现的主题,推测句子对于主题的情感极性[13]。早期关于主题情感分析的论文主要依靠特征工程来描述句子。在表征学习深度学习的成功激励下,Lakkaraju等[14]利用深度神经网络生成句子嵌入(句子的密集向量表示),然后作为低维特征向量反馈给分类器。情感极性如Positive、Negative和Neutral。例如,“这个标准间的床很宽敞,但是通风效果很差!”对于主题“床”是Positive,而对于主题“通风效果”的极性是Negative。此外,通过注意力机制可以增强表达,对于句子中的每个单词,注意力向量都量化了它的情感显著性以及与给定主题的相关性。

1.2 长短时记忆网络

LSTM是由Hochreiter和Schmidhuber[5]首次提出的,用来解决RNN面临的梯度消失和爆炸问题。典型的LSTM单元包含三个门:遗忘门、输入门和输出门。这些门决定了在当前时间步骤中流入和流出的信息。LSTM单元状态数学表示如下:

fi=σ(Wf[xi,hi-1]+bf)

(1)

Ii=σ(WI[xi,hi-1]+bI)

(2)

(3)

(4)

oi=σ(Wo[xi,hi-1]+bo)

(5)

hi=oi×tanh(Ci)

(6)

fi、Ii、oi分别表示遗忘门、输入门和输出门;Wf、WI、Wo、bf、bI、bo代表每个门的权重矩阵和偏置量。Ci为单元状态,hi为隐藏输出。单个LSTM通常只从一个方向对序列进行编码。然而,两个LSTM也可以堆叠起来作为双向使用编码器,简称双向LSTM。对于一个句子s={w1,w2,…,wL},双向LSTM产生一系列隐藏的输出,如式(7)所示:

(7)

式中:H的每个元素都是前向和后向LSTM单元对应的隐藏输出的连接。

1.3 情感常识知识库

情感常识知识库[15-16]通常被作为特征的外部来源。神经序列模型[17]利用知识概念的低维度连续表示作为附加输入。情感常识知识库,如AffectNet[18],包含了与一组丰富的情感属性相关的概念,这些情感属性不仅提供了概念层面的特征,而且还提供了指向各个主题及其情感极性的语义链接。摘要“情感网”是一种基于词汇的情感知识库,它是由带有情感极性注释的词义同步构成的。情感网络既不包含常识性概念,也不包含情感性属性,这是情感空间的主要特征。因此,必须使用随机初始化的嵌入来表示敏感词网络同步集。与AffectiveSpace一样,字同步集映射到相同的100维嵌入。借助词义消歧工具,将句子中的每个单词映射到其词义。

2 融合常识知识库的混合注意力LSTM模型

本节详细描述了提出的基于混合注意力的神经体系结构:首先提出了特定主题情感分析的任务定义;接着,描述了全局注意力模型和位置注意力模型;最后介绍了嵌入LSTM单元的知识嵌入扩展流程。

2.1 任务定义

给出一个句子s={w1,w2,…,wi,wm}由m个词组成的句子和出现在句子s中一个主题词wi,特定主题情感分析旨在确定句子s对wi的情感极性。在处理文本语料库时,将每个单词映射为一个低维的连续实值向量,也称为词嵌入[19]。所有的词向量堆叠在一个词嵌入矩阵L∈Rd×|V|中,其中d为词向量的维数,|V|为词汇量的大小。wi的嵌入词被标记为ei∈Rd×1,它是嵌入矩阵L中的一列。

2.2 词向量输入层

句子s={w1,w2,…,wi,…,wn},主题词wi,将每个词映射到它的嵌入向量,这些词向量被分成两部分:特定主题表示和上下文内容表示。图1说明了神经结构是如何工作的。给定一个句子s,首先执行查找操作,将输入的单词转换为词嵌入。基于LSTM的序列编码器,将词嵌入转换为隐藏输出序列。注意力组件构建在隐藏输出之上。注意力层包含一个全局注意力和位置注意力,通过两次注意力层从外部存储器m中自适应地选择权重突出的单词,最后将输出的向量作为句子的主题表示,进一步作为主题级情感分析的特征。

图1 融合外部常识库的混合注意力LSTM模型

2.3 全局注意力

本文使用混合注意力模型来计算一个句子关于一个主题的表示。语境词对句子语义的贡献并不相等。此外,如果关注不同的主题,一个词的重要性应该是不同的。这里再次以“这个标准间的床很宽敞,但是通风效果很差!”为例。对于主题“床”,语境词“宽敞”比“差”更重要。相反,对于主题“通风效果”而言,“差”比“宽敞t”更重要。

注意力模型以外部存储器m∈Rd×k和主题向量vaspect∈Rd×1作为输入,输出连续向量vec∈Rd×1。输出向量是m中每一记忆内存的加权和,即:

(8)

gi=tanh(Watt[mi;vaspect]+batt)

(9)

然后获得{g1,g2,…,gk},我们将它们输入softmax函数来计算最终的重要度分数{α1,α2,…,αk}。

(10)

这种注意力模型有两个优点:该模型可以根据每个内存mi片段与主题的语义相关性,为其自适应地分配一个注意力权重;这种注意力模型很容易与其他组件一起以端到端方式进行训练。

2.4 位置注意力

从直觉上讲,一个离主题更近的上下文词应该比一个更远的词更重要。所以将语境词的位置定义为它与原句序列中的相位的绝对距离。在此基础上,研究了在注意力模型中对位置信息进行编码的一种策略。详情如下:

根据Sukhbaatar等[20],计算内存记忆向量mi:

mi=ei⊗vi

(11)

式中:⊗代表元素的相乘,vi∈Rd×1是一个单词wi的位置向量,vi中的每个元素计算如下:

(12)

式中:n是句子的长度,k是层的数目,li是wi的位置。

这种注意力模型有效地结合了位置信息,使主题词wi的位置向量有更加精确的抽象表示,所研究的位置信息编码方法仍有进一步提高准确性的空间。

2.5 常识知识库的嵌入

为了提高情感分类的准确性,将常识知识作为知识来源嵌入到序列编码器中。将Ma[18]等提出的AffectNet的概念映射到连续的低维嵌入,同时不丢失原始空间中的语义和情感关联。基于这种新的概念空间,本文将概念混合的信息嵌入到深度神经序列模型中,以更好地对句子的特定主题情感进行分类。AffectNet的目标是赋予这些概念两个重要的角色:(1) 协助过滤从一个时间步骤到下一个时间步骤的信息和(2) 提供补充的信息给记忆单元。在每次步骤i中,假设可以触发一组知识概念候选对象并将其映射到dc维空间。K概念的集合为{μi,1,μi,2,…,μi,K}。将候选嵌入合并到单个向量中,如公式所示:

(13)

例如表1所示,“Rotten fish”这一概念具有食物种类属性——食品可以直接与餐厅或食品质量等主题相关,而“joy”等属性对情感极性的划分具有正向作用。

表1 AffectNet 断定的实例

2.6 模型训练

我们将上一层中的输出向量作为特征,并将其提供给softmax层,以进行主题情感分类。该模型通过最小化情感分类的交叉熵误差进行监督训练,其损失函数如下所示,其中T表示所有训练实例,C为情感类别集合,(s;a)表示句子主题。

(14)

3 实 验

3.1 数据集

为了验证该模型的有效性,实验基于中文情感挖掘的酒店评论语料(ChnSentiCorp),ChnSentiCorp是中科院谭松波博士收集整理的一个酒店评论的语料,其公布的语料规模为10 000篇,被分为4个子集,本文选用ChnSentiCorp-Htl-ba-6000数据来进行实验,其为平衡语料,正负类各3 000篇。评价指标是分类准确率。数据集的统计样例如表2所示。

表2 数据集的统计样例

3.2 词向量训练

本文选用维基百科的中文语料作为训练的语料库,利用Google开源的word2vec tool来进行词向量的训练,然后对语料库进行预处理,并以此作为本模型的输入层。本文采用的word2vec tool的skip-gram模型,上下文窗口大小设置为5,词向量维度大小设为50,采样值大小设为1e-3,如果有词语不在预训练好的词向量中的话,则采用随机初始化方式来进行表示。

3.3 超参数设置与训练

本文提出的方案建模过程主要采用Tensorflow深度学习框架。基于长短期记忆网络和混合注意力模型的方法进行情感分析的实现方案在前文已经有了介绍。模型构建采用的是Tensorflow的序列模型框架,首先添加Embedding层作为模型的输入,其次添加LSTM模型,并在LSTM的模型后添加混合注意力机制层,在得到句子的向量表示时对评论文本中不同的词赋予不同的权值,然后由这些不同权值的词向量加权得到句子的向量表示。之后采用sigmoid函数对文本进行分类。另外,在模型训练过程中,采用dropout以防止过拟合。最后,编译过程采用梯度下降算法进行权重的更新迭代。

3.4 实验对比

将本文提出的融合常识知识库的混合注意力长短时记忆网络(LSTM)主题情感分析模型与以下方法进行对比:

1) LSTM。基准LSTM模型不能获取到特定主题信息,尽管主题不同,但是得到的情感极性一致。

2) TD-LSTM[4]。使用前向和后向LSTM方法在主题词之前和之后提取信息。但是由于没有在TD-LSTM模型中应用注意力机制,并不能够获取文本中对于给定主题的重要词信息。

3) TC-LSTM[21]。改进了TD-LSTM模型。TC-LSTM模型[20]在原来TD-LSTM的基础上,将主题向量引入一个句子的特征表示。能够更好地利用主题词和文本中每个词,将其连接组成一个文本的特征表示。

4) ATAE-LSTM[3]。AE-LSTM中使用主题信息的方式让主题词向量在注意力权重中起到了重要的作用。Wang提出的ATAE-LSTM模型,将主题词向量连接到每个单词的输入向量。

5) AE-ATT-LSTM[21]。将融合主题特征的深层注意力LSTM模型应用到特定主题情感分类任务上。通过共享权重的双向LSTM将主题词向量和文本词向量进行训练,得到主题特征和文本特征融合,经过深层注意力机制在得到相应分类结果。

3.5 实验结果与分析

本文采用嵌入外部常识的混合注意力LSTM方法在ChnSentiCorp-Htl-ba-600数据集上进行模型训练和交叉验证,得到的结果如表3所示。

表3 各模型实验结果对比

其中Three-way是数据集中的三种情感极性(Positive,Negative, Neutral)和两种情感极性(Positive,Negative)的分类准确率结果。本文所采用的方法较之其他模型得到了提高,因此可以得出,特定主题下嵌入外部常识知识库和混合注意力机制的引入,提高了分类准确率。

4 结 语

针对特定主题情感分类任务中,大多数方法对注意力机制的引用没有综合考虑位置影响,所以分类效果不准确。通过采用全局注意力和位置注意力的混合注意力机制来改进长短时记忆网络LSTM,该方法能够准确捕捉上下文信息。同时将有关情感概念的知识常识库融合到深度神经网络端到端的情感分类训练中,使分类更加准确。通过在数据集上不同的对比实验表明,该方法在准确率上有了进一步的提升,从而能更好地解决特定主题情感分析任务。在未来的研究中,将句子结构和词性(比如解析结果)整合到深层记忆网络中进行改进,是下一步研究的重点。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!