时间:2024-07-28
[张翠 周茂杰 杨志清]
在互联网高速发展的今天,网络中存在着数据庞大的非结构化数据,如何从这些非结构化数据提获取有用信息,是自然语言处理领域所面对的重大问题之一。信息抽取是要在大量的非结构化数据中提取出结构化的信息,是自然语言处理中一个重要组成部分,包括:实体抽取、关系抽取及事件抽取等方面。信息抽取方法得到的数据可以广泛应用于自动问答系统,知识图谱构建等方面。关系抽取用于识别出实体间存在的关系,现有的抽取方法包括模式匹配法、词典驱动法、机器学习法及混合抽取法等。传统的关系抽取通常是基于规则的方法,这类方法需要花大量的精力构建识别规则,且准确率较高,但是规则库不能覆盖所有的规则,所以存有召回率较低的问题。随着机器学习的发展,可以将信息抽取任务当作命名实体识别任务,利用机器学习方法,不需建立规则库,对于新规则可以通过学习获得其特征,取得较好的识别效果。
深度学习的方法在信息分类工作中取得了巨大成功,关系抽取任务可以定义为:在一段文本中包括两个或多个实体,根据给定的文本信息,准确判断出实体间存在的关系。有的抽取任务是根据文本定义出关系类型,再利用文本的信息进行分类,即关系分类。
基于深度学习的关系抽取由文本预处理、文本表示、模型学习3个部分组成。文本的预处理是关系抽取的基础,要在文本中提取出用于机器学习的特征,例如,文本的词信息,语法、句法信息等。文本表示需要将文本的特征转化成机器学习能识别的数字信息,如独热(One-hot)表示法、分布式表示方法等,独热(One-hot)表示法的数据具有稀疏性,且不能表示出文本的语义信息,分布式表示法可以利用Word2vec方法将独热(One-hot)表示数据变成稠密向量表示,且在向量中嵌入了文本的语义信息。数据的分类模型需要通过学习得到,常用的网络模型有递归神经网络、循环神经网络、卷积神经网络等,现有的研究中也有将上述几种神经网络组合在一起,获取不同的特征组合,也有研究在网络模型中加入注意力制,以达到选择重要特征的目的。
现有的研究中,一方面提取了大量的文本信息进行组合,数据的维度不断增加,且提升的效果不明显。另一方面,不断改进机器学习算法,利用网络模型组合等,增加模型的复杂度,这些方法提升了机器学习的效果,但是没有解决数据融合的问题。本文将采用句法依存树构建注意力布模型,与双向长短记忆网络结合,实现语义与句法结构的融合,提升关系抽取效果。
实体关系是指一个文档中两个实体间存在的一种语义联系,用一个二元组表示,其中和为文档中存在的两个实体,R表示两个实体间的关系,如因果关系,包含关系等。关系抽取的任务就是要通过文本档中的文本信息判断两个实体间是否存在关系及是何种关系。
现有的关系抽取方法中,基于机器学习的方法的效果最好,应用最广泛。基于机器学习的关系抽取方法按照是否需要标注的学习语料资源支持可以分成有监督学习法、无监督学习法和半监督学习法,其中有监督学习法准确率较高,但需要大量的标注学习资源;无监督学习法不需要标注语料资源,但是准确率有特提高。为了解决标注资料库不足的问题,Mintzr提出了远程监督的学习法[1],依据现有的标注语料库,对语料库中的语名以句包为单位进行学习分类,只要句包中有一个句子与语料库中的正例匹配,则认为句包中所有的句子为正例。
在机器学习关系抽取方法中最常用、效果最好的是有监督算法,根据关系实例的表示方式不同分为基于特征向量的方法和基于核函数的方法[6]。早期的关系抽取主要研究的是特征工程上,从文档中提取多种能表示文档的特征,包括文档的语义信息,语法,词语之间的距离、句法信息等等,而且可以通合多个信息融合,达到表达的提升。甘丽新等用句法树信息进行关系抽取,构造了句法树向量表示,并且用支持向量机进行分类,取得了效好分类效果,说明句法信息是文本的一个重要特征[5]。
深度学习的以神经网络的发展为技撑,不需要进行特征的构造和筛选,而是通过学习的方法,自动从原数据中提取最具代表性的特征,用于表示文档。在现有的学习方法中,最典型的是循环神经网(RNN)和卷积神经网络(CNN)。CNN模型可以有效提取文本的局部特征,而且可以通过多个卷积核的设计,得到多种局部特征表示。由于卷积核的增加,导致了信息的成几何倍数的增加,故在网络中加入了最大池化层,可以在信息量不增加的情况下最大限度的保留特征信息,同时增大了感受野。CNN网络最大的缺点是损失了全局信息[3,9]。RNN网络文档当作词语序列,可以有效获得文本的上下文信息,但是在学习过程中会产生梯度消失和梯度爆炸的现象。LSTM网络模型在RNN的基础上加入了记忆和遗忘控制单元,可以有效的控制网络中上下文的记忆,而且可以避免梯度消失和梯度爆炸[11]。GRU网络对LSTM网络的和中变化,将两个控制单元变成了一个控制单元,网络结构更简单元,且不影响学习的效果。为了有效地对上下文LSTM可以对当前输入前面的。
为了有效表示文本,除了文本的语义特征,研究人员不断提取大量其它的特征,用于机器学习算法中,包括:词汇、句法、语义和位置特征,这些特征都可增加文本的表达能力,但是现有方法多是将文本特征向量化后,简单拼接在一起,没有做到有机融合,所以改进算法的效果提升有限。Zhou利用双向长短记忆网络与注意力机制相结合进行关系抽取,该方法采用注意力机制能有效学习词的重要性[11]。冯建周利用改进注意力机制的卷积神经网络实体关系抽取模型[12],将语句向量与关系表示向量的相关性进行排序,并按高到低逐个加入到向量组合中,形成新的向量表示,用新构建的向量表示计算与关系向量的相关性,得到了关系最相关的句子组合,对包含同一实体对的句子集合,从中尽可能地找出所有体现该实体对关系的正实例,有效解决了句子噪声的影响。
以上方法没有学习到文本序列内部的位置信息,因为文档中的位置信息与修饰方法联系更紧密,只是用物理位置表示词的分布,无法真实刻画出文本的内部信息[7,8]。为了解决上述问题,本论文将文档内部的句法依存树作内部结构分析的工具,用句法依存描述词与词之间的关系[13,14],并用构建注意力表示方法,与双向门控神经网络结合,进行实体关系抽取算法设计。
本文将关系抽取模型分成5层,预处理层采用自然语言处理工具将文档进行分层及清洗,得到文档的词汇表示。词汇是进行后续处理的基本单元。第2层是词嵌入层,因为机器学习只能识别数值、向量类型的数据,所以要把文字转化成数学表达式。第3层是机器学习层,为了能准确根据文档中上下文信息抽取实体之间的关系,本文采用双向长短记忆网络(Bi-LSTM)模型进行训练识别。第4层是注意力层,通过学习得到的向理平等对待文本中的每个词,这样不符合人们的认识和对文档的处理方式,所以需要按照文本的重要性取不同的权重信息。将注意力权重与机器学习的隐藏向量相乘得文档的语义表示。最后通过softmax函数计算文档中所具有的关系类别。总体设计如图1所示。
图1 系统总体设计模型
词向量表是自然语言处理的基础,常用的表示方法包括独热表示法和分布式表示法。本文采用Word2vec方法将词语作向量化表示。给定一个句子表示句子中的词语,将其中一个d维的向量表示,V为S的向量表示,的维度为d,为词的向量表示。
在LSTM模型中的控制单元由一个用于记录状态的记忆单元C和3控制单元(输入门i、输出门o和遗忘门f)组成。在时间节点t,数据进入控制单元后,LSTM可以选择记住和遗忘某些信息,控制信息输出,并将这些状态信息传递到下一时刻t+1,各控制信息计算方法如式(1)至式(5)所示。
其中:ft,it,ot分别表示t时刻遗忘门、输入门、输出门的控制信息,用于控制信息的更新,达到信息增加和减少的目的,Ct表示对记忆单元的更新,表示遗忘多少信息以及当前输入信息哪些需要更新到当前的记忆单元中。ht隐藏层的输出结果,由输出门决定哪些信息最终输出。表示 sigmoid 函数,Wf、Wt、Wo,bf、bi、bo分别表示3个门的权重以及偏置值。
单向LSTM解决了对上文的依赖问题,但不能利用下文的信息。一个词的语义和情感不仅与之前的历史信息有关,还与后文的信息有着密切关系,所以本文利用采用双向LSTM,一组词向量分别作为正向和反向LSTM网络的输入,两个LSTM的输出拼接后,传送到Softmax函数进行分类。
注意力机制是机器学习上,对于某一时刻的一个输出y,它在输入X上各部分的注意力分布,即在X上的权重信息[8,12]。现有的注意力都是基于词语的共现特征计算得到,语言的表达灵活,结构松散,两个距离相近的词不一定有很强的语义联系,而且不同的人有不同表达方式,导致训练和识别的结果存在误差较高的现象。
任何一种语言都会其特定的语法结构,词语有词性,不管句子的表达如何变化,其修饰关系是固定的,而且修饰关系不会因为词汇量的多少而改变,修饰关系是根据语法规则制定的,具有较强鲁棒性。
在提取句子的特征时,一方面用到了词向量表示,而且用到了距离向量,增加了其表达的精确性,在语料库的句子结构变化不大,词汇量也相差不大,所以可以起到一定的激励作用,当用到开放式的语料进行实验时,由于语料的表达、数量变化较大,所以距离信息起不到促进作用。
句法依存树是句子中词语之间的相互依存关系和句法结构信息的一种表示方式,包括主谓,动宾,定中等,将句子中所有的词语之间的句法修法表示出来,以句子中的关键动词为根节点,形成一个树状结构[14]。句法依存树可以清晰的表达出句子中词与词之间的逻辑关系,不管在物理上距离多远,只要存在相互修饰关系,则在树中的距离会很相近,这也弥补了表达中不规范的问题。为了句子中词语间的逻辑关系,并用于关系抽取工作中,本文首先利用工具得到文本的依存树表示,依存树以核心词为根,并且根据语法规则把词与词的关系描述出来加入到树中,把一个句子中所有词之间的关系加入到树后,就得到了这个句子的句法依存树。句法依存很好的描述了词与词的关系,传统的机器学习算法通常将句法依存关系转化成向量,与文本的语义向量合并后,用于机器学习的输入,这样的学习方并没有与语义向量进行有效融合,所以本文利用句法依存树生成图表示法,并用于计算注意力,最后用注意力向量与语向量相乘,真正实现句法向量与语义向量的融合。具体步骤如下。
① 生成语法依存树。例如:“北京在2008举办奥运会”。经过分词,句法分析得到句法分析树,如图2所示。
图2 句法依存树表示
② 根据图2的依存树结果,生成有向图结构,在有向图中,忽略图中具体依存关系,只关注其是否存在关系,在关系二维表中一个值表示第i个词与第j个词是否存在依存关系,表示公式为式(6)。
③ 利用第2步的生成的二维表,计算出句子的注意力分布,如式(7)所示
④ 得到了句子的注意力分布,将注意力权重与双向门控神经网络训练得到的隐藏向量进行注意力融合计算,得到语义值,如式(8)所示:
本文选取SemEval(2010Task8)关系分类数据集作为实验数据。该数据集样本总数10 717,全部为标注样本,其中训练数据集有8 000个样本,测试数据集有2 717个样本,包括9种有向关系和1种无向关系。其中有向关系包括“Component-Whole”、“Member- Collection”、“Entity-Origin”、“Entity-Destination”、“Product-Producer”、“Message-Topic”、“Content-Container”、“Instrument-Agency”和“Cause-Effect”,无向关系指“Other”关系。
本论文采用了哈工大的语言技术平台LTP作为支持进行语法树构建,利用Python进行程序设计完成机器学习训练,机器学习部分超参数设置如下:利用Adam优化器,训练的词向量维度为300,因为这个维度是训练时间和效果综合指标最好;采用dropout值为5.0;学习率为0.01;迭代次数:200,隐藏层维度为300。
本论文采用通用的准确率(Precision)、召回率(Recall)和F1值3个指标对模型算法性能进行评价,针对某一实体关系类型的抽取结果,具体评价公式为(9-11):
采用本论文算法经典算法做比较,包括最经经典的LSTM算法、Bi-LSTM算法和Bi-LSTM+self-ATT算法,其中Bi-LSTM+self-ATT是融入了自注意力的双向门控神经网络,其采用的是自注意力,注意力没有很好的融入到语义特征中。本论文所采用的模型算法在精度和召回率上分别有5%和1.5%的提升,说明本算法的改进是有效的。实验结果如表1所示。
表1 实验结果比较
本论文通过对句法依存树分析,并采用二维表表示,利用句法依存树建注意力机制,与双向门控神经网络结合,实现了句法与语义的有机融合。在关系抽取模型的实验中采用开放的SenEval10 task8作为语料资源进行训练和测试,测试结果表示本算法的改进是有效的。下一步的研究需要进一步研究句子特征的有机融合,提升关系抽取的效果。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!