当前位置:首页 期刊杂志

融合领域特征向量的武器装备名深度学习识别方法

时间:2024-05-04

雷树杰 邢富坤 王闻慧

1(战略支援部队信息工程大学洛阳校区 河南 洛阳 471003)2(青岛大学外语学院 山东 青岛 266000)

0 引 言

命名实体识别(Named Entity Recognition,NER)是自然语言处理任务中一项基础性的工作,可以为自动文摘、自动问答和机器翻译等更复杂的自然语言处理任务提供支持。对于军事领域信息处理而言,军事类命名实体的识别同样起着基础性作用,武器装备名是军事类命名实体的重要组成部分。

命名实体识别的难点在于对未登录命名实体的识别,要求识别模型具有较好的泛化能力,而提升泛化能力不能仅靠扩大语料规模,尤其是对于很难获取大规模语料的领域而言,扩大语料规模的代价大,收益不一定高。本文从挖掘利用专门领域知识入手,将领域知识与深度学习相融合,提出基于领域特征向量的武器装备名识别方法,实验结果显示该方法可有效提升模型对于未登录命名实体的识别效果。

1 相关工作

命名实体的识别研究主要受到了如CoNLL等评测会议的影响,这使得大量命名实体识别研究主要集中在人名、地名、组织机构名、时间和数字表达上[1],而对类似于武器装备名这样特定领域实体的识别研究明显不足。

对于命名实体的识别,早期的识别方法大都基于规则。自20世纪90年代后,基于大规模语料库的统计方法逐渐成为自然语言处理任务的主流。近年来,随着人工神经网络在图像识别、语音识别等领域取得突破性进展,该方法也逐步应用到自然语言处理任务当中。目前,运用人工神经网络进行命名实体识别的研究还较为有限,主要有:文献[2]使用了CNN、双向长短记忆网络(bidirectional long-short-term memory,Bi-LSTM)和CRF的联合模型对命名实体进行了识别,在采用预训练向量作为模型输入的情况下,在对英文命名实体的识别中取得了最好的效果;文献[3]采用BiLSTM+CRF模型对社交媒体上的命名实体进行了识别,该模型采用预训练的词向量、基于字符的词向量和句法特征向量作为模型输入,有效克服了社交媒体信息噪音多、句子过短的不利因素;文献[4]采用融合了依存句法信息的图卷积神经网络(Graph Convolutional Network,GCN)对命名实体进行了识别,在OntoNotes 5.0数据集上取得了较好的效果;文献[5]在中文上训练了基于字的词向量,并与基于上下文的词向量一起作为模型的输入,得到了优于SVM模型和CRF模型的识别效果;文献[6]将词向量与词性向量作为DNN的输入来对命名实体进行识别,取得了较好的效果。

综合而言,人工神经网络使得命名实体识别效果有了一定程度的提升,但对未登录命名实体的识别效果仍然不佳。目前仍存在两点主要不足:首先,该方法对语料规模有一定的要求,如语料规模太小,会严重影响模型的识别效果,而对于特定领域实体识别任务而言,大规模且带有实体标注信息的语料获取往往面临巨大障碍;其次,目前研究所采用的识别特征主要集中在词形、词性和句法特征上,对特定领域实体的领域特征知识挖掘和运用明显不足,而特定领域实体往往具有较为明显的领域特征,可以用来支持对特定实体的识别,也可以一定程度上弥补语料的不足。

基于以上问题,本文重点从特征层面对已有模型进行改进。首先专门对武器装备名的构造特征进行研究,提取出武器装备名构造特征要素库,并基于大规模语料预训练得到词向量与特征向量,并将二者组合在一起作为Bi-LSTM+CRF模型的输入。实验结果显示,本文的方法对特定领域命名实体的识别效果有着较大的提升作用,一定程度上克服了现有识别模型的不足。

2 英文武器装备名构造模式与特征

2.1 概 述

武器装备是武装力量用于实施和保障战斗行动的武器、武器系统和军事技术器材的统称,通常分为战斗装备和保障装备。战斗装备是指在军事行动中直接杀伤敌人有生力量和破坏敌方各种设施的技术手段,如枪械、火炮、坦克以及其他装甲战斗车辆、作战飞机、战斗舰艇、弹药、导弹、水雷等。保障装备是为了有效使用战斗装备所必需的军事技术器材,如雷达、声呐、通信指挥器材、军用测绘器材、野战工程机械、军用车辆、保障舰船、辅助飞机、情报处理装备、电子对抗装备等。武器装备名可分为类名与具体名两类:类名是指某一类武器装备名的统称,例如枪(gun)、战斗机(fighter)、战舰(warship)等;具体名则专指某一款具体的武器装备名称,如“F-35A”、“M1”、“J-20”都属于具体名。从军事领域自然语言处理任务需求分析,无论是武器装备的类名还是具体名都是重要的军事领域专有信息,都应作为武器装备名称予以分析研究。

2.2 构成要素与类型

本文通过维基百科等渠道收集整理6 402条武器装备名称,并基于名称实例及命名特点,对英文武器装备名的构造特征进行了研究。

针对英文武器装备名的总体命名特点,本文对武器装备名的描述分为两层:第一层是对武器装备名的总体性描述;第二层是对各总体性描述要素的具体划分。每一个英文武器装备名都可以用该分类体系进行描述。

第一层分类将武器装备名分为型号(A)、别称(N)、描述(P)和缩写(R)四类。第二层分类将第一层分类中的型号(A)做进一步区分,区分为系列E和具体型号V;第二层分类对第一层分类中的描述(P)也做了具体区分,如表1所示。

表1 描述类要素及举例

2.3 构造特征

在上述分类体系下,英文武器装备名的每一个内部构成成分都能找到其对应的分类。基于此分类体系,本文对收集整理的6 402条英文武器装备名进行人工标注,分析了每一条名称的构造模式与特征,并对标注后的结果进行了统计分析。表2是本文对武器装备名的部分标注结果。表3是对武器装备名构造模式的统计结果。

表3 武器装备名构成模式统计结果

续表3

统计结果显示,英文武器装备名构造规律明显:其构成成分类型相对有限,其构造模式相对集中稳定。具体来讲,英文武器装备名的构成成分类型在本文的分类体系下只有19种,而64.41%的武器装备名的构造模式集中在10个主要构造模式上。这表明本文针对英文武器装备名构建的两层分类体系具有很强的描述能力,也反映出英文武器装备名具有明显的领域特征,且该领域特征是自动识别的重要依据,可以用来提高模型的类型泛化能力和约束能力。

2.4 识别框架

在前期调查基础上,本文得到了英文武器装备名的构造特征要素库,训练了特征向量,并以该特征向量与词向量一起作为BILSTM+CRF模型的输入进行训练和识别。本文整体训练和识别框架如图1所示。

图1 武器装备名识别框架

3 Bi-LSTM+CRF模型

近年来,神经网络在人工智能领域进展迅速,并逐步应用到自然语言处理任务当中。根据模型的不同架构和处理流程,人工神经网络可以分为RNN、CNN等。这些神经网络模型因架构的不同,使得其适用的任务类型也不同。其中,RNN因为能处理长序依赖的问题(如自然语言中的上下文)而被广泛应用到自然语言处理任务当中。但RNN容易出现梯度弥散和梯度爆炸问题[7],而LSTM模型[8]可以很好地解决这个问题。Bi-LSTM则是对LSTM的改进,通过从正向和反向两个方向利用上下文信息来进一步提升模型对长序依赖问题的处理能力。

本文采用Bi-LSTM+CRF模型作为命名实体训练和识别模型,并将预先由维基语料与表1所示的武器装备名构造要素特征库训练而来的领域特征向量融入到模型当中,以解决现有模型对特定领域的领域特征挖掘不足与传统的神经网络需要大规模训练文本的缺陷。

3.1 模型整体框架

本文模型整体上由输入层、Bi-LSTM层、输出层和CRF层组成,各层之间的数据处理流程如图2所示。

图2 模型整体框架

3.2 Word Embedding+Feature Embedding模块

本文采用预训练的词向量和预训练的特征向量作为模型的输入,并使用Python的Gensim开源工具包对词向量与特征向量进行预训练。

Word2vec是神经概率语言模型的一种实现,其中包含了CBOW与Skip-gram两种模型。Word2vec可以在构建神经概率语言模型的同时得到词所对应的词向量。其中,CBOW模型是通过上下文来预测当前词,而Skip-gram则是通过当前词来预测上下文。来斯惟[9]在2016年证明:当用于训练词向量的语料规模达到百兆级时,CBOW模型要好于Skip-gram模型。本文用于训练词向量的语料规模超过了600 MB,为此,采取CBOW模型来训练得到词向量。

词向量方面,通过对来自维基百科的大规模无监督语料Cwiki进行训练,本文得到了各个词所对应的词向量记为V={word1:vector1,word2:vector2,…,wordn:vectorn}。

特征向量方面,本文在前期调查得到的构造特征要素库Kf(Kf的获取过程见4.1)的支持下,采用动态规划算法对来自维基百科的大规模无监督语料Cwiki进行标注,将每一个词转化为其对应的特征要素(没有相应特征要素的词则被转化为“O”),形成了与Cwiki相对应的特征要素语料Cwiki-feature。以特征要素语料Cwiki-feature为训练集,本文得到了每一个特征要素所对应的特征向量Vf={feature1:fvector1,feature2:fvector2,…,featuren:fvectorn}。由于特征向量Vf的训练也是通过Word2vec(采用了CBOW模型,因为转换后的特征要素语料Cwiki-feature超过了400 MB)处理,所以每一个特征向量能够很好地表示该特征要素的上下文,也就是本文在前期武器装备名构造特征调查中得到的构造模式。因此相较于直接给每个特征要素赋予一个特定向量值而言,这种特征向量获取模式能更好地将本文前期调查得到的领域特征融合到模型中。

图3 模型的输入:词向量+特征向量

3.3 Bi-LSTM模块

本文采取了Bi-LSTM模型,并通过调用TensorFlow平台的内置代码库对模型进行了实现。

相较于RNN而言,LSTM模型增加了记忆单元和遗忘机制。其中,输入门决定什么值会被更新,遗忘门决定什么信息会被遗忘,而输出门则决定什么信息会被输出。这样的记忆单元与遗忘机制使得LSTM模型在处理长序依赖问题上有着出色的表现。LSTM架构如图4所示。

图4 LSTM模块

3.4 CRF模块

为了弥补Bi-LSTM模型在序列标注任务上的缺陷,本文在Bi-LSTM之上增加了CRF层,通过TensorFlow平台的内置代码库将输出层的损失函数由softmax函数替换为CRF函数。

CRF模型由J.Lafferty等在2001年提出,其定义的条件概率表示为:

(1)

由于CRF模型去除了隐马尔可夫模型(Hidden Markov Model,HMM)中不合理的输出独立性假设,使得CRF模型能够很好地利用整个序列内部的信息和外部观测信息,很好地解决了在HMM、最大熵马尔可夫模型(Maximum-Entropy Markov Model,MEMM)中存在的标记偏置问题。CRF模型这样的优点也使得其在序列标注任务中表现出色。

针对命名实体识别这样一个序列标注任务,本文采用CRF模型来接受Bi-LSTM模型的输出,将各输出之间的转移概率考虑进来,以此来提高模型在命名实体识别任务中的性能。

4 实 验

4.1 实验语料与标注集

本文收集了110篇美国国防部官方网站2017年度的新闻报道并对其中的英文武器装备名进行了人工标注。实验选取了其中80篇作为训练语料Ctrain,另外30篇作为测试语料Ctest。

在对110篇新闻报道完成标注后,本文抽取出80篇训练语料Ctrain所包含的英文武器装备名,并利用上文所述的两层分类体系对这些武器装备名进行人工标注。标注完成后,本文统计总结了这些武器装备名的构成成分和构造模式,做成包含(构成成分-构成成分类型)对的领域词典作为构造特征集,并将该构造特征集充实到上文调查所得的构造特征集中,形成了构造特征要素库Kf,如表4所示。Kf作为包含英文武器装备名构造规律的知识库参与到对武器装备名的识别中。

本文采用三元素标注集:{B-MILEQP,I-MILIQP,O}。其中,“B-MILEQP”表示一个英文武器装备名的起始部分,“I-MILIQP”表示英文武器装备名的非起始部分,“O”表示非英文武器装备名成分。

4.2 评测标准

只有对文本当中一个完整武器装备名的各个部分全部标注正确并且对该武器装备名的后一个其他成分没有标注为“I-MILIQP”,本文才视为对该武器装备名识别成功,部分标注正确或标注超出了该武器装备名的界限则视为标注失败。

为了更加全面地描述实验效果,本文设置了六个评价指标,各个指标定义如表5所示。

表5 评价指标

其中:整体标注的正确率Pw用来评价模型对整体文本的标注情况;武器装备名识别的准确率Pm与召回率Rm用来评价模型对武器装备名的识别情况;F值则用来综合评价模型对武器装备名的识别情况;为了排除模型对某一特定武器装备名多次识别成功或失败所造成的对总体评价指标的影响,本文设置了武器装备名type识别的召回率Rtype这一指标,在这一指标下,对同一武器装备名的多次识别成功只计算一次;而未登录词识别的召回率Ruk则用来评价模型对未登录词的泛化能力。

4.3 模型参数与特征

4.3.1预训练词向量与特征向量模型的参数设置

本文采用Google在2013年开发的Word2vec对来自维基百科的大规模无监督语料Cwiki进行训练。本文采用了CBOW模型,模型窗口大小设置为5,即用当前词的上下文各五个词共同表示当前词;模型的词频阈值设置为1,即对语料中每一个出现的词都赋给一个词向量,由此得到了一个40万词级的词向量集。对于特征向量的训练,本文采取了与词向量训练相同的参数设置,得到了规模为140的特征向量集。

对于向量维度的选择,本文对词向量分别设置了{50, 100, 200}三个维度,对特征向量分别设置了{10, 25, 50}三个维度。本文将词向量与特征向量的三个不同维度进行组合,通过多次实验,得到了词向量与特征向量的最佳维度组合:50维词向量+10维特征向量。

4.3.2Bi-LSTM+CRF模型的参数设置

本文的输入层维度为相应的输入向量的维度(单独使用词向量为50维,使用联合向量为60维),隐藏层的维度为128维。

受文献[3,10]的启发,考虑到Adam优化算法能够在得到较好训练效果的前提下更快地收敛,因此本文采用Adam函数作为模型的优化算法。其中,learning rate设置为0.01,gradient clip设置为5.0。

为了避免过拟合现象,在训练过程中进行了正则化处理,设置dropout参数为0.5,即对每次输入的训练数据随机去除50%,实验结果也证明了进行正则化处理的有效性。

此外,将训练的batch size设置为32,Bi-LSTM模型的输入步长(即一次训练输入的词数)设置为训练数据集中的最长句子长度Lmax。对于长度不足Lmax的句子,在训练时将其通过零向量补全,使得其长度达到Lmax。因此,本文的训练是对每一句话进行的,这样做的目的是为了更好地利用每一个句子的语义,为识别提供支持。

4.3.3CRF模型的特征选取

在自然语言处理领域,CRF模型被广泛使用在命名实体识别领域,其主要思想是将命名实体识别任务转化为线性序列标注任务。在实际使用中,模型使用的特征基本限定为词形、词性等浅层语言特征。但在特定领域中,词性这样的浅层语言学特征往往不能反映更深层的领域特征,从而造成了关键识别特征信息缺失,影响模型的识别效果。

本文通过对英文武器装备名的内部构成特征进行调查,形成了如表1所示的武器装备名构造特征要素库,从而可以将武器装备名更深层次的领域特征融入到模型当中。本文使用CRF++开源工具包进行实验,并对CRF与Bi-LSTM+CRF模型的实验结果进行了比较。

4.4 实验设计及结果分析

4.4.1实验设计

实验分为两个部分,第一部分分别使用输入为词向量V的Bi-LSTM+CRF模型和输入为联合向量Vunion的Bi-LSTM+CRF模型对武器装备名进行了识别。通过将输入为词向量V的Bi-LSTM+CRF模型和输入为联合向量Vunion的Bi-LSTM+CRF模型的识别效果进行对比,证明特征向量对于模型识别效果的提升作用。

实验第二部分是将构造特征要素库Kf中每个词对应的特征要素类型作为CRF模型的特征标签来对武器装备名进行识别。对于不在特征要素库中的词,则其特征标签为“O”。通过比较融入了英文武器装备名特征要素的CRF模型与融入了英文武器装备名特征向量的Bi-LSTM+CRF模型的识别效果,发现Bi-LSTM+CRF模型并不是在任何情况下都优于CRF模型。

4.4.2实验结果与分析

本文得到的实验结果如表6所示。

表6 实验统计结果比较

对于第一部分实验,通过实验结果可以看出,Bi-LSTM+CRF模型在绝大多数指标上都相较于CRF模型都有着较大提升,这说明使用词向量的Bi-LSTM+CRF模型对武器装备名识别的有效性。其中:武器装备名识别准确率Pm相较于CRF模型有0.69%的下降,但召回率却提升了超过30.97%;在Rtype指标上,Bi-LSTM+CRF模型也相较于CRF模型有着18.19%的提升,这说明前者有着较强的类型泛化能力;此外,Bi-LSTM+CRF模型对未登录武器装备名识别的召回率Ruk的提升是根本性的,达到了45.08%,这进一步证明使用词向量的Bi-LSTM+CRF模型较强的类型泛化能力。综合来看,使用词向量的Bi-LSTM+CRF模型相较于CRF模型有着相当的提升效果。这一方面是Bi-LSTM+CRF模型本身的优势,另一方面也得益于包含了一定语义信息的词向量。这两个因素共同作用,使得Bi-LSTM+CRF模型相对CRF模型而言有了一个根本性的提升。

在Bi-LSTM+CRF模型内部来看,使用联合向量使得Pm提升了近3.84%,Rm提升了2.05%,这证明了特征向量的有效性,也证明单纯的词向量并不能容纳一个词全部的语义信息,词向量对特定领域特征的描述还有欠缺。此外,使用联合向量也使得Ruk有了超过5%的提升,这证明随着特征向量的加入,模型对未登录武器装备名的泛化能力也随之提升。如:由于“F-35A”未在训练文本中出现,属于未登录武器装备名,单纯使用词向量并没有将该武器装备名识别出来,但当加入该词条对应的特征向量后,该词条就被成功地识别了出来,这样的例子还有“P-8A”、“Bradley fighting vehicles”等;而“stealthy(隐形的)”由于经常形容战斗机,因此单纯使用词向量时,模型错误地将该词条识别为武器装备名,但当加入该词对应的特征向量后,该词就没有被识别为武器装备名,类似的例子还有“hardened”等。

对于第二部分实验,通过实验结果可以看到,加入领域特征标签的CRF模型在各个指标上均好于加入了领域特征向量的Bi-LSTM+CRF模型,其中在召回率上CRF模型超出Bi-LSTM+CRF模型16.77%,在对未登录武器装备名识别的召回率上CRF模型更是超出Bi-LSTM+CRF模型31.43%。这样的实验结果显示了CRF模型对稀疏特征的利用远胜Bi-LSTM+CRF模型。武器装备名在语料中分布稀疏,这导致武器装备名的领域特征要素在文本中也比较稀疏,这样的特点就要求模型能够充分利用一些稀疏特征来进行识别,尤其是在语料较少的情况下,更要求模型能充分利用稀疏特征。实验结果表明,虽然Bi-LSTM+CRF模型在很多方面超过了CRF模型,但在利用稀疏特征这一方面,Bi-LSTM+CRF模型还有待进一步提升。

5 结 语

本文首先对抽取自维基百科的6 402条英文武器装备名进行了构造模式特征分析,得到了武器装备名的构造特征要素库,并在来自维基百科的大规模无监督语料上预训练了词向量与特征向量。在此基础上,本文设计了两部分实验,分别证明了特征向量对Bi-LSTM+CRF模型的提升和CRF模型在对稀疏特征的利用上要优于Bi-LSTM+CRF模型。同时也证明了词向量难以表示更深层次的领域知识,对特定领域进行专门的语言学研究具有很大的必要性。

本文更大的意义在于:研究证实了对于很难获取大规模语料的特定领域而言,可以通过对该领域领域知识的研究,并将该领域知识加入到统计模型当中,以对领域知识研究的深度来弥补语料的不足,从而提高模型的类型泛化能力和约束能力,获得更好的识别效果。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!