基于BERT-BiLSTM-CRF模型的开关柜设备运维实体抽取方法研究

时间：2024-07-28

路士杰庞先海董驰顾朝敏郑宝良

(1.国网河北能源技术服务有限公司,河北石家庄 050400;2.国网河北省电力有限公司电力科学研究院,河北石家庄 050021;3.科畅电气有限公司,河北保定 072558)

0 引言

开关柜作为一种电气设备,能够开合、控制和保护用电设备,在电力系统发电、输电、配电和电能转换的过程中扮演着重要的角色。开关柜检修过程复杂,缺少在线监测系统,往往需要人工手持设备检测,效率低下且智能化程度低。倘若变电站运维人员对开关柜设备缺少技术性把握,维护和管理的经验不够丰富,在设备出现问题时没有及时处理,会导致危害的扩大,因此需要采用更为方便智能的运维手段来提高变电站开关柜设备的运维效率[1-2]。

随着电网规模的不断扩大,电力系统的知识量呈现爆炸式增长。为了有效抽取、管理和利用海量知识,需要将更高效快速的技术引入电力领域。命名实体识别(Named Entity Recognition,NER)又称实体抽取,是指识别文本中具有特定含义的专有名词,一般分为通用和特定两大类[3-4]。文献[5]为提升对电力系统故障文本的分析处理速度,提出了一种基于预训练与多任务学习的电力故障文本信息自动抽取模型;文献[6]阐述了电力领域知识的中文专业词典和实体抽取的实现分析方法;文献[7]阐明了将实体抽取应用于电网调度领域的解决思路和关键技术。但是,以上研究,大部分对实体抽取技术在电力系统中的应用尚处于理论分析阶段,并没有将实体抽取技术运用于具体的电气设备中[811]。

针对现有研究的不足,本文将针对实体抽取技术,采用多种深度学习模型,对开关柜设备运维进行实体抽取,分析不同模型的抽取准确度。

1 知识图谱实体抽取算法

1.1 基于BERT 的预训练模型

BERT 模型主要由双向Transformer的encoder结构组成,利用Mask 预训练任务学习token的上下文语义信息,并利用下一句预测任务学习句子顺序特征信息。BERT 预训练模型结构如图1 所示。BERT 模型对输入的句子进行处理,加入分隔符,如“开关柜内部产生电弧时,能量转换”将被BERT 层转化为“[CLS]开关柜内部产生电弧时,[SEP]能量转换”,其中[CLS]作为第一个句子的开头,放在首位,而[SEP]标志则用来区分前后两个输入的句子。然后再将其转化为3个向量:Token Embeddings、Segment Embeddings和Position Embeddings。Token Embeddings是将输入的字划分为一组有限的公共子词单元,即注意分隔符的位置;Segment Embeddings用于区别两个句子,给予两个句子不同的标记;Position Embeddings是对一个句子内各个字的位置顺序进行编码[12-13]。处理示意如图2所示。然后,再将处理后的向量输入至下一层中。

图2 BERT层输入转化为向量示意

1.2 基于BERT-BiLSTM-CRF 模型的实体抽取模型

1.2.1 BiLSTM 神经网络

知识图谱的实体抽取是典型的文本序列标注,循环神经网络(Recurrent Neural Network,RNN)是随着时间的推移,可以重复发生的特殊神经网络结构,它可以模拟人类学习的记忆特性。如图3所示,可以将RNN 网络以时间序列展开成一条链状网络。箭头右边的网络中,x0为初始时刻RNN 网络的输入,h0为输出,A 为隐藏层,其中保存着初始时刻的网络神经元的状态,即下一隐藏层的状态还包含着上一隐藏层的状态,并以此类推至t时刻。

图3 RNN的环形结构及其展开示意

虽然RNN 网络可以有效地解决序列标注任务问题,但其并不能很好地处理长距离依赖问题,而长短期记忆网络(Long Short-Term Memory,LSTM)作为一种时间循环神经网络,引入了门限制机制,可以有效地对历史信息进行过滤,解决该问题。

在双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)模型中,采用了前向和后向两个LSTM 层,分别收集对象文本的上下文信息,两者连接着同一个输出层,如图4所示。

图4 BiLSTM 模型结构

BiLSTM 模型可以兼顾上下文信息,自动提取句子特征,获得较RNN 网络更好的结果[1415]。

1.2.2 BiLSTM-CRF模型架构

BiLSTM-CRF模型是由双向LSTM 和条件随机场CRF组成的模型,是命名实体抽取任务中常用的模型,其模型结构可分为输入层、隐含层和标注层,如图5所示。

图5 BiLSTM-CRF模型结构

输入层由“输入”和“查找层”组成。首先将输入的每个句子分解成每个字词,再使用Word2Vec训练模型将每个字词映射为每个向量。使用Word2Vec方法可以将文本的分布式表示与字词间的含义联系起来,消除词语鸿沟现象,且很多工作[16]表明使用预先训练好的词向量较随机嵌入方法能使神经网络的收敛速度更快,模型的准确度和召回度都能有较大的提升。

BiLSTM 网络作为隐含层,自动识别获取句子特征。经查找层对文本数据的处理,文本将转化为字向量序列(x1,x2,…,x n)并输入到BiLSTM 网络中。其中,输入向量的顺序序列将作为前向LSTM层的输入,而输入向量的逆序序列将作为后向LSTM 层的输入。在对语义信息进行建模并提取文本特征表达后,将前向和后向LSTM 层的输出进行拼接,作为隐含层的输出[17]。

条件随机场(Conditional Random Fields,CRF)层作为标注层,进行语句序列标注。CRF是概率无向图模型,它解决了长期依赖和标注偏置问题[18],其路径得分公式如下

式中:X为输入的序列,X=(x1,x2,…,x n);Y为将要输出的标签序列,Y={y1,y2,…,y n};A i,j为概率转移矩阵中第i个标签转移到第j个标签的概率;P i,j为X被标记为第j个标签的概率;输入的序列是X=(x1,x2,…,x n)经隐含层处理后输出概率矩阵P n×k,其中k是标签的个数(本文k=4)。使用动态规划算法找出得分最高的路径y*作为最优路径进行序列标注。

经过标注层后,BiLSTM-CRF 将直接输出实体预测标签。

1.2.3 BERT-BiLSTM-CRF模型架构

BiLSTM-CRF 模型使用了Word2Vec 的方法进行了词嵌入操作,但这种操作文本序列的解析是静态的。而对于BERT-Bi LSTM-CRF 模型,在BiLSTM-CRF 模型前加入BERT 层。BERT层对输入数据进行预训练处理,可以通过无监督方式学习,保存深层的特征信息,从而具有更好的泛化能力。结合了BERT 模型的预训练优势,使得BERT-BiLSTM-CRF模型理论上进行实体抽取将得到更为准确的结果,BERT-BiLSTM-CRF模型结构如图6所示[19-21]。

图6 BERT-BiLSTM-CRF模型结构

1.3 实验方法与流程

本实验选择知网文献作为语料库,使用BERT-BiLSTM-CRF 模型对开关柜设备运维进行实体抽取,并与隐马尔可夫模型(Hidden Markov Model,HMM)和BiLSTM-CRF模型的抽取结果进行对比,实验流程如图7所示。

图7 实验流程

首先在知网上爬取开关柜设备运维相关文献,然后对爬取的文本采用“BIOES”文本标注方法进行标注,接着将文本划分为训练集、验证集和测试集。语料库处理完毕后,先使用训练集对实体抽取模型进行训练,再使用验证集对训练结果进行验证,验证无误后使用测试集对模型进行测试,并计算相关评价指标对实验结果进行评估与比较。

2 实验结果

2.1 识别实体设置与评价指标

2.1.1 语料库的获取与识别实体设置

采用爬虫程序,输入搜索关键词“电力”、“开关柜”、“运维”后,在知网上爬取文献。

实验采取层次抽样的方法构建了训练集、验证集和测试集,数据划分情况如表1所示。

表1 训练集、验证集、测试集字数设置个

在标注数据集中设置了4种实体类型,分别是:开关柜、BJ、GZ、YW。开关柜是指开关柜设备,如“开关柜”、“开关柜设备”;BJ是指开关柜的故障部件,如“主控开关”、“分控开关”、“仪表”等;GZ是指开关柜发生的故障类型;YW 是指开关柜发生故障后对应的变电站运维方案。

2.1.2 评价指标

使用准确率(Accuracy)、精确率(Precision)、召回率(Recall)和综合评价(F-Measure)作为评价指标。各指标计算公式如下:

式中:T P为正确预测需要关注的实体数;T N为正确预测不需要关注的实体数;F N为错误预测需要关注的实体(漏报)的数;F P为错误预测不需要关注的实体(误报)的数。

F分数是统计学中用来衡量二分类模型精确度的一种指标,他同时兼顾了精确率和召回率,可以看做是精确率和召回率的一种调和平均,表示为

式中:α为加权系数,其值≥0。

本文使用了F1作为评价指标,于是取α=1,有

2.2 实验环境与结果分析

本文实验是基于Py Torch进行搭建的,环境配置见表2。

表2 实验环境配置

不同模型下的实验结果如表3所示。

表3 各模型实验结果

由表3可以看到,采用BERT-BiLSTM-CRF模型进行实体抽取的效果最好,F1 分数可以达到97.24,BiLSTM-CRF模型效果又优于HMM 模型。

根据HMM 模型结构和实验结果分析得到,在HMM 模型中,对文本序列标注的识别判断依赖于他本身的状态和文本序列对象,但是文本序列的标注不仅仅与待观察的文本序列对象有关,还与观察序列的长度、上下文相关。对于Bi LSTM-CRF模型,其模型中的BiLSTM 网络中存在前向LSTM 与后向LSTM 层,用于识别待观察文本序列的上下文,以更准确地进行预测,因此其实验得到的F1分数要高于HMM 模型。

BiLSTM-CRF模型在获取词向量时采用的是embedding层的训练,方式比较简单,而BERT-BiLSTM-CRF模型则综合了BERT 模型的优点,即具有很强的动态词向量获取能力,能获取更好的词向量用于模型的训练和预测[22-24],所以BERT-BiLSTM-CRF模型的实验结果F1分数最高。