基于电力智能问答系统的命名实体识别算法研究

时间：2024-05-04

王秋琳梁懿闫丽飞张垚王燕蓉

（福建亿榕信息技术有限公司福建省福州市 350003）

1 项目概况

随着信息时代的到来，电力客服平台逐渐向智能化方向靠拢，多地客服平台均已对智能机器人进行配置，其作用主要是确保语音问答相关任务可得到自动处理，例如，快速识别情绪，对故障进行分类，再例如，根据用户评价对服务质量进行评估。受电力服务所具有专业性、特殊性影响，在未能大量掌握相关知识时，问答系统极易出现无法快速理解语义并定位关键词的情况，若不尽快解决该问题，不仅系统运行效率会受到影响，还会使用户体验度有所下滑。鉴于此，有关人员提出应以条件随机场为基础，对命名实体识别算法进行开发。

众所周知，智能问答所提供服务，主要有知识评价，信息推荐，记录管理，根据问题确定答案等，简单来说，就是以机器学习、自然语言处理还有语义网为基础，根据实训课程、专业知识和人工智能相关知识，对问答知识库进行建立，要求研究人员分别针对理解问题、检索并生成答案等环节，对相关服务技术进行研究，从而开发出具有交互应答、一对一应答功能的先进服务系统。作为对智能问答系统进行设计的核心技术，NER 的作用主要是发现并准确定位关键词，基于实体对内在联系进行建立，这一环节又被称为命名实体。事实证明，NER 的优势是能够发现意义相同但表述方式不同的文本，例如，哈工大与哈尔滨工业大学。仅凭借分词处理，通常无法使以上文本所存在联系得到直观展示，对文本语义进行理解的难度不言而喻，久而久之，将带来语料库稀疏的问题。对电力问答相关语料库而言，出现频率较高的实体有故障、位置和解法，基于该技术对智能系统进行搭建，可确保语音实体内容得到快速识别，通过交互问答的方式，为用户提供其所需服务。

对基于NER 所搭建电话客服系统而言，NER 技术的作用主要是检索内容、确保客服人员能够和用户进行多轮问答。现阶段，该技术已在分析微博文本、医疗病历和机器翻译等领域得到了广泛应用。国内学者以农业技术命名方式和特点为依据，基于互联网对可为农业问答服务提供支撑的NER模型进行了建立。另外，还有一部分学者选择利用该技术对军事文本进行处理，指出只要有专业且系统的军事知识作为基础，该技术便能够对军事指令、相关文书所包含关键信息进行快速、准确的提取。

目前，国内各领域常用命名实体识别算法有两类，分别是统计学习法、词典规划法，作为传统算法的词典规划法，对有关人员所预设规则模式具有较强的依赖性，通常需要先利用字符串进行搜索，再对其进行匹配，由此来达到实体识别的目的。该方法的不足主要体现在以下方面：首先是较易被有关人员所编制规则影响；其次是只有依托知识库才能完成各项操作，同时对知识库规模和存储信息量有较为严格的要求；再次是不具备良好的移植性；最后是无法做到快速且准确的识别全新词汇。作为近几年被研发出来并投入使用的全新算法，统计学习法有效弥补了上述算法所存在不足，不仅在移植性方面具有突出表现，还可被用来对歧义词进行准确区分，由该算法所衍生出神经网络法，现已逐渐取代了词典规划法的地位。神经网络法又可被划分成LSTM、MEMM、HMM 和词向量聚类法，而本文所研究CRF 法，同样属于统计学习法的分支。除此之外，关于对不同算法进行结合的研究也取得了一定的成果，例如，以统计学习模型为基础，通过新增人工定义规则的方式，使人类先验知识和机器学习得到充分结合。

2 算法设计

本文所研究算法的核心功能是依托语料数据集，通过对故障、位置以及解决方案相关的命名关键词进行抽取的方式，构建可被用来指导后续工作开展的三元组。要想保证该算法可发挥出应有作用，关键要对以下内容引起重视：

2.1 确定识别方法

现阶段，对命名实体进行识别的方法有两种，分别是词典及规则识别，统计学习识别。前者出现的时间较早，通常要以专业人员所提供规则模式为依托，搜索并匹配字符段，以此来达到实体识别的目的，该方法的不足是较易被人为规则所影响，在可移植性方面的表现不理想，对知识库内存要求较高，难以做到准确识别新词汇。后者所依托基础为机器学习，不仅有良好的可移植性，还能够做到准确区分歧义词汇，由此而衍生出的方法，主要有LSTM，神经网络法，HMM，MEMM，本项目所采用识别方法为CRF，该方法与NER 的联系极为密切，可有效弥补传统方法的缺陷，保证算法兼具可靠性与普适性。

2.2 建立CRF模型

CRF 是以无向概率图为基础所建立判别模型，该模型将随机输出变量设为随机场，通常不对随机输入变量进行处理，通过弱化假设的方式，保证数据计算效果。现阶段，该模型主要被用来对序列数据进行建模，在该模型中，X 代表模型观测所得随机变量。Y 代表随机输出变量。研究人员以输出假设为依据，利用Y 对随机场进行建立，保证Y 满足以下条件：

假设上述公式对随机场任意结点均成立，便代表在给定输入的前提下，随机变量输出所需各条件可构成随机场，一般用P(Y|X)加以表示。其中，u ≠v 所指代对象为随机场内除结点v 以外的其他结点。w～v 所指代对象为随机场内可直接连接v 的结点w 的集合。Yu 所指代对象为与结点u 相关的各随机变量。Yv所指代对象为与结点v相关的各随机变量。

文本建模所适用CRF 模型见图1。由图1 可知，在对输入文本x 加以确定后，该模型可经由分词以及标注操作，获得相应的语料序列，在此基础上，以训练所得模型参数为依据，对计划输出语料组合所对应条件概率进行准确预测。

图1：CRF 模型结构图

另外，还可以利用参数化形式对模型进行描述，即X 对应输入，Y 对应输出，以X=x 为前提，条件概率P(Y|X)对应Y 取值的分布情况，可利用以下公式进行表示：

在该公式中，Z(x)代表概率归一系数，对其加以表示的公式为：

关于本项目所处理数据集，其输出序列由两部分组成，分别是类别标签和位置标签，类别标签所传递信息是关键词和故障、位置、解法的关系，而位置标签所传递信息，主要是关键词所在位置。与上述标签对应的NER 技术为识别及定位。

2.3 提前处理数据

作为随机数据、非结构数据，文本数据往往不具备直接用于学习模型的条件。提前处理语料数据集，一方面可保证数据格式相同，降低结构化信息的提取难度，另一方面可使冗余数据、噪声数据被消除，为后续的特征选择、NER 处理提供便利。对本项目所涉及数据进行预处理的侧重点，主要是统一格式并分词。研究表明，问答数据集格式并不规整，将其用于常规训练的难度极大，提前整理格式很有必要。对数据格式进行统一，通常需要经过以下两步：

（1）将不具有实际意义的连字符、空格删除。对地理位置进行描述的语料中，通常存在大量连字符，例如，人民大街-20 号或人民大街/20 号。

（2）替换具有特定含义的符号，以方括号为例，训练工具往往会用该符号对复合词进行标注，要想避免出现歧义，研究人员应提前对初始文本非复合词所包含该符号进行替换。另外，训练工具常用符号还包括/，该符号的作用是对词性进行标注，对初始文本进行预处理时，同样需要对该符号进行替换，例如，将平均4 人/户更改为平均4 人一户。

针对以上需求，技术人员提出应将无实际意义的连字符及空格删除，与此同时，还要替换含义特殊的专用符号。

对文本做分词及标注处理的目的，主要是降低关键词提取难度。研究人员计划利用中科院所提供NLPIRICTCLAS，确保数据集得到有效处理。作为对中文进行分词处理的权威工具，NLPIR-ICTCLAS 的训练载体为人民日报，其优势主要体现在两个方面，一是对中文进行快速、准确的分词与标注，二是用户可视情况对词典进行自定义，使混合分词的需求得到满足。事实证明，利用该工具对本项目所涉及语料进行分析，可确保分割粒度符合项目要求，真正做到在保证精确度理想的基础上，对特征集规模严加控制，杜绝拟合问题出现。另外，对分词进行预处理需要完成的任务，还包括对停用词进行准确过滤，在本项目中，停用词的定义是仅保留了基本语法作用的虚词，例如，谢谢、的。停用词在数据集中出现的频率往往较高，但对本文所研究模型并不具有实际意义，将其过滤可有效提升模型计算速度，这点同样需要引起重视。

2.4 准确标注关键词

自动标注可以简单的理解成利用程序对文本涉及故障、位置和解法的关键词进行发现与定位。结合实践所积累经验可知，本项目所选择特征以数量词、界定词和指示词为主，通常可凭借以上特征，对语料数据进行准确区分，为自动处理和后续操作的有序推进提供便利。

数量词是指表示单位和数量的名词，通过观察可知，本项目频繁出现的数量词往往与电费金额相关，常见情形包括“现已补交100 元电费”“电费欠费金额为50 元”。由此可见，对数量词进行准确标注，在识别关键词方面具有重要作用。

界定词指的是特征要素明显的关键词，其和命名实体间往往存在着密切联系，例如，区、街和路。对位置关键词进行识别时，界定词通常发挥着无法被替代的作用，但要注意排除断路、短路等特殊语素，包括断路、短路或是哪条路。

指示词代表和命名实体不存在直接关联，但出现时机与关键词基本重合的特征词。左指示词代表关键词前特征词，右指示词代表关键词后特征词，在本项目所建立数据集中出现频率较高的指示词见表1。研究人员可利用表1 的指示词，对关键词进行快速筛选，但要注意一点，指示词通常包括关键词，句首处标点符号为左指示，句尾处标点符号为右指示。

表1：常见指示词

在训练模型时，研究人员既要标注数据集，还要标注输出数据。本项目对输出语料进行描述的特征为类别、文本位置。除特殊情况外，仅需考虑以上特征，便能使关键词得到准确识别并对其位置加以确定。

经过预处理、标注处理的数据集，通常已被转换成专用知识库，该知识库有输出标签、输入标签对应。基于该知识库完成算法训练操作，便可获得符合电力服务特点和需求的问答模型。

3 研究分析

在确定本项目所使用算法后，研究人员便可将工作重心转向对算法可行性进行验证方面，具体做法如下：

3.1 建立数据集

本文所使用数据集由国家电网客服中心提供，共记录了76000 个客服电话，研究人员将问题尚未解决的电话和标记为“骚扰电话”的电话记录剔除后，获得了符合分析、建模条件的61000 条文本记录。与电力服务有关的其他数据集相比，本文所选定数据集的优点主要是具有良好的真实性及时效性，加之客服中心具有极为广泛的服务范围，这一特点又赋予了数据集更为理想的代表性。

分析表明，每条文本记录均包括以下内容：接线员的员工编号；电话打入和结束时间；客户所在地区；服务评分；通话记录。与此同时，初始记录还附有说明问题解决情况的文本标签，考虑到在前期准备阶段，研究人员已将问题尚未解决的电话记录剔除，在后续分析及建模过程中，相关文本标签可忽略不计。

研究人员以机器学习模型的常规训练方法为依据，最终决定通过随机拆分的方式，将上述数据集分成测试集、训练集两部分，各数据集对应文本记录数量的比值为1:4。

3.2 确定评价指标

本次实验对算法进行评估所用工具为CRF++，作为跨平台软件，CRF++的综合性能较其他测试环境更为理想，这是因为CRF++内置特征模板类型及数量较其他工具更多，可通过自动生成特征函数的方式，获得相应模型。本文所使用CRF++的版本是0.58。

NER 的根本属性为分类问题，对应算法所使用评价指标自然与常规分类模型相同，包括度量F、精确率P 以及召回率R。

在上述公式中，T所指代内容为真阳性样本数，其特点为真实标签和预测结论均是正例。F所指代内容为假阳性样本数，其特点为真实标签是反例，但预测结果是正例。F所指代内容为假阴性样本数，其特点为真实标签是正例，但预测结果是反例。α 所指代内容为F 度量内负责对召回率、精确率占比进行调整的参数，在本项目中，α 的取值为1，又被称作F1 度量，其所描述内容为召回率、精确率平均值。在某些情况下，仅对召回率或是精确率加以使用，将造成错误评估模型的后果，引入度量F 可使召回率、精确率相关参数得到充分整合，该评价指标所具有合理性有目共睹。

3.3 分析实验结果

研究人员利用两组实验测试模型有效性，A 组实验仅用一个特征完成标注操作，B 组实验强调对不同特征加以利用，在此基础上，通过分析不同特征与模型间的关系，得出相应结论。A 组实验的结果见表2、表3、表4。

表2：数量词标注模型表现（单位：%）

表3：界定词标注模型表现（单位：%）

表4：指示词标注模型表现（单位：%）

由此可见，在识别位置实体方面，发挥重要作用的特征词为界定词。关于实体识别，数量词所发挥作用较其他特征词更为突出。指示词可被用来对不同类别实体进行识别。

基于规模不同的训练集对特征组合进行标注，通常可获得描述测试集规模的图形，一般来说，其横坐标代表测试集与全部测试集的比值。纵坐标代表度量值。若训练所用训练集为完整训练集，利用本项目所设计算法识别故障、位置及解法，其度量值分别是92%、96%、95%。另外，研究人员还以数据集相同为前提，对HMM、LSTM 等方法在位置实体识别环节的表现进行了比较。在训练所用训练集是完整集的前提下，相关方法对应度量值分别是92%、91%和84%，由此可见，本文所设计算法在位置识别方面所表现出性能较其他方法更为理想，有大范围推广的意义。

4 研究展望

本文以条件随机场为基础，结合电力智能问答特点及需求，对命名实体识别算法进行了设计。该算法所具有优势主要体现在以下方面：

（1）对文本结构、其与上下文间的关联进行了充分考虑。

（2）对专用知识库进行了建立，根据电力服务需要达到的水平，对知识库建立流程进行了梳理。但要注意一点，CRF 模型往往需要付出较大的计算代价，尤其是在同时存在数个组合的条件下，要想利用该算法对准确率进行提高，通常需要在前期准备阶段投入大量时间对模型进行训练，由此而造成的问题，主要是无法保证模型具备良好实用性。未来研究的重点应向优化、调整训练过程倾斜，在保证训练效果理想的基础上，对训练速度进行提升。

5 结论

本文以NER 为基础，对符合电力智能问答特点的、对命名实体进行识别的算法进行了设计。该算法以数量词、界定词及指示词为依据，分别识别与故障、位置还有解法相关的关键词，在此基础上，对实体三元组进行构建，优势是对文本结构和内在联系进行了充分考虑。事实证明，基于该算法识别故障、位置还有解法的命名实体，在准确度方面的表现十分突出，可投入使用。