当前位置:首页 期刊杂志

基于电力智能问答系统的命名实体识别算法研究

时间:2024-05-04

王秋琳 梁懿 闫丽飞 张垚 王燕蓉

(福建亿榕信息技术有限公司 福建省福州市 350003)

1 项目概况

随着信息时代的到来,电力客服平台逐渐向智能化方向靠拢,多地客服平台均已对智能机器人进行配置,其作用主要是确保语音问答相关任务可得到自动处理,例如,快速识别情绪,对故障进行分类,再例如,根据用户评价对服务质量进行评估。受电力服务所具有专业性、特殊性影响,在未能大量掌握相关知识时,问答系统极易出现无法快速理解语义并定位关键词的情况,若不尽快解决该问题,不仅系统运行效率会受到影响,还会使用户体验度有所下滑。鉴于此,有关人员提出应以条件随机场为基础,对命名实体识别算法进行开发。

众所周知,智能问答所提供服务,主要有知识评价,信息推荐,记录管理,根据问题确定答案等,简单来说,就是以机器学习、自然语言处理还有语义网为基础,根据实训课程、专业知识和人工智能相关知识,对问答知识库进行建立,要求研究人员分别针对理解问题、检索并生成答案等环节,对相关服务技术进行研究,从而开发出具有交互应答、一对一应答功能的先进服务系统。作为对智能问答系统进行设计的核心技术,NER 的作用主要是发现并准确定位关键词,基于实体对内在联系进行建立,这一环节又被称为命名实体。事实证明,NER 的优势是能够发现意义相同但表述方式不同的文本,例如,哈工大与哈尔滨工业大学。仅凭借分词处理,通常无法使以上文本所存在联系得到直观展示,对文本语义进行理解的难度不言而喻,久而久之,将带来语料库稀疏的问题。对电力问答相关语料库而言,出现频率较高的实体有故障、位置和解法,基于该技术对智能系统进行搭建,可确保语音实体内容得到快速识别,通过交互问答的方式,为用户提供其所需服务。

对基于NER 所搭建电话客服系统而言,NER 技术的作用主要是检索内容、确保客服人员能够和用户进行多轮问答。现阶段,该技术已在分析微博文本、医疗病历和机器翻译等领域得到了广泛应用。国内学者以农业技术命名方式和特点为依据,基于互联网对可为农业问答服务提供支撑的NER模型进行了建立。另外,还有一部分学者选择利用该技术对军事文本进行处理,指出只要有专业且系统的军事知识作为基础,该技术便能够对军事指令、相关文书所包含关键信息进行快速、准确的提取。

目前,国内各领域常用命名实体识别算法有两类,分别是统计学习法、词典规划法,作为传统算法的词典规划法,对有关人员所预设规则模式具有较强的依赖性,通常需要先利用字符串进行搜索,再对其进行匹配,由此来达到实体识别的目的。该方法的不足主要体现在以下方面:首先是较易被有关人员所编制规则影响;其次是只有依托知识库才能完成各项操作,同时对知识库规模和存储信息量有较为严格的要求;再次是不具备良好的移植性;最后是无法做到快速且准确的识别全新词汇。作为近几年被研发出来并投入使用的全新算法,统计学习法有效弥补了上述算法所存在不足,不仅在移植性方面具有突出表现,还可被用来对歧义词进行准确区分,由该算法所衍生出神经网络法,现已逐渐取代了词典规划法的地位。神经网络法又可被划分成LSTM、MEMM、HMM 和词向量聚类法,而本文所研究CRF 法,同样属于统计学习法的分支。除此之外,关于对不同算法进行结合的研究也取得了一定的成果,例如,以统计学习模型为基础,通过新增人工定义规则的方式,使人类先验知识和机器学习得到充分结合。

2 算法设计

本文所研究算法的核心功能是依托语料数据集,通过对故障、位置以及解决方案相关的命名关键词进行抽取的方式,构建可被用来指导后续工作开展的三元组。要想保证该算法可发挥出应有作用,关键要对以下内容引起重视:

2.1 确定识别方法

现阶段,对命名实体进行识别的方法有两种,分别是词典及规则识别,统计学习识别。前者出现的时间较早,通常要以专业人员所提供规则模式为依托,搜索并匹配字符段,以此来达到实体识别的目的,该方法的不足是较易被人为规则所影响,在可移植性方面的表现不理想,对知识库内存要求较高,难以做到准确识别新词汇。后者所依托基础为机器学习,不仅有良好的可移植性,还能够做到准确区分歧义词汇,由此而衍生出的方法,主要有LSTM,神经网络法,HMM,MEMM,本项目所采用识别方法为CRF,该方法与NER 的联系极为密切,可有效弥补传统方法的缺陷,保证算法兼具可靠性与普适性。

2.2 建立CRF模型

CRF 是以无向概率图为基础所建立判别模型,该模型将随机输出变量设为随机场,通常不对随机输入变量进行处理,通过弱化假设的方式,保证数据计算效果。现阶段,该模型主要被用来对序列数据进行建模,在该模型中,X 代表模型观测所得随机变量。Y 代表随机输出变量。研究人员以输出假设为依据,利用Y 对随机场进行建立,保证Y 满足以下条件:

假设上述公式对随机场任意结点均成立,便代表在给定输入的前提下,随机变量输出所需各条件可构成随机场,一般用P(Y|X)加以表示。其中,u ≠v 所指代对象为随机场内除结点v 以外的其他结点。w~v 所指代对象为随机场内可直接连接v 的结点w 的集合。Yu 所指代对象为与结点u 相关的各随机变量。Yv所指代对象为与结点v相关的各随机变量。

文本建模所适用CRF 模型见图1。由图1 可知,在对输入文本x 加以确定后,该模型可经由分词以及标注操作,获得相应的语料序列,在此基础上,以训练所得模型参数为依据,对计划输出语料组合所对应条件概率进行准确预测。

图1:CRF 模型结构图

另外,还可以利用参数化形式对模型进行描述,即X 对应输入,Y 对应输出,以X=x 为前提,条件概率P(Y|X)对应Y 取值的分布情况,可利用以下公式进行表示:

在该公式中,Z(x)代表概率归一系数,对其加以表示的公式为:

关于本项目所处理数据集,其输出序列由两部分组成,分别是类别标签和位置标签,类别标签所传递信息是关键词和故障、位置、解法的关系,而位置标签所传递信息,主要是关键词所在位置。与上述标签对应的NER 技术为识别及定位。

2.3 提前处理数据

作为随机数据、非结构数据,文本数据往往不具备直接用于学习模型的条件。提前处理语料数据集,一方面可保证数据格式相同,降低结构化信息的提取难度,另一方面可使冗余数据、噪声数据被消除,为后续的特征选择、NER 处理提供便利。对本项目所涉及数据进行预处理的侧重点,主要是统一格式并分词。研究表明,问答数据集格式并不规整,将其用于常规训练的难度极大,提前整理格式很有必要。对数据格式进行统一,通常需要经过以下两步:

(1)将不具有实际意义的连字符、空格删除。对地理位置进行描述的语料中,通常存在大量连字符,例如,人民大街-20 号或人民大街/20 号。

(2)替换具有特定含义的符号,以方括号为例,训练工具往往会用该符号对复合词进行标注,要想避免出现歧义,研究人员应提前对初始文本非复合词所包含该符号进行替换。另外,训练工具常用符号还包括/,该符号的作用是对词性进行标注,对初始文本进行预处理时,同样需要对该符号进行替换,例如,将平均4 人/户更改为平均4 人一户。

针对以上需求,技术人员提出应将无实际意义的连字符及空格删除,与此同时,还要替换含义特殊的专用符号。

对文本做分词及标注处理的目的,主要是降低关键词提取难度。研究人员计划利用中科院所提供NLPIRICTCLAS,确保数据集得到有效处理。作为对中文进行分词处理的权威工具,NLPIR-ICTCLAS 的训练载体为人民日报,其优势主要体现在两个方面,一是对中文进行快速、准确的分词与标注,二是用户可视情况对词典进行自定义,使混合分词的需求得到满足。事实证明,利用该工具对本项目所涉及语料进行分析,可确保分割粒度符合项目要求,真正做到在保证精确度理想的基础上,对特征集规模严加控制,杜绝拟合问题出现。另外,对分词进行预处理需要完成的任务,还包括对停用词进行准确过滤,在本项目中,停用词的定义是仅保留了基本语法作用的虚词,例如,谢谢、的。停用词在数据集中出现的频率往往较高,但对本文所研究模型并不具有实际意义,将其过滤可有效提升模型计算速度,这点同样需要引起重视。

2.4 准确标注关键词

自动标注可以简单的理解成利用程序对文本涉及故障、位置和解法的关键词进行发现与定位。结合实践所积累经验可知,本项目所选择特征以数量词、界定词和指示词为主,通常可凭借以上特征,对语料数据进行准确区分,为自动处理和后续操作的有序推进提供便利。

数量词是指表示单位和数量的名词,通过观察可知,本项目频繁出现的数量词往往与电费金额相关,常见情形包括“现已补交100 元电费”“电费欠费金额为50 元”。由此可见,对数量词进行准确标注,在识别关键词方面具有重要作用。

界定词指的是特征要素明显的关键词,其和命名实体间往往存在着密切联系,例如,区、街和路。对位置关键词进行识别时,界定词通常发挥着无法被替代的作用,但要注意排除断路、短路等特殊语素,包括断路、短路或是哪条路。

指示词代表和命名实体不存在直接关联,但出现时机与关键词基本重合的特征词。左指示词代表关键词前特征词,右指示词代表关键词后特征词,在本项目所建立数据集中出现频率较高的指示词见表1。研究人员可利用表1 的指示词,对关键词进行快速筛选,但要注意一点,指示词通常包括关键词,句首处标点符号为左指示,句尾处标点符号为右指示。

表1:常见指示词

在训练模型时,研究人员既要标注数据集,还要标注输出数据。本项目对输出语料进行描述的特征为类别、文本位置。除特殊情况外,仅需考虑以上特征,便能使关键词得到准确识别并对其位置加以确定。

经过预处理、标注处理的数据集,通常已被转换成专用知识库,该知识库有输出标签、输入标签对应。基于该知识库完成算法训练操作,便可获得符合电力服务特点和需求的问答模型。

3 研究分析

在确定本项目所使用算法后,研究人员便可将工作重心转向对算法可行性进行验证方面,具体做法如下:

3.1 建立数据集

本文所使用数据集由国家电网客服中心提供,共记录了76000 个客服电话,研究人员将问题尚未解决的电话和标记为“骚扰电话”的电话记录剔除后,获得了符合分析、建模条件的61000 条文本记录。与电力服务有关的其他数据集相比,本文所选定数据集的优点主要是具有良好的真实性及时效性,加之客服中心具有极为广泛的服务范围,这一特点又赋予了数据集更为理想的代表性。

分析表明,每条文本记录均包括以下内容:接线员的员工编号;电话打入和结束时间;客户所在地区;服务评分;通话记录。与此同时,初始记录还附有说明问题解决情况的文本标签,考虑到在前期准备阶段,研究人员已将问题尚未解决的电话记录剔除,在后续分析及建模过程中,相关文本标签可忽略不计。

研究人员以机器学习模型的常规训练方法为依据,最终决定通过随机拆分的方式,将上述数据集分成测试集、训练集两部分,各数据集对应文本记录数量的比值为1:4。

3.2 确定评价指标

本次实验对算法进行评估所用工具为CRF++,作为跨平台软件,CRF++的综合性能较其他测试环境更为理想,这是因为CRF++内置特征模板类型及数量较其他工具更多,可通过自动生成特征函数的方式,获得相应模型。本文所使用CRF++的版本是0.58。

NER 的根本属性为分类问题,对应算法所使用评价指标自然与常规分类模型相同,包括度量F、精确率P 以及召回率R。

在上述公式中,T所指代内容为真阳性样本数,其特点为真实标签和预测结论均是正例。F所指代内容为假阳性样本数,其特点为真实标签是反例,但预测结果是正例。F所指代内容为假阴性样本数,其特点为真实标签是正例,但预测结果是反例。α 所指代内容为F 度量内负责对召回率、精确率占比进行调整的参数,在本项目中,α 的取值为1,又被称作F1 度量,其所描述内容为召回率、精确率平均值。在某些情况下,仅对召回率或是精确率加以使用,将造成错误评估模型的后果,引入度量F 可使召回率、精确率相关参数得到充分整合,该评价指标所具有合理性有目共睹。

3.3 分析实验结果

研究人员利用两组实验测试模型有效性,A 组实验仅用一个特征完成标注操作,B 组实验强调对不同特征加以利用,在此基础上,通过分析不同特征与模型间的关系,得出相应结论。A 组实验的结果见表2、表3、表4。

表2:数量词标注模型表现(单位:%)

表3:界定词标注模型表现(单位:%)

表4:指示词标注模型表现(单位:%)

由此可见,在识别位置实体方面,发挥重要作用的特征词为界定词。关于实体识别,数量词所发挥作用较其他特征词更为突出。指示词可被用来对不同类别实体进行识别。

基于规模不同的训练集对特征组合进行标注,通常可获得描述测试集规模的图形,一般来说,其横坐标代表测试集与全部测试集的比值。纵坐标代表度量值。若训练所用训练集为完整训练集,利用本项目所设计算法识别故障、位置及解法,其度量值分别是92%、96%、95%。另外,研究人员还以数据集相同为前提,对HMM、LSTM 等方法在位置实体识别环节的表现进行了比较。在训练所用训练集是完整集的前提下,相关方法对应度量值分别是92%、91%和84%,由此可见,本文所设计算法在位置识别方面所表现出性能较其他方法更为理想,有大范围推广的意义。

4 研究展望

本文以条件随机场为基础,结合电力智能问答特点及需求,对命名实体识别算法进行了设计。该算法所具有优势主要体现在以下方面:

(1)对文本结构、其与上下文间的关联进行了充分考虑。

(2)对专用知识库进行了建立,根据电力服务需要达到的水平,对知识库建立流程进行了梳理。但要注意一点,CRF 模型往往需要付出较大的计算代价,尤其是在同时存在数个组合的条件下,要想利用该算法对准确率进行提高,通常需要在前期准备阶段投入大量时间对模型进行训练,由此而造成的问题,主要是无法保证模型具备良好实用性。未来研究的重点应向优化、调整训练过程倾斜,在保证训练效果理想的基础上,对训练速度进行提升。

5 结论

本文以NER 为基础,对符合电力智能问答特点的、对命名实体进行识别的算法进行了设计。该算法以数量词、界定词及指示词为依据,分别识别与故障、位置还有解法相关的关键词,在此基础上,对实体三元组进行构建,优势是对文本结构和内在联系进行了充分考虑。事实证明,基于该算法识别故障、位置还有解法的命名实体,在准确度方面的表现十分突出,可投入使用。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!