时间:2024-05-04
王辉 Marius. Petrescu 潘俊辉 王浩畅 张强 张岩
摘 要:中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直接影响后期数据综合分析准确度。对中文真词错误成因和统计语言模型进行分析,提出一种面向油田领域的中文真词错误自动校对方法。该方法首先构建通用领域和油田领域混淆集,再引入同义词集丰富知识库,对语料分词后,综合统计分析目标词与混淆词、周边词的同义词之间关系,自动校对真词错误。实验表明, 提出的方法能有效校对油田领域的中文真词错误。
关键词:真词错误; N-gram; 文本自动校对; 知识库构建
中图分类号:TP391 文献标识码:A
Research on Chinese Real-word Error
Automatic Proofreading For Oilfield
WANG Hui1,Marius. Petrescu2,PAN Jun-hui1,WANG Hao-chang1,ZHANG Qiang1,ZHANG Yan1
(1.Department of Computer and Information Technology, Northeast Petroleum University, Daqing,
Heilongjiang 163318, China; 2. Petroleum-Gas University of Ploiesti, Ploiesti 100680, Romania)
Abstract:Automatic proofreading of Chinese real-word errors is an important and basic research issus in NLP, in the process of oil field digitization, Chinese real-word errors generated by image recognition and manual input, which will directly affect the accuracy of later data comprehensive analysis. This paper analyzes the cause of Chinese real-word errors and statistical language models, and proposes an automatic proofreading method of Chinese real-word errors for oilfield. First the confusion sets of general domain and oilfield domain are constructed, then the knowledge base is enriched by adding synonyms set. After word segmentation, the relationship between target word and synonyms words of confosed words and peripheral words was analyzed by comprehensive statistics, real-word errors are automatically checked. Experimental results show that the method proposed can effectively proofread Chinese real-word errors in oilfield.
Key words:real-word error; N-gram; text automatic proofreading; knowledge base construction
教育部、國家语委印发的《国家中长期语言文字事业改革和发展规划纲要(2012-2020年)》[1]中提出必须强化国家通用语言文字规范意识,加强语言文字规范标准建设,进一步提高信息化水平。一直以来,中文文本自动校对都是自然语言处理的一个重点研究课题。随着油田数字化的迅猛发展和推广实施,油田数据质量问题逐渐凸显,直接决定着综合分析实际生产状态、后期的应用拓展及战略决策的优劣。因此,中文文本错误的校对技术对油田数字化的容错性,以及数据质量的提高有着非常重要的意义。
首先构建了油田领域真词错误混淆集知识库,增加了同义词集,利用NLPIR分词系统对文本进行分词处理,在统计语言模型基础上,提出一种基于局部特征的同义词泛化N-gram模型,应用于油田特定领域的中文真词错误自动校对。
1 相关工作
1.1 油田领域数据质量控制概况
为解决油田数据质量问题,各油田纷纷研发了各自独有的数据质量评估系统,数据规范性逐渐成为关键的评价指标[2]。油田数据可分为数值数据与文字数据。数值数据来源于各类数据采集设备,主要通过质量规则库中预先定义的业务规则监督和管理,近年来各油田已取得显著成效[3]。文字数据来源于人工录入或陈旧图纸图像识别入库,不可避免会产生错录,如“自然伽马曲线”误录成“自然伽玛曲线”,平台自动处理时将无法提取到某井自然伽马曲线数据,导致测井数据的假缺失,目前以采用数据反馈和人工校正核对处理方式居多,严重影响后期综合分析的准确率和数字化平台自动处理水平。
1.2 中文文本错误概述
中文文本错误可分为非词错误和真词错误。非词错误,指该词不在词典中,如“小层深度”错写成“小曾深度”,“小曾”不在词典中。真词错误,指错词仍在词典中,如“自然伽马曲线”错写成“自然伽玛曲线”, “伽马”与“伽玛”都在词典中。然而这些常见用语是油田专业术语,在传统词典和语料库中出现频率非常低。
英文文本自动校对研究起源于上个世纪六十年代,针对其拼写特点,在真词错误自动校对中用到了统计方法[4]、语言学方法[5]、深度学习方法[6]和混合方法等。中文真词错误校正研究在上个世纪九十年代才开始起步。2012年,吴林等利用多层级基于知识库的查错模型,提升了语法和语义查错效果[7]。2013年,刘亮亮等通过对合并的散串聚类及对其语境的统计分析,提出一种自动获取错别字方法[8]。2017年,薛鑫将统计机器翻译和神经网络机器翻译相结合,展开近音错别字研究,选取候选句中最佳正字句[9]。
1.3 分词技术
中文撰写方式不同于英文,词与词之间没有明显分隔符,在处理自然语言之前,必须先进行分词处理。国内几所知名大学和科研机构相继研发了各自实用的分词系统,主要采用基于词典的分词方法、基于统计的分词方法和基于理解的分词方法[10]。中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),在分词精确度和分词速度上都占据明显优势,堪称效果最佳的开源分词系统,主要功能包括中文分词、词频统计、新词识别及关键词提取等,并从2009年调整命名为NLPIR分词系统。
1.4 统计语言模型
随着自然语言理解技术的发展,在传统的语言模型中,统计语言模型(Statistical Language Model)被广泛应用于机器翻译、语音识别和拼写纠错等领域[11]。常用的统计语言模型有贝叶斯分類、贝叶斯混合方法、互信息及N-gram模型等。
最常用的识别真词错误的是基于概率统计的N-gram统计语言模型,选择高概率序列为纠错建议候选列表。N-gram模型不需要依赖混淆集,模型大小随着训练语料大小成指数增长,但却需要面对数据稀疏问题,一般常采用2-gram或3-gram。
2 知识库构建
提出的面向油田领域的中文真词错误自动校对方法,侧重于结合混淆集和同义词集知识库。其中,混淆集除了含有通用的中文真词混淆集外,必须用到含有油田领域术语在内的中文真词混淆集,故需构建特定领域中文真词混淆集。
2.1 通用领域中文真词混淆集构建
对于通用领域的中文真词混淆集构建,近年来已有学者深入研究。利用张仰森由音似、形似、义似汉字构建的混淆集[12]和汉语词典,采用施恒利提出的汉字种子混淆集构建方法构造通用领域中文真词混淆集[13],筛选出500组通用混淆集数据,如表1所示。
2.2 油田领域中文真词混淆集构建
在缺乏油田领域真词混淆集前提下,利用刘希圣等主编的《石油技术辞典》,整理现有语料真词错误,采用张俊祺提出的结合依存句法分析方法构建油田领域中文真词混淆集[14],因特定领域语料规模有限,选取全部的632组油田领域混淆集数据,如表2所示。
2.3 同义词集合构建
参照梅家驹等编著的《同义词词林》[15]构建同义词集合,最终筛选了500组同义词集,如表3所示。
3 基于局部特征的同义词泛化N-gram模型
3.1 基于局部特征的N-gram模型
N-gram模型以马尔可夫模型为基础,统计邻接词共现频次,以反映句子中是否存在真词错误。对句子分词S=w1,…,wi,…,wm,统计同音词的左邻接二元、右邻接二元、左邻接三元和右邻接三元共现频次,分别计算2-gram和3-gram,采用极大似然估计计算N-gram概率,则在wi-1,wi+1出现的条件下,当count(wi-1wi)≠0时,wi出现的左右邻接二元概率定义为:
PL(wiwi-1)=count(wi-1wi)count(wi-1)(1)
PR(wiwi+1)=count(wiwi+1)count(wi+1)(2)
式中,count(wi-1wi),count(wi-1),count(wiwi+1),count(wi+1)分别为wi-1wi,wi-1,wiwi+1,wi+1出现的频次。PL(wiwi-1)表示wi与wi-1同时出现的概率,PR(wiwi+1)表示wi与wi+1同时出现的概率。同理,wi出现的左右邻接三元概率定义为:
PL(wiwi-2wi-1)=count(wi-2wi-1wi)count(wi-2wi-1)(3)
PR(wiwi+2wi+1)=count(wiwi+1wi+2)count(wi+1wi+2) (4)
式中,count(wi-2wi-1wi),count(wi-2wi-1),count(wi+1wi+2),count(wiwi+1wi+2)分别为wi-2wi-1wi, wi-2wi-1, wi+1wi+2,wiwi+1wi+2出现的频次。PL(wiwi-2wi-1)表示wi与wi-2wi-1同时出现的概率,PR(wiwi+1wi+2)表示wi与wi+1wi+2同时出现的概率。则基于局部特征的N-gram概率可记为:
P1(wi)=αLPL(wiwi-1)+αRPR(wiwi+1)+
α′LPL(wi|wi-2wi-1)+α′RPR(wi|wi+2wi+1) (5)
式中,αL+αR+α′L+α′R=1
3.2 基于局部特征的同义词泛化N-gram模型
运用N-gram模型进行评估时,不可避免会遇到数据稀疏问题,一般采用加法平滑、Good-Turing平滑、Kata平滑等数据平滑技术来解决。针对这个问题,顾德之[16]提出同义词泛化极大三元概率的概念,在此基础上,对模型继续改进,提出一种基于局部特征的同义词泛化N-gram模型,利用改进的二元和三元概率,综合考虑词与混淆词、周边词的同义词之间关系。wi出现的左右邻接二元概率、三元概率重新定义为:
PL(wiwi-1)=max count(u1wi)count(u1)(6)
PR(wiwi+1)=max count(wiu′1)count(u′1)(7)
PL(wiwi-2wi-1)=max count(u2u1wi)count(u2u1)(8)
PR(wiwi+2wi+1)=max count(wiu′1u′2)count(u′1u′2)(9)
式中,u1属于wi-1的同义词集合,u′1属于wi+1的同义词集合,u2属于wi-2的同义词集合,u2属于wi+2的同义词集合。将公式6、7、8、9代入公式5,得出基于局部特征的同义词泛化N-gram概率。
本文认为所得到最高概率数值的就是正确的词,将其与句中原词对比,若不同则将其替换。
4 实验结果与分析
4.1 实验数据获取及预处理
从已通过OCR识别或者人工方式录入数据的油田数据库中,随机抽取300个句子(不区分长句、短句),人工标记错误。同时,为了丰富实验数据,利用将目标词随机替换成混淆集或同义词集中词语方式自动生成200个错句。
实验中,随机抽取350个句子作为训练集,剩余150个句子作为测试集。最后,采用NLPIR分词系统对文本进行分词预处理。
4.2 评价指标
采用文本校对问题常用的部分性能评价指标,主要有召回率(Recall),精确率(Precision),标准测度F(F_meature),如下所示。
Recall=xz (10)
Precision=xy (11)
F_meature=2×Precision×RecallPrecision+Recall(12)
x代表正確校对的错误数量,y代表检测到的错误数量,z代表所有实际错误数量。F_meature为标准测度,综合考虑了Precision和Recall影响。
4.3 实验结果对比分析
为验证本文提出的方法,对普通2-gram模型、左右邻接2-gram模型、普通3-gram模型、左右邻接3-gram模型、基于局部特征的N-gram模型、基于局部特征的同义词泛化N-gram模型分别进行实验。在本文中,认为左右邻接二元与三元概率同等重要,αL、αR、α′L、α′R均取0.25。将其分别应用于通用领域和油田领域结合的混淆集,得到的实验结果对比如表4所示。
普通3-gram比普通2-gram召回率明显提高了10个百分点,标准测度略有提升,但精确率略有下降。主要是3-gram有很大的几率会造成数据稀疏;左右邻接N-gram各项指标都比普通N-gram效果好很多,其中当N分别取2和3时,实验结果精确率和标准测度相差不大,左右邻接3-gram的召回率比N取2时效果略好,但却比普通3-gram召回率略低。由于基于局部特征的N-gram模型综合考虑了左右邻接2-gram和左右邻接3-gram,召回率与精确率明显提升很多,标准测度与左右邻接3-gram相差无几。所提出的基于局部特征的同义词泛化N-gram模型,在中文混淆集中加入了同义词集,使得各项实验指标明显提高。
5 结 论
将通用领域中文错误混淆集和构建的油田领域中文错误混淆集相结合,再引入同义词集,以基于局部特征的N-gram统计语言模型为基础,构建一种针对油田领域的中文真词错误自动校对方法。实验结果表明,相比采用普通N-gram、左右邻接N-gram以及基于局部特征的N-gram,本文提出的校对方法效果最佳,各项指标都有明显提升。下一步将完善油田领域混淆集,研究多字错误、少字错误校对方法,提升校对准确率。
参考文献
[1] 教育部语用司.《国家中长期语言文字事业改革和发展规划纲要(2012-2020年)》[J].语文建设,2013,(28):163.
[2] 许立伟.油田开发数据质量的流程化控制研究[J].中国石油和化工标准与质量,2014,34(6):239.
[3] 王浩毅,何小斌,黎恒.油田数字化的发展研究[J].现代工业经济和信息化,2016,6(17):86-87.
[4] SHARMA S,GUPTA S.A correction model for real-word errors[J]. Procedia Computer Science,2015,70:99-106.
[5] 张帆,王敏.基于深度学习的医疗命名实体识别[J].计算技术与自动化,2017,36(1):123-127.
[6] ZHOU J,LI C,LIU H,et al.Chinese grammatical error correction using statistical and neural models[C].7th CCF International Conference,NLPCC 2018:Natural Language Processing and Chinese Computing:117-128.
[7] 吴林,张仰森.基于知识库的多层级中文文本查错推理模型[J].计算机工程,2012,38(20):21-25.
[8] 刘亮亮,王石,王东升,等.领域问答系统中的文本错误自动发现方法[J].中文信息学报,2013,27(3):77- 83.
[9] 薛鑫.基于机器翻译模型的汉语近音错别字校对方法研究[D].哈尔滨:黑龙江大学,2017.
[10]张俊飞,毕志升,王静,等.基于BLSTM-CRF中文领域命名实体识别框架设计[J].计算技术与自动化,2019,38(3):117-121.
[11]潘俊,吴宗大.词汇表示学习研究进展[J].情报学报,2019,38(11):1222-1240.
[12]张仰森,曹元大,俞士汶.基于规则与统计相结合的中文文本自动查错模型与算法[J].中文信息学报,2006,20(4):1-7.
[13]施恒利,刘亮亮,王石,等.汉字种子混淆集的构建方法研究[J].计算机科学,2014,41(08):229 -232.
[14]张俊祺.面向领域的语音转换后文本纠错研究[D].广州:华南理工大学,2019.
[15]梅家驹,竺一鸣,高蕴琦,等.《同义词词林》[M].上海:上海辞书出版社,1983.
[16]顾德之.中文真词错误自动校对方法研究[D].镇江:江苏科技大学,2017.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!