时间:2024-12-28
张立凡
(太原工业学院 计算机工程系,山西 太原 030008)
基于规则和分类模型的核心目标词识别研究
张立凡
(太原工业学院 计算机工程系,山西 太原 030008)
核心目标词识别是对一条待测句子,识别出句子中能够激起核心语义场景的目标词.文章把核心目标词识别任务分成基于规则过滤识别阶段和基于分类模型识别阶段.利用预先构建的词元表对待测句子中的词进行筛选,识别出候选目标词,使用基于分类模型的识别方法,构建分类特征模板,最终确定句子的核心目标词.文章在汉语框架网的标注语料集上进行测试,实验结果表明,相比于基于规则过滤识别阶段,基于分类模型识别阶段识别率有显著地提升.
框架语义分析;核心目标词识别;分类模型;汉语框架网;规则过滤
汉语框架语义分析[1]以框架语义学[2]为理论基础,借助汉语框架网[3]的标注资源,识别句子中的目标词,选择目标词所激起的框架,标注框架的语义角色,构建框架语义依存图,达到对句子的语义分析.汉语框架语义分析的研究包括目标词识别、目标词所激起框架选择和框架元素标注3个子任务.
目前,与目标词识别任务相关的研究,主要有目标词扩展和目标词识别两方面的工作.针对目标词扩展,Jahansson[4]与Das等[5]认为待识别的目标词包含在例句和训练集词表中,利用规则筛选目标词.文献分别利用WordNet 和SIM[6]词典,识别和收集语义近似的目标词,实现目标词的扩展.针对目标词识别,文献[7]使用基于规则的目标词过滤方法进行判定,若判定为非目标词,利用基于监督学习的方法予以修正.文献[8]利用分类模型,在特征模板中加入同义词词林编码信息来识别句子中的核心目标词,但同义词词林信息的加入会导致识别性能下降.现有的研究,大多是将句子中的所有目标词识别出来,而没有进一步地分析和识别句子中的核心目标词,这样不利于框架语义依存图的构建.
在上述研究的基础上,针对只包含一个核心目标词的句子,本文将核心目标词识别任务分为两个阶段,利用预先构建好的词元表,筛选出句子中的所有目标词,并使用规则扩充候选目标词表,在分析词法特征、上下文特征和依存特征的基础上,构建特征模板,结合分类模型识别出句子中的核心目标词.
1.1 相关概念
概念1 汉语框架网[3]
汉语框架网(Chinese FrameNet,CFN)是以Charles J.Fillmore的框架语义学为理论基础,参照加州大学伯克利分校的FrameNet工程,构建的以汉语真实语料为依据,可供计算机使用的汉语词汇语义知识库.汉语框架网由框架库、句子库和词元库三部分组成.词元库记录词元的语义搭配模式和框架元素的句法实现方式.
概念2 框架[9]
框架是指与一些激活性语境相一致的结构化范畴系统,它是储存在人类认知经验中的图式化情境,是理解词语的背景和动因.
概念3 词元
在框架语义学中,词通常被称作为词元.
概念4 核心目标词[8]
当词元在句子中能够激起语义场景时,被称为目标词.在一条包含多个目标词的句子中,如果某个目标词激起的框架及其在句中所支配的框架元素依存项相比其他框架更能完整表达该句的核心语义,该目标词即为核心目标词.
在图1中,给出了例句“根据周恩来的指示,贺龙等绕道香港去上海寻找党中央.”的框架语义标注.在例句中,“去”和“寻找”都是目标词,而“寻找”是核心目标词.
图1 例句“根据周恩来的指示,贺龙等绕道香港去上海寻找党中央”的框架语义标注
1.2 问题形式化描述
则核心目标词识别任务,可形式化地描述为:
图2 核心目标词识别系统框架图
针对核心目标词识别任务,本文分解成两个阶段进行识别,分别是基于规则的目标词过滤和基于分类模型的目标词识别,具体的框架流程见图2.基于规则的目标词过滤阶段主要的工作是词元表的构造和句子的预处理.其中,词元表是从汉语框架网的词元库先抽取出来的.句子预处理主要是对例句库中的句子进行分词和词性标注.对于一条待分析的例句,经句子预处理的处理,结合词元表,会初步构成一个候选目标词词表.基于分类模型的目标词识别阶段,主要处理的是在候选目标词词表中多个目标词的句子.经过这一阶段的处理后,能够识别出句子中有多个目标词句子的核心目标词.
2.1 基于规则的核心目标词识别
本文提出的基于规则的核心目标词识别方法,假设目标词必须出现在预先构建的词元表中.在词元表中每个词元由词元的词形和词性构成.对例句库中的例句分词后,发现有些目标词分词后,会将词拆分开,不利于后续目标词的识别.本文在对例句预处理后结果的分析和总结基础上,制定了目标词识别规则,详见表1.通过规则的过滤,不仅减少了因分词错误对目标词识别性能的影响,也缩减了目标词识别的范围.
2.2 基于分类模型的核心目标词识别
基于分类模型的核心目标词识别是在规则过滤的基础来进行的,这一阶段是对候选目标词表中的目标词识别.本文将核心目标词识别任务看作是一个二分类问题,即判断候选目标词表中的词是否是待测句子的
表1 规则表
核心目标词.分类模型选择常用的分类模型最大熵模型.
针对目标词识别任务,本文抽取待测句子的词法特征、上下文特征和依存特征.词法特征是为了分析句子词法层面对目标词识别的影响,抽取的是当前词(目标词)的词性、词.上下文特征主要考察的是目标词的搭配,通过开窗口的技术,分析目标词的识别和哪些范围的词存在搭配关系.依存特征是利用哈工大的依存句法分析器的分析结果进行抽取,抽取与目标词相关联的父节点依存成分(依存关系、词性和词形)和子节点依存成分(依存关系、词性和词形),以图1的例句“20年后,他回到了出生时的老家.”使用依存句法分析后的结果如图3.根据上述的三类特征,详细的特征描述见表2.
表2 分类特征描述
图3 依存句法分析结果
为了详细地描述各类特征的抽取,以图1例句为例阐述.在抽取的过程中,若某些特征不存在,则将其设置为“NULL”.由于在依存句法结构中,每个节点只有一个父节点,但可以有多个子节点且不确定,本文假设一个节点最多有3个子节点,节点抽取的顺序是按照在句子中出现的先后位置抽取的.对于目标词“寻找”,其词法特征、上下文特征和依存特征分别为:
·词法特征 寻找v
·上下文特征 假设k=1,则窗口大小为[-1,1],其上下文特征为: 上海ns党中央ni
·依存特征 目标词父节点的依存关系:COO目标词子节点的依存关系:VOB NULL NULL目标词父节点的词形:去目标词父节点的词性:NULL目标词子节点的词形:党中央NULL NULL目标词子节点的词性:ni NULL NULL
3.1 实验语料和评价指标
实验语料来源于汉语框架网中的例句库.本文选取汉语框架网例句库中30个常用框架的例句进行实验.实验语料的统计如表3.
表3 实验语料统计
本文采用准确率P(Precision)、召回率R(Recall)和F值(F1-Measure)评价目标词的识别性能.为了避免实验过程中由语料规模小引起的过拟合问题,采用3折交叉验证进行实验.
(1)
(2)
(3)
(4)
其中,在公式(1)和公式(2)中A表示正确识别的核心目标词个数,B表示识别到的所有核心目标词个数,C表示实验的句子总数.在公式(4)中,Pi表示使用第i份语料得到的准确率,由于基于分类模型的核心目标词识别实验中,采用3折交叉验证.
3.2 基于规则的核心目标词识别结果与分析
不同的框架其语义搭配模式也不同,为了考察规则对核心目标词的影响,本文对语料集中的30个框架,分别用准确率、召回率和F值来评价规则对识别性别的影响,具体的实验结果见表4.
从表4中可以看出,每个框架的准确率都在30%以下,召回率集中在80%以上,F值在30%左右,总体的平均准确率为19.75%,平均召回率为81.89%,平均F值为31.64%,呈现出低准确率和高召回率的现象.通过对结果进行分析后发现:
1)实验语料集中,大多数的句子都包含多个目标词.一个句子中,核心目标词只有一个,经过过滤规则后,核心目标词和非核心目标词都会被识别出来,从而非核心目标词多于核心目标词,使得核心目标词识别的准确率低.
2)实验语料集中的句子都来自于例句库,理论上,其召回率应该在100%.在表4中,“值得”和“指望”框架例句的识别率却低于50%中.其原因是,包含这两个框架的句子在分词和词性标注上存在问题,表1中设计的12条规则并未覆盖到这两个框架.
3.3 基于分类模型的核心目标词识别结果与分析
本文使用哈尔滨工业大学社会计算与信息检索研究中心的语言处理集成平台LTP[10]对语料进行预处理.结合表1中特征,设计了6个特征模板.具体的特征模板及组合如表5.
表4 基于规则的核心目标词识别结果
表5 特征模板描述
为了验证窗口大小和最大熵模型的迭代次数对核心目标词识别性能的影响,使用表5中的T1模板,窗口大小分别设置为[-1,1],[-2,2]和[-3,3],迭代次数设置范围为[50,500],相邻迭代次数相差50,并与工具包中的默认参数30做对比.具体的结果,如图4所示.
图4 迭代次数和窗口大小的散点图
从图4中可以看出,窗口大小为[-1,1]的时候识别性能最好,且迭代次数为100的时候,实验结果基本趋于稳定.因此,在后续的实验中,窗口大小设定为[-1,1],最大熵模型的迭代次数设定为100.
本节实验用张乐的最大熵工具包和表5中的特征模板进行核心目标词识别.为了避免特征稀疏,本节实验的语料集是将30个框架的例句合并在一起实验,并将实验语料集分为3份,进行交叉验证.使用分类模型识别的核心目标词只有一个,因而,公式(1)中的B值和公式(2)中C的值相等,即准确率、召回率和F值相等.此外,实验采用3折交叉验证,故实验结果用公式(3)来衡量.实验结果见表6.
表6 基于分类模型的核心目标词识别结果
综合表4,表6和图4,可以得出如下结论:
1)经过规则过滤后,可以快速地将核心目标词锁定,并缩减了核心目标词的识别范围.但对核心目标词的确定,仅靠规则还很困难.
2)窗口大小为[-1,1]时,核心目标词的识别性能最佳.可见,目标词的确定与其紧邻的上下文密切相关,远距离的特征会加入噪音信息,使得识别性能下降.
3)依存特征的加入并未提升核心目标词识别性能的,反而稍有下降.对实验结果分析后,发现是因为很多核心目标词在依存句法中充当谓词的角色,其父节点的词形、词性值为NULL,造成依存特征稀疏.
4)在5组有关依存特征的实验中,T4相对最佳,说明核心目标词与其父节点和子节点的依存关系有紧密的联系.
5)相比于基于规则过滤的方法,基于分类模型的方法,在准确率、召回率和F值都有显著地提升.
针对框架语义分析中的目标词识别任务,主要研究核心目标词的识别,本文将其分为规则过滤和分类模型识别两个阶段.在规则过滤阶段,使用词元表和规则缩减目标词的识别范围.在分类模型识别阶段,使用词法特征、上下文特征和依存特征构造不同的模板结合最大熵分类模型,分析影响核心目标词识别的因素.基于规则过滤的识别方法缩减了目标词的识别范围,能够快速地找出目标词.对于基于规则过滤阶段一个句子中多个目标词的情况,基于分类模型的识别方法可以有效地提升识别的准确率.
由于数据规模相对较小和规则总结的不全面,导致依存特征在基于分类模型的识别方法中效果并不佳.在以后的工作中,将不断地扩充质量较高的语料,改善数据稀疏,丰富例句库.同时,将尝试加入语义特征,提升核心目标词识别的性能.
[1] 李 茹.汉语句子框架语义结构分析技术研究[D].太原:山西大学,2012
[2] Fillmore C.Frame semantics[J].Linguistics in the morning calm,1982:111-137
[3] 刘开瑛.汉语框架语义网构建及其应用技术研究[J].中文信息学报,2011(25):46-53
[4] RICHARD Johansson,PIERRE Nugues.LTH:semantic structure extraction using nonprojective dependency trees[C]//Proceedings of the 4th International Workshop on Semantic Evaluation.Stroudsburg:Association for Computational Linguistics,2007:227-230
[5] DIPANJAN Das,NATHAN Schneider,DESAI Chen,et al.Probabilistic frame-semantic parsing[C]//Human language technologies:the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg:Association for Computational Linguistics,2010:948-956
[6] LIN Dekang.Automatic retrieval and clustering of similar words[C]//Proceedings of the 17th international conference on Computational Linguistics-Volume2. Stroudsburg:Association for Computational Linguistics,1998:768-774
[7] 陈亚东,洪 宇,杨雪蓉,等.面向框架语义分析的目标词自动识别方法[J].山东大学学报(理学版),2015(7):45-53
[8] 石 佼,李 茹,王智强.汉语核心框架语义分析[J].中文信息学报,2014(6):48-55
[9] 郝晓燕,刘 伟,李 茹,等.汉语框架语义知识库及软件描述体系[J].中文信息学报,2007,21(5):96-100
[10] Che W,Li Z,Liu T.Ltp:A Chinese language technology platform[C]//Proceedings of the 23rd international conference on Computational Linguistics: Demonstrations.Association for Computational Linguistics,2010:13-16
Core Target Words Identification Based on Rules and Classification
ZHANG Lifan
(School of Computer Engineer,Taiyuan Institute of Technology, Taiyuan 030008, China)
For a testing sentence, core target word identification is identified the target word which can evoke core semantics scene. It is divided core target word identification into rules filter and classification. It uses pre-built lemmas table to sift the words in a sentence, identifies the candidate target words, combines the classification model and feature templates, and finally determines the core target word. Testing on Chinese frame network, the results show that the classification has been increased significantly against rules filter.
frame semantics; core target words identification; classification; chinese framenet; rules filter
2016-08-06
张立凡(1987-),女,山西忻州人,硕士,太原工业学院助教,主要从事人工智能研究.
1672-2027(2016)03-0032-07
TP391
A
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!