时间:2024-05-04
吴 芳 丁 玲 张 杰 刘金亮
摘要:网络的发展和世界语言的多样性使跨语言信息检索(CLIR,Cross Language Information Retrieval)倍受关注。但用户查询与文档用词不匹配成为影响检索效率的重要原因。为此,本文提出了一种基于领域本体的跨语言信息检索模型,以解决传统CLIR查询效率低下的问题。
关键词:智能信息检索;查询扩展;本体
中图分类号:G642 文献标识码:B
1问题的提出
现代企业的国际化导致企业内部存在多种语言,这使跨语言信息检索CLIR(Cross Language Information Retrieval)备受关注,可是现存的跨语言信息检索系统大多使用基于关键词的单纯字符匹配的检索策略,只有当查询词出现在文档中时,才有可能被找到,这种检索系统无法提供基于概念的智能检索。例如,用户输入查询“trip”,可是包含“journey”和“travel”的文档却不能够被检索出来。由于大量同义词和多义词的存在,用户查询相关文档时一些内容由于用词不同而无法被检索出来,这种用词不匹配问题是长期困扰并影响信息检索效率的重要原因之一。
解决此问题的有效的方法是使用查询扩展策略。查询扩展是将用户输入的原始查询请求经过概念提取后,自动地根据用户的语义,加入新的检索词或短语。最终的查询请求是基于用户原始查询请求中关键词的一系列同义词及相关词。经过查询扩展后的系统具有很高的查询效率。
要实现上面的智能查询,查询扩展的构造是非常关键的。当前构造查询扩展的方法大致有两种:一种是基于语义词典的方法,如WordNet;另外一种是基于统计的方法,如基于关联共现频率的统计方法。本文提出了一种基于双语本体(Ontology)的跨语言查询扩展模型,利用领域本体在知识表示和知识描述方面的优势,实现基于概念的智能查询扩展。我们构建了一个旅游领域的跨语言信息检索模型,使用基于旅游领域本体对查询进行扩展。结果表明采用基于本体的查询扩展方法能够有效改善检索的性能。
2相关概念和技术
(1)CLIR (Cross-Language Information Retrieval):用户用某种语言(比如中文)表示的检索条件,检索由多种语言(比如中文、英文、德文、日文等)组成的文档集,我们称之为跨语言信息检索。
(2) 本体:本体是共享概念模型的明确的形式化规范说明。这个定义包含了概念模型、形式化、明确、共享4层含义。概念模型,通过抽象出客观世界中一些现象的相关概念而得到的模型,其表示的含义独立于具体的环境状态;明确,所使用的概念及使用这些概念的约束都有明确的定义;形式化,Ontology是计算机可读的;共享,Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。
本体的目标就是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义,为基于知识的信息检索提供基础。
3系统结构和实施
3.1模块功能
我们实现的是一个关于旅游知识的智能跨语言搜索引擎,利用本体在知识表述和知识描述方面的优势,对查询进行扩展,从而提高检索的效率。模型主要由四大模块组成:过滤模块,翻译模块,查询优化模块,和检索模块。下面将对各个模块进行介绍:
过滤模块
过滤模块的任务是对用户的输入进行中文分词,分词后过滤掉无用词,如“的”“呀”等,取出查询的中心词。过滤模块由中国科学院的分词系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)改进而来。先对用户的输入进行分词,然后过滤无用词,取出中心词。我们的智能检索系统就把这些中心词作为处理的对象。
翻译模块
跨语言信息检索中,关键技术就是实现目标语言和源语言的统一。在系统中我们使用的是提问翻译策略,也就是将查询提问中的源语言翻译成目标语言,然后再利用由目标语言构成的检索去查找相关信息。我们采用的是基于专业词典的翻译方法。中心词经过翻译模块的翻译后,把翻译结果和原中心词一并传给语义模块,接下来语义模块对这些中心词进行语义处理。
查询优化模块
查询优化模块是整个系统的核心部分,在查询优化模块中,我们利用本体良好的概念层次和对逻辑理解的支持,帮助信息搜索引擎对潜在的目标对象进行甄别和判断,从而构建智能化的搜索引擎。在这里,我们使用了英汉本体库分别对中英文关键词进行扩展。
使用斯坦福大学设计的protégé软件来管理和维护本体知识库,本体我们使用的是来自于http://protege. stanford.edu 的travel. owl,并把它翻译为相应的中文本体以供使用。同时,我们使用惠普的开放资源Jena对本体进行处理。Jena是创建语义应用系统的java框架结构,为本体文件提供了一个程序开发环境。我们通过创建本体模型,对Ontology资源进行处理。通过本体模型查找本体中的相关类,也就是用户要查找的相关概念,找到这个相关类之后,再对其进行语义化处理。
系统对相关类进行语义化处理,考虑下面的情况:
① 相似类,即同义词关系:概念与概念之间的意思相同或非常相近,往往可以相互替换,如计算机、电脑和PC。在模型中,我们需要提取相似类。
② 类的上下层关系:包括父类与子类的关系和类与其下的实例(Instance)的关系。如植物是生物的子类,菊花是植物的实例(Instance)。在模型中,我们需要提取下层子类。
③ Disjoint类:即类与类之间不可有共同的实例。例如,“植物”下的实例“菊花”,它要么属于“植物”类,要么属于“动物”类,不能够同时属于“植物”类和“动物”类。在这里“菊花”是“植物”类下的实例。在模型中,我们需要排除Disjoint类及其Disjoint类的实例。
④ 其次,如果用户提出的查询请求是词组或者一句话,还要考虑其中各中心词之间的语义关系。例如:用户需要检索旅游中的“非冒险活动”,系统就需要在旅游活动中排除“冒险性的活动”。
中心词经过语义扩充后,被传递给检索模块,最后由检索模块完成检索任务。如图1所示。
检索模块
检索模块是由Lucene构建的基于关键词的全文检索系统,使用的是基于自动分词的倒排索引原理。在检索模块里,lucene首先对文档建立全文索引,然后对索引进行检索,返回给用户查找的结果。
Ontology—CLIR的流程的第一步就是对用户输入的查询语句进行分词,取出查询中的中心词,然后将它们传递给翻译系统进行翻译,翻译过后把翻译结果(英文)和原分词结果(中文)递交给语义系统;语义系统对这些检索词进行扩展后把它们交给检索系统,最后由检索系统完成检索。
我们使用领域Ontology中包含的领域专业词典对递交过来的检索词进行分析,将查询请求Q1, 2,…n,分为两个部分:一是在本体库中所覆盖到的关键词O1, 2,…,n,二是不在本体库中的其他单词B1, 2,…,n。语义模块开始在本体库中查找到O1, 2,…,n的语义描述,为检索模块提供了比一般的CLIR方式更准确丰富的信息内容,然后把语义描述交给检索模块得到检索结果Result1。B1, 2,…,n则直接被传递给检索模块,得到检索结Result2,最后返回给用户结果是Result1与Result2的和。
3.2基于语义模型的主要检索算法描述
输入:查询请求Q
输出检索的结果:Result
Begin //算法开始
Result={ } //清空
Result1={ } //清空
Result2={ } //清空
//分词和翻译
Begin
1.分词,取出中心词;
2.中心词分类,属于本体的置于O,不属于本体的置入B;
3.对O进行语义获取(解析子类、Instances,排除disjoints classes等);对B只进行翻译;
End;
//使用本体进行查询扩展后(即语义获取),将扩展结果置入O;
//对每一个检索对象进行下面操作
Begin
1.使用本体进行查询扩展;
2.若O不为空,则使用O进行全文检索,得结果集Result1;
3.若B不为空,则直接使用B进行全文检索,得结果集Result2;
4.Result=Result1+Result2;
End;
End;//算法结束
4系统性能测试
为了检测出这种基于本体的智能检索方法的有效性,我们进行了相关的实验。检索资料来自于新浪或雅虎的关于旅游的相关文章,共 97 篇。两个搜索引擎:智能CLIR和传统CLIR,传统搜索引擎由Lucene构建,采用的是基于专业旅游词典的翻译策略。智能搜索引擎在传统搜索引擎的基础上由OWL本体扩展而构建。我们的检索领域是关于旅游出游的相关知识。
平均查准率/查全率曲线是评价一个检索算法的有效方法。我们取足够多的查询实例,并得出他们的查全/查准率曲线,依次求某查全率下这些查询实例的查询率的平均值,就得出了图2所示的平均查全率/查准率曲线图:
可以看出,通过使用查询扩展,查全率得到了明显的提高,但需要注意的是,一味追求查全率的提高,可能会降低系统的查准率,如何找到一个两者兼顾的平衡值,是我们下一步需要研究的问题。
5总结
本文在传统CLIR的基础上提出了一种基于本体查询扩展搜索引擎模型,此模型克服了传统方法在效率、知识表示方面的不足,有效地提高了知识的获取效率,并且可以应用到各个不同的专业领域,具有很好的通用性和扩充性。但当本体库非常庞大的时候,需要采取一定的策略控制查询扩展的程度以保证系统的查准率,这也是我们下一步需要完成的工作。
参考文献:
[1]Wu, F., Wu, G., Fu, X ., 2007, in IFIP International Federation for Information Processing, Volume 254,Research and Practical Issues of Enterprise Information Systems Ⅱ Volume Ⅰ, eds.L.Xu, Tjoa A., Chaudhry S.(Boston: Springer), 293-298.
[2] 王昊. 跨语言信息检索实现方法与关键技术探讨[J]. 情报检索,2005(7).
[3] 王妙娅,赖茂生. 跨语言信息检索中的询问翻译方法及其研究进展[J]. 现代图书情报技术,2005(4):37-41.
[4] 王进,陈恩红,张振亚,等. 基于本体的跨语言信息检索模型[J]. 中文信息学报,2004(3):1-8.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!