中文农业信息垂直搜索引擎的设计与实现

时间：2024-08-31

夏斌,丁立,乔红波,高瑞

(河南农业大学信息与管理科学学院,河南郑州 450002)

随着互联网技术的不断发展,互联网上的信息量正在以几何级数的速度增长,搜索引擎的出现解决了海量互联网资源的快速定位和检索,成为仅次于电子邮件的第二大网上服务.但通用搜索引擎因为其庞大的数据量和宽泛的主题越来越无法满足用户对某一专业领域信息精确查找的需求,所以垂直搜索引擎的建立显得非常迫切和必要.所谓“垂直搜索引擎”,就是只针对特定主题范围内的信息进行检索,检索效率更高[1].目前,网络上的农业信息资源极大丰富,广大农村、农民、农业工作者急需能够快速有效地寻找到适合他们的专业化、时效性强的农业知识资源和信息,中文农业信息垂直搜索引擎正是在这种背景下应运而生.本研究以用户对农业信息搜索需求为研究背景,结合现今流行的垂直搜索理念和技术,以国内互联网上的农业信息为特定的抓取对象,进行自动采集,来实现农业信息的搜索功能.该系统采用向量空间模型对农业主题进行识别,在链接分析的基础上加入了网页内容相关性的判断,使排序结果更加合理,从而提高了信息检索的效率和准确率.

1 搜索引擎的工作原理

搜索引擎是指根据一定的策略在 Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供 Web信息查询服务的系统[2].通用搜索引擎系统主要由搜集器、索引器、检索器、用户接口等部分组成.体系结构见文献[2].

搜集器又叫网络爬虫,负责从互联网上搜集网页,并对所搜集的网页进行分析处理;索引器负责组织搜集器搜索到的网页,并进行提取、分词等预处理操作,从中提取出索引项,生成索引表;检索器根据用户的查询要求从索引库中快速检索信息,并把结果排序后反馈给用户,同时搜集用户信息,改进检索质量[2];用户接口主要是人机交互界面,输入查询并显示查询结果.

2 中文农业信息垂直搜索引擎系统结构和工作流程

中文农业信息垂直搜索引擎[3]是面向农业主题的 Web信息检索系统,其目的是从互联网海量信息中获取农业信息,并通过对这些信息的分析处理,提高农业信息资源的利用率.它的工作原理与通用搜索引擎工作原理基本相同,所不同的是它为了实现查询结果与农业主题相关,还需增加农业主题识别器和建立农业主题特征词表,利用农业主题识别器从农业主题特征词表中选择与农业主题相关的 URL,并对其进行分类和确定优先级别.中文农业信息垂直搜索引擎的系统结构如图 1所示.

图1 中文农业信息垂直搜索引擎的系统结构Fig.1 The frame for vertical search engine of chinese agricultural science information

2.1 农业信息采集

农业信息采集模块负责采集与农业相关的网页.搜集器采用先宽搜索的方式对互联网上的站点进行访问,获取网站列表,以保证网页的覆盖率和重要性.解析器解析获取的页面信息,提取出网页信息和新的 URL送到主题识别器做进一步分析[4].农业主题识别器根据农业主题特征词库[5]中的特征项判断已经解析出的页面内容是否与农业主题相关,保留与农业相关的网页信息;保留下来的网页信息和新的 URL送入主题过滤器进行过滤,过滤掉与农业主题无关的网页和 URL,把相关链接保存到 URL爬行库.

2.2 农业信息预处理

农业信息预处理模块负责对采集的网页进行相关的分析,根据采集出的网页内容的关键词建立倒排索引.索引只能处理文本信息,而搜集器抓取的原始页面大多是以 HTML格式存在,具有大量的标签信息以及无用符号,需要把网页中的文本信息提取出来,过滤掉无用信息,经过进一步的处理才能用于后面的模块使用.

2.3 农业信息检索

农业信息检索[6]模块把用户的查询条件经过中文分词转换成关键词,按照关键词在索引库中快速检索出文档,进行文档与查询条件的相关度评价,把相关度较高的前 k篇文档返回给用户.为了使返回的结果更符合用户需要,本系统在相关度排序方面采用了著名的 HITS算法,并在其链接分析的基础上结合了网页内容,网页内容分析给信息源赋予了主题相关度权重,并运用加权的 I/O操作进行链接分析,使主题相关度较高的信息源得到较高的排序分值,进一步保证了主题精选结果是真正的查询主题下的权威/中心源.

3 关键技术分析

3.1 农业主题特征词库的建立

农业主题特征词库是用来存储农业领域相关特征词及相关联领域特征词的专业词库,直接影响着信息检索的准确性.在本系统中,主题词库被设计成若干层.在较高层次上设计主题范围内颗粒较大的词汇,较低层次上设计主题范围内颗粒较小的词汇.如图 2所示.

图2 农业主题特征词库示例Fig.2 Examples of agricultural area's characteristic dictionary

3.2 农业主题的识别

农业信息垂直搜索引擎只保存与农业主题相关的网页,因此需要对采集到的网页进行过滤[7].本系统把网页信息和主题词库都用向量表示,使用向量空间模型(VSM)来判断网页信息是否与农业主题相关.在向量空间模型中,把文档和查询式表示成向量形式.文档看成是由相互的若干词条[8](term)(t1,t2,…,tn)组成,对于每个词条 ti,根据词条在文档中隐含的语义及重要程度赋以一定的权值 wtj.则文档的特征向量为(wt1,wt2,…,wtn).利用 TF-IDF[9]定义每个特征项的权重.TF-IDF算法是常用的权值计算方法,把文字内容抽象成几何模型.TF-IDF公式为:

其中 tf(tp)为项(索引词)在文档 p中出现的次数,N为文档总数,nt为包含项 t的文档数.TF-IDF方法保证了出现频率较低的索引词具有较高的权重.

当我们把 Web节点和查询主题都表示成向量时,就可以用向量间的余弦相似度来计算 Web节点和查询主题的相关度,并把该相似度作为权重赋予每一个相应的节点.设向量 vi=(w1i,w2i,…,wti)∈ Rt,vj=(w1j,w2j,…,wtj)∈ Rt,则 vi和 vj之间的余弦相似度可按如下公式来计算:

3.3 页面排序技术

信息检索阶段采用排序技术[10]对查询结果进行排序,能够把用户最需要的信息排在返回结果列表的前面,提高查询的准确性和查询效率.HITS算法是目前主流的排序算法,通过挖掘 Web链接结构,分析 Web间的链接关系,找出 Web集合中的authority网页和 hub网页.为每个网页定义 2个度量值:权威权重(Authority weight)和中心权重(Hub weight),通过这 2个权重来判定该网页对特定主题的重要性.但 HITS算法基于纯链接分析,容易发生主题偏移,产生不合理的结果.该系统在 HITS算法的基础上,忽略同一站点的内部链接,排除无效链接,赋予文档作者平等的影响权重,同时结合内容分析,给信息源赋予不同的影响权重,并对权重低于阈值的信息源进行排除,使排序的结果更加客观合理.

4 小结

专业化、行业化的垂直搜索引擎将是信息检索技术发展的主要趋势,本研究以用户对农业信息搜索需求为研究背景,在中国农业信息化日益发展之际,结合现今流行的垂直搜索理念和技术,设计实现了 1个中文农业信息垂直搜索引擎,阐述了搜索引擎的基本原理以及垂直搜索的关键技术.该系统采用向量空间模型对农业主题进行识别,在链接分析的基础上加入了网页内容相关性的判断,使排序结果更加合理,从而提高了信息检索的效率和准确率.但是农业信息涉及范围较广,特征词的选取相当复杂,农业主题特征词表的好坏直接影响搜索引擎的查询效果,因此,本设计方案还需要对农业主题特征词表的建设进一步完善.

[1] 刘畅.综合搜索引擎与垂直搜索引擎的比较研究[J].情报科学,2007,25(1):97-102.

[2] 李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统[M].北京:科学出版社,2005.

[3] 闫俊英.垂直搜索引擎的研究与实现[D].哈尔滨:哈尔滨工业大学计算机学院,2004.

[4] 刘艳敏,刘飚,封化民.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148.

[5] 佳鹤,王秀坤,刘亚欣.基于语义分析的主题信息采集系统的设计与实现[J].计算机应用,2007,27:406-408.

[6] 彭波.大规模搜索引擎检索系统框架与实现要点[J].计算机工程与科学,2006,28(3):1-4.

[7] 苏晓珂.基于 Nutch的主题爬虫的研究与实现[D].昆明:昆明理工大学,2007.

[8] 刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006(3):175-182.

[9] MEHMED.数据挖掘——概念、模型、方法和算法[M].闪四清,陈茵,程雁,等译.北京:清华大学出版社,2003.

[10]原福永,张园园.基于链接分析的相关排序方法的研究和改进[J].计算机工程与设计,2007,28(7):1630-1631.