时间:2024-05-22
孙 洋, 杨晓蓉
(中国农业科学院农业信息研究所,北京 100081)
中国农业科学院网站平台智能搜索技术与方法研究
孙 洋, 杨晓蓉
(中国农业科学院农业信息研究所,北京 100081)
为了解决原有检索技术已经不能满足中国农业科学院网站检索需求的问题,研究了智能搜索引擎方面相关的关键技术和方法。探讨了利用智能搜索引擎关键技术在中国农科院网站平台改进搜索技术的方法,将搜索结果与现有的搜索技术在中国农科院网站平台搜索时所得到的结果相比较,结果表明,基于智能搜索引擎方面的关键技术改进的搜索平台在检索结果上明显占优,实际应用效果令人满意。
智能搜索技术;全文检索;中国农业科学院网站搜索服务
自互联网诞生和普及以来,网络信息和资源浩瀚如海,并且网络数据继续呈现爆炸式增长趋势,《2014年中国网民搜索行为研究报告》[1]显示,在通用搜索引擎中的查询需求中,大量网民搜索的内容与本地生活息息相关,截至2014年6月,我国搜索引擎用户规模已达50 749万,较2013年同期增长3 711万,增长率为7.9%,网民使用率为80.3%。自2011年以来,搜索引擎在网民中的使用率一直维持在80%左右,是我国网民的第二大互联网应用,具有不可替代的基础性作用。因此,如何使网络用户快捷、准确和有效地定位需求信息成为信息服务提供者不断努力的方向。搜索引擎是一种对网络数据进行搜索、提取、组织、处理并提供检索服务的工具,目前存在商业搜索引擎和站内搜索引擎两大搜索阵营。面对信息海量化发展现状,站内搜索因其针对性强,在一定的检索范围内的便利性,更能满足用户的检索需求,并为后续研究用户行为提供来源保障。
中国农业科学院网站门户网站(www.caas.net.cn/)作为国内农业最高学术机构和农业技术成果展示中心,成为科研机构发布信息、提供服务、提高社会影响力的重要平台;中国农业科技信息网(www.cast.net.cn/)立足农业科技信息的传播,成为为广大网络用户提供实用性强的农业资讯、技术、服务及资源等的重要平台。这2个重要网站平台自建立运行以来,搜集、发布和共享各种农科院政务信息和农业实用数据,积累大量的信息数据,建立站内全文检索系统是对于网站资源合理利用的重要体现。通过高效实用的站内检索,可以了解访问者的阅读喜好,有效帮助访问者快速、准确定位到目标信息,从而为农业科技管理决策、农业科技创新和农业实用功能提供农业科学资源信息的支撑和保障,增强网站实用能力和确保网站在本地区农业网站中的领先地位。随着搜索引擎市场的发展,用户对搜索引擎的功能、其搜索内容的体现和结果的显示将会有更高的要求,期待搜索引擎能够为其提供更加专业、细致的信息服务,搜索速度更快,显示结果尽量精准而全面。
1.1 现状调查
中国农业科学院网站平台的站内搜索引擎是以中国农业科学院门户网站及其下属部分网站为检索范围的检索工具。由于农业管理和实用服务的复杂性和广泛性,使得农业科学数据的数据量增长迅速,截至2015年6月仅中国农业科学院门户网站平台共有一级栏目19个、二级栏100多个,涵盖院所新闻、农业实用技术、服务、合作交流、科普等,数据超过16万条。网站丰富的内容吸引了大量的涉农用户,但由于网站信息量指数级增长,用户想要快速定位到所需资源非常困难,所以亟需研究智能搜索技术,在现有网站搜索系统的基础上改进现有的搜索技术。
该研究主要调查当前中国农业科学院网站上检索服务的功能设置和搜索结果显示情况,其中,检索功能设置主要包括普通检索和高级检索两方面。普通检索功能主要支持用户对检索关键词的输入和检索范围的选择,高级检索是通过用户根据检索需求选择的逻辑关系组配而完成的快速查询, 其优点是能提高查全率和查准率。当前中国农业科学院网站上检索服务的高级检索功能提供关键词,包含全部、完整或任一字词,发布日期,字词位置,每页显示结果数等逻辑组合检索,并进行结果排序。高级检索的辅助选项提供有起始结束时间选择、排序方式选择、每页显示结果数定义和使用帮助,满足不同用户对检索的不同需求。
另外从检索结果的内容、检索结果的数量和排序两方面分析。检索结果主要包括 9个方面内容, 按出现顺序分别为: 总条数、检索耗费时间、关键字、排序、标题、内容简介、URL、日期、网页大小。排序主要以按照相关度、文件日期、文件名和文件大小顺序排序。检索结果并不需要面面俱到,只要满足用户需要,有效提示用户判断该结果是否有用即可,比如统一资源定位符(Uniform Resource Locator,URL)有助于用户定位和判断来源。
但是,由于网站数据呈海量速度增多,访问者对于站内检索系统的要求不断提高,当前中国农业科学院网站上检索服务的功能已不能满足访问者的搜索需求。
1.2 问题分析
当前站内搜索功能比较弱,不能支持有效的相关性排序和海量数据快速并发查询以及不能保证搜索耗时短等。
1.2.1 系统方面。
(1)不能跨网站。由于中国农业科学院网站及其下属部分网站和数据库处于不同的服务器,缺乏统一的整合与集成方式,没有有效整合搜索入口,无法解决“多个信息系统”和“统一检索入口”的矛盾[2],使信息检索不够全面和精确。因此,如何应用现代信息技术,动态整合集成跨系统、跨数据库的数据资源,充分利用网站管理特点和相关技术,把分散孤立的数据资源在统一平台下实现存储和全文检索是网站亟待解决的关键技术问题。
(2) 海量大规模内容搜索能力有限。系统运行中每天发布的数据不断增长,现有的数据管理平台对支持大数据量的全文索引、检索等能力有限。这些问题严重阻碍了网站数据资源共享。
1.2.2 检索功能设置方面和检索结果内容和排序方面。
(1)搜索关键词不准确,造成返回结果数较大或根本查询不到结果。由于多数搜索用户在检索策略和检索技巧上缺乏必要的经验,提交的查询请求往往比较短,不能使用文中的任意字、词、短语、句和片段进行有效检索。这就造成搜索引擎的返回结果相关性差的缺点,直接导致返回结果数较大或根本查询不到结果,用户想要在这样的搜索结果中找到目标信息非常困难,在查询词方面, 由于存在同义词、歧义词和同音词等问题, 用户键入的词与存储中的词常常造成不匹配情况,导致检索结果的查准率偏低, 偏离用户的信息需求。
(2)不能提供相关搜索和智能提示。很多用户并不能准确知道想要搜索内容的关键词,造成搜索查准率低,如果网站搜索平台可以提供查询频率较高的相关词语搜索,将极大地提高用户查找的速度。比如用户输入关键词“农业”进行搜索,系统可以提示“现代农业”“农业科技”等。
(3)不可提供同音词提示。用户在输入时有时可能出现同音但并非想搜索的关键词的情况,系统如果能够提供查询频率较高的同音词提示,将极大地方便用户的搜索。比如用户输入关键词“科技”进行搜索,系统会提示“克己”“客机”“科级”等。
(4)不可拼音搜索。用户在输入时有时可能出现拼音输入关键词的情况,系统如果能够提供拼音所对应的常用关键词查询,将会提升用户搜索体验和查询速度。比如用户输入关键词“xinxi”,系统会查询“信息”,并罗列查询结果。
(5)不可二次检索。有时用户在不熟悉想要查找内容时,并不能经过一次查询得到满意结果,需要在查询结果中进行二次查询。
(6)无其他搜索网页格式,搜索结果内容不够丰富。现有的检索系统仅是针对文字进行操作,搜索文字也是以网页文字类型显示。随着网站平台上.pdf、.doc、.xls等类型的文件逐渐增多,将这些资源纳入到检索范围已是大势所趋,同时可以大大提高用户使用网站资源的利用率。
(7)无法选择关键词位置。用户有时需要通过关键词位置进行有针对性快速的查询,比如网页的标题、正文,网页内的网址,在网页内的链接等。
2.1 智能搜索相关技术介绍
目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。凭借通用搜索引擎检索某个特定网站门户网站的资料,虽然可以指定网站进行搜索,但因搜索引擎释放的网络蜘蛛沿着超链接去爬行,由于网页的层数过多或时间过长时,对某些网页就不能进行抓取或不能及时检索出最新内容等,其在内容的精确性、索引时间的及时性上不能得到保证[3]。因此,针对某个门户网站平台,开发属于某个门户网站平台的站内搜索引擎,成为了单位门户网站建设的迫切需要。
2.1.1 全文检索[3]。全文检索站内搜索原理是对数据库数据进行超文本标记语言(HTML)解析、图片缩略,分词、索引,实现站内搜索,提高检索效率,检索范围涉及网站上所有内容,用户可对搜索的内容范围和体现的结果做精确的控制。支持标准的国际搜索语法,提供动态摘要,摘要清晰,便于用户快速寻找到需要的信息;有关键词标红,可有效控制;有同义词相关性排序,方便用户在网站海量数据中快速查找信息。
2.1.2 拼音检索。要实现拼音检索[4],只有具备汉字拼音对照表,才能让系统知道用户输入的拼音与汉字对应关系。汉字拼音对照表是通过编程把码表源文件winpy.txt中汉字与拼音的对应关系提取并存入相应数据库,而winpy.txt文件是通过输入法生成器将微软全拼的码表文件winpy.mb逆转换而来。用户只要输入包含拼音字符中的部分字符, 就可以查找到对应信息。
2.1.3 二次检索。目前二次检索的主要方法可分为重排序和过滤2大类[5]。重排序方法目的是实现重新计算查询与文档之间的相关度,实现手段是文档聚类或使用受控词表等,因此二次查询后的显示结果会按照新的相关度进行排序显示。这一方法能很好地提高检索结果的前N项的准确率。过滤方法目的是筛选和去除与用户查询无关的文档,实现手段是从用户查询出的附加信息中筛选检索返回的文档。
2.1.4 中文分词。中文分词是指将一个连续的汉字序列按照一定的预言规范组合切分成多个单独有意义的词序列[6]。例如,“农业科技信息”的切分结果为农业/科技/信息。中文词语相较英文文本来说,词与词之间没有空格作为自然分界符,所以对于中文词语的有效切分并使计算机理解分析是关键。中文分词算法归纳起来主要分为3类:基于字符串匹配的分词方法、基于统计的分词方法、基于理解的分词方法[7-8]。
2.1.5 相关词。在全文检索过程中,想要总结出与查询信息相关的文件,需要用户进行相当大程度的浏览,而系统自动的相关词提示可以帮助用户优化查询式,使系统明确用户的信息检索需求,更为用户减少了额外的负担。相关词提示是搜索引擎系统为用户提供相关词,帮助用户重新构造更加有效的查询式,从而减少多余检索步骤的检索技术[9]。实现方面,应把相关词的选择权给用户,人工重新构造查询式。相关词提示的基本原理,搜索引擎通过聚类技术获取与查询式相关的词,经过相关度计算, 将排在前面的相关词以一定的形式反馈给用户[10]。
2.2 基于相关技术在中国农科院网站平台检索服务的改进应用
该研究采用的搜索技术平台是基于Lucence开发的,是将原关系型数据库中的数据进行抽取、存储和索引,抽取到全文数据仓库中提供检索服务,对原有的内容管理系统影响较小,可扩展性更强,系统支持跨平台、跨数据库、跨站点的全文检索,用的分词器是JE-Analysis,其作用是把一个字符序列按某种规则划分成独立的词语,并去除其中的无效词语,从而有利于缩小索引文件,提高效率,提高命中率。以垂直搜索方式整合多网站,实时索引企业已有的资料库,并结合互联网信息抓取技术,进行内容和服务的采集,实现了按信息分类、条件组合、多语种等检索方式,能够索引中国农业科学院网站内的信息内容,并提供个性丰富的检索体验的搜索引擎服务。其框架结构见图1。
从技术角度来看,在网站的搜索引擎框架中,很好地解决了搜索引擎应用中的2个核心环节:海量数据管理、内容索引和全文检索技术。
2.2.1 海量数据和内容索引。该研究设计的全文检索数据库系统在数据存储方面(特别是对于海量数据)有着独特的技术, 实现了索引空间膨胀率低于0.5,支持大量的并发用户检索,实现集群和负载均衡应用。采用增量更新方式对内容进行更新,即每次检查数据变化时,只更新添加或发生变化的数据进行更新,索引速度明显高于仅仅完全更新的系统。
在农业保险运营中,政府的选择为补贴与不补贴,保险公司的决定仍为经营与不经营。假设政府补贴B,保险公司经营,政府所得的收益为Q;保险公司不经营损失为D,做出分析,结果如表3所示。
2.2.2 全文检索。该研究跨平台跨站点智能检索系统检索功能设置中,在普通检索方面,针对输入的关键词,智能识别中文人名单词、数量词,Email、URL等信息,搜索范围提供各站点单独或集成搜索;高级检索方面,提供包括全文检索、日期(范围)检索、标题检索、URL检索等在内的全方位信息查询手段。对用户检索关键词的处理方面,支持对中文、英文、数字的混合分词。对检索词进行智能提示,可以实现拼写检查、相关词建议和同音词列表等,增强用户搜索体验,提高有效搜索效率;并可以实现拼音检索和二次检索,在用户误输等情况下,也能帮助用户有效定位,在一次搜索结果中继续搜索,可逐步缩小结果范围,锁定自己需要的结果。
搜索结果方面,可以根据字段进行排序,如相关度(默认)、日期等,相关度排序以检索词与网页的相关性为依据对检索结果排序,相关性是对词频、词位(词在文章中出现的位置)以及文件大小等因素综合评价的结果;时间排序则可以保证把最新的数据优先输出,使用户在众多搜索结果中优先找到需要的信息。
此跨平台跨站点智能检索系统融合了高效的全文检索引擎和非结构化文档(Word、HTML、PDF等)分析技术,支持对多种格式化资源检索(如PDF、Word、Excel、PPT等文件),整合内部对象信息资源,可实现一个(或多个)网站的站内搜索,支持的数据源包括文件系统、Internet网站、关系数据库、FTP服务器等。
2.2.3 系统及管理方面。该研究系统全面支持Web服务,可以与各个系统(包括.NET系统)集成,采用Java语言开发,可运行于Windows、UNIX、Linux平台,在内核上采用多级索引、缓存技术;管理方面,采用B/S架构,无需安装任何客户端,对于数据库索引提供配置向导并可实现定时更新。
3.1 检索功能设置方面
3.2 检索结果内容、数量和排序方面
当前中国农科院网站搜索服务检索结果显示情况主要从检索结果的内容、检索结果的数量和排序两方面分析。检索结果主要包括 9个方面内容, 按出现顺序分别为: 总条数、检索耗费时间、关键字、排序、标题、内容简介、URL、日期、网页大小。排序主要以按照文件日期、文件名和文件大小顺序排序。改进后,检索结果显示主要增加以下几个方面内容:智能提示(图2)、同音词列表、拼音检索、搜索网页类型显示、相关度显示及排序、相关搜索提示和二次检索(图3)。其中相关度主要说明检索词与检索结果页面的匹配程度, 通过相关度的合理排序可以使用户快速定位所需的精准信息。
3.3 搜索性能方面
为了说明该研究改进后的平台的搜索性能,分别选择了当前和改进后的中国农科院网站某一下属网站对“自主创新”进行关键词搜索。系统改进前后搜索性能对比见表1。
表1 改进前后搜索性能对比
表1测试结果表明,该研究改进后的中国农业科学院网站搜索服务比当前网站在搜索耗费时间上明显减少,说明搜索引擎的检索效率明显提高。同时实现中国农业科学院网站及下属网站的跨平台搜索,解决“信息孤岛”[2]问题,通过网页格式关键词位置选择功能的添加,进一步提高了搜索的针对性和准确率,并且增加了除网页文字外的多种搜索结果表现形式。用户体验上,由于增加智能提示、拼音搜索等,使搜索引擎关键字处理能力更加智能,从而提高搜索效率。同音词和相关搜索词的罗列,为用户深度搜索提供便利。当前搜索引擎并没有提供搜索结果的相关度显示及按照相关度排序,改进后的搜索引擎根据搜索结果相关度进行合理排序,使用户很快找到相关度最高的搜索结果。
从中国农业科学院网站搜索服务现状出发,分析了其存在的问题,研究了智能搜索应用在中国农业科学院网站搜索服务平台进行全文检索的技术,并与当前平台的检索方法进行了比较。结果表明:改进后的相关搜索技术在海量数据的跨平台搜索中搜索速度、查全和准确性明显提高,能够成功地应用于中国农业科学院网站搜索服务平台;同时,使用者还可以根据实际需要个性化组配搜索选项,结合搜索结果页面的同义词、相关词、二次检索和智能提示等功能,完成更加快速精准的搜索。当然,相关搜索技术改进后的中国农业科学院网站搜索服务还有许多不足,如无法对搜索结果进行优化重排,将近期用户搜索次数多的信息排在结果最前列等,难以对后续的收集的海量信息进行分析以获取知识,这些问题将在以后的工作中不断研究并解决。
[1] 百度百科.2014 年中国网民搜索行为研究报告[EB/OL].[2015-11-01].http://wenku.baidu.com/link?url=4uyvlw31BHX27FUSPZcI7g41T9Sel46aGFzeqQSk9qaceZJWsxovkOPw-7t7Ko3bSsjG4QBh4edsvS_44qI21sQQEB7EMPivaEsYPNXoYHy.
[2] 陈福生.全文检索在网站搜索系统中的应用[J].电脑编程技巧与维护,2009(12):17-19.
[3] 王非.面向Web2.0社区的站内搜索引擎技术的研究与实现[D].长沙: 国防科学技术大学, 2008.
[4] 刘风华,陈燕红,郑卫斌.拼音检索方法在Web系统中的研究与实现[J].计算机系统应用,2013,22(1):196-199.
[5] 林永志.基于语义关系识别的二次检索[D].上海:上海交通大学,2008.
[6] 董李鹏,高东怀,张迎,等.基于Lucene的校园网智能搜索引擎的设计与实现[J].现代电子技术,2013,36(6):83-86.
[7] 冯书晓,徐新.国内中文分词技术研究新进展[J].情报杂志,2002(11):29-30.
[8] 刘开瑛.中文文本自动分词和标注[M].北京:商务印书馆,2000:109-122.
[9] 刘红星.分布式系统中的文本信息检索技术研究[D].北京:清华大学,2004.
[10] 章成志,徐小琴.信息检索系统的相关词提示技术与评测信息系统[J].情况理论与实践,2007,30(1):100-104.
Technology of Search Engineer in CAAS Website
SUN Yang, YANG Xiao-rong
(Agricultural Information Institute of CAAS, Beijing 100081)
In order to solve the problem that the traditional search method couldn’t meet the searching demand in CAAS website, the original method and technology of website search engine was studied, and using improved method of website search engine in CAAS website was discussed. At last, these results were compared with those consequences from traditional search method. The experiments proved that: the search engineer based onimproved method of CAAS website had more efficient and the practical application should be satisfactory.
Intelligent search technology; Full text retrieval; Website search service in CAAS website
中国农业科学院农业信息研究所2015年度基本科研业务费专项(2015-J-07)。
孙洋(1986- ),女,北京人,助理研究员,硕士,从事农业网站信息技术研究。
2015-11-11
S 126
A
0517-6611(2015)35-343-04
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!