时间:2024-05-18
秦 渴
(郑州大学信息管理学院,河南 郑州 450001)
随着互联网的普及、计算机技术的发展,每天都会产生海量的信息,然而,人们真正需要的知识却很匮乏。为了解决这种信息泛滥与知识相对匮乏的矛盾,知识抽取这一研究领域开始被专家学者们广泛关注。知识抽取(Knowledge eXtraction KX)是对蕴涵于文献中的知识进行识别、理解、筛选和格式化,从而把文献中的各个知识点(包括常识知识和专家知识)抽取出来,以一定形式存入知识库中[1]。常常与之混淆的概念有数据挖掘、知识发现、知识获取、信息抽取等,然而知识抽取研究对象是显性的、已有的知识,与数据挖掘有很大的区别,其是知识获取的有效方式之一,是信息获取的进一步发展。本文对知识抽取的研究现状进行了梳理和分析,并探讨了其未来研究重点。
首先,网络的发展带来了海量的信息资源,其蕴含着丰富的知识,具有很高的研究价值。然而,这些网络化、数字化的信息资源大多是以自由、半结构化或者非结构化的形式存在的,无法直接从中获取人们需要的、重要的知识,这就造成了信息过载、资源浪费与知识困乏等现象。知识抽取能够利用相关技术和方法从这些非结构化或半结构化的信息中抽取出用户所需要的知识,将这些过载的信息资源转换成用户可以使用的知识,很好地实现资源的有效利用,同时促进相关科学研究的进一步发展。
其次,随着用户认知程度的不断加深,日益个性化的知识需求已成为专家学者们关注的重点。目前,基于知识单元层面上的研究及其服务已成为学术研究的趋势,其能够很好地解决用户复杂的知识需求问题,如图书情报界不断强调着由信息服务向知识服务迈进,从为用户提供以文献为单位的信息检索服务向以知识点及其之间的关系为单位的知识检索发展,这些目标的实现都要以知识抽取为基础。通过知识抽取将文献处理的粒度从篇章层次细分到句段层次(以篇章为单位转换成以知识单元为单位),真正实现文献在知识单元上的组织、管理和利用,实现信息组织从物理层次的文献单元向认知层次的知识单元转换[2],从而实现知识组织、管理及其服务的创新发展。
最后,知识抽取是当前自然语言处理、语义Web、机器学习、知识工程、知识发现、文本挖掘等相关领域共同关注的重点研究之一[3],是开展知识导航、知识检索、知识评价以及知识发现等知识服务的重要基础技术之一,也是实现知识获取的有效途径,能够促进学科领域研究的进一步发展。
知识抽取实现方法和技术方面的研究呈现以下特点:
2.1.1 机器学习和自然语言处理是目前知识抽取的两大主要技术,并且这两大技术思路正在相互融合、相互借鉴,各自都得到了较大的发展[3]。如2007年化柏林研究了基于自然语言处理(Natural Language Processing,NLP)的知识抽取模式和方法,其尝试着运用NLP 技术,在经过分词、词性标注、句法分析等过程后从科学文献的句段中抽取知识,然后再转换成计算机可理解的形式,并存入知识库中[4]。叶鹏探讨了机器学习方法在期刊论文的自动分类方面的可行性,为进一步对电子期刊论文进行知识抽取奠定了基础[5]。
2.1.2 开放信息抽取技术与语义技术被广泛地应用与研究是进行知识抽取的有效方法。开放信息抽取技术是由美国华盛顿大学图灵中心于2004年提出的一种新型的抽取范式,我国学者刘振、张智雄认为其具有领域独立性、无监督抽取和对大量文本的可伸缩性等特点,并对其研究现状进行了梳理,分析了开放信息抽取系统的改进方法和发展趋势[6]。语义标注实现了对语义内容的挖掘,使知识抽取得结果更精确,如OntotextLab 的KIM 系统采用了大规模自动语义标注,更好地实现了知识抽取。
2.1.3 基于本体的知识抽取技术成为研究的新方向和重点。洪娜等人对基于Ontology的信息抽取技术方法进行了分析,并归纳了4种主要的技术方法:基于实例的OBIE,基于规则的OBIE 以及基于机器学习的OBIE 和Ontology驱动的OBIE[7]。
2.1.4 除了以上的知识抽取技术外,从不同的角度、立足于中文知识抽取角度进行相关研究也逐渐发展,如张智雄等人在其社会科学基金项目“从数字信息资源中实现知识抽取的理论和方法研究”中提出了以关键词为处理单元的抽取技术方法,并给出了相关的实证研究,化柏林在其自然科学基金项目“基于句子匹配分析的知识抽取研究与实现”中提出了以句子为处理单元的抽取方法,并且认为有些知识并不能用词或短语来完整地表达,要想完整地表达一条知识,句子是比较合适的单位[8]。
国外开展知识抽取研究比国内相对较早,对于知识抽取的应用实践也比较成熟。意大利的ONTOTEXT(From Text to Knowledge for the Semantic Web)项目基于本体技术开展知识抽取的实践研究,其大量经过语义标注的文本资源为更多的科研用户提供了有利条件。而DELOS 的知识抽取和语义互操作(Knowledge Extraction and Semantic Interoperability)项目经过实践研究解决数字图书馆中数据和描述性元数据日益增长的问题,其研究并开发了知识抽取和知识建模技术,完成对数字图书馆中数据的分析,挖掘和建模,从而使数字图书馆中存在的大量的知识可以被用户所使用[9]。最近几年,随着国内对于知识抽取研究的不断深入,不少专家学者们也尝试着从不同角度进行知识抽取系统的构建。2007年化柏林提出了一个基于NLP(Natural Language Processing)的知识抽取系统的详细设计方案,其认为知识抽取过程包括论文类型分析、篇章结构分析、知识抽取、知识表示4 大模块,并通过小规模的实验研究不断完善分析算法,并为实现构建一个通用的自然语言处理平台的目标奠定了基础[4]。陈春霖设计和实现了一个多知识抽取系统,该系统可以为用户提供数据预处理、属性约简、规则获取等一系列的功能,根据系统不同的需要,采用灵活的方式实现不同功能,较好地解决了多知识复杂理论的透明性,为用户方便有效地从数据中获取多知识提供较为完整的功能[10]。此外,中国知网的学术定义功能就是基于知识抽取技术实现的。
通过对上文研究现状的梳理,我们可以发现知识抽取研究存在以下几点不足:
3.1.1 相比国外的知识抽取研究,国内对其研究起步较晚,研究的深度不够,大多集中于理论研究,实践应用方面比较少,而国外更重视知识抽取在实践中的应用,许多研究都是针对某一特定的应用进行开展的,从而有效地解决生活实践中的问题。
3.1.2 虽然国外对于知识抽取的研究方法和技术比较成熟,值得我们学习和借鉴,但是,由于中英文自身语法结构等的差异,国外的一些技术和方法并不适应中文知识的抽取,一些对于英文知识进行抽取的技术和方法在应用中文知识抽取中出现了不匹配或者不适合的情况,而国内对于从中文角度出发进行相关的研究还是比较少的,相应的知识抽取实践也不多。
通过对研究现状分析与述评,本文探讨和归纳了未来知识抽取研究的发展趋势:
3.2.1 以科学文献为主要研究对象。网络化、数字化的发展促进了数字化期刊、论文、学术报告、学术会议、专利报告等的发展,这些海量的数字资源中蕴含着丰富的、有价值的科学知识,包括各学科领域的科学前沿和研究热点、专家学者们新的发现或论点、科学实验的结果等,将这些知识点抽取出来并存入知识库中,不仅可以服务于科研工作者的科学研究,同时也会促进整个科学领域的发展。因此,未来的知识抽取研究工作将以这种非结构化的科学文献为主要研究对象,通过一定的技术和方法准确地识别实体及其之间的关系,以一定的形式抽取出来,形成知识库,从而更好地服务于用户。
3.2.2 基于本体和语义模型的知识抽取技术的研究。本体能够提供特定领域中存在的对象类型或概念及其属性相互关系,而语义模型是用来表达复杂结构和丰富语义的数据模型,从本体和语义的角度可以能够实现基于知识层面进行相关的研究。目前,基于本体的信息抽取系统的相关研究已越来越被学者们关注,其良好的知识结构组织能够有效地识别实体及其之间的关系,解决了传统知识抽取在非结构文本方面的不足。本体和语义技术将成为未来知识抽取发展不可缺少的辅助技术。
3.2.3 构建以用户需求为中心、自适应、可移植的知识抽取系统。知识抽取研究的最终目的是应用于实践、服务于用户、解决现实生活中的问题等,国外对于知识抽取系统的研究已经比较成熟,因此,国内在未来知识抽取研究中,要能够围绕用户需求开展知识抽取系统的构建研究,实现系统根据用户的需求自动适应、自动选择抽取方法、自动构建抽取路径的目标。应用先进的技术和方法解决目前大多系统移植性差、移植成本高的问题,只有这样,知识抽取研究才能实现理论与实践相结合的要求。
随着科学研究的不断发展,知识抽取的相关研究被越来越重视。然而,国内对于知识抽取的理论和方法研究还不够成熟,知识抽取的应用相较于国外还有一定的差距,通过对相关研究的梳理与分析可以看出,未来知识抽取的研究重点集中在以科学文献为主要研究对象,基于本体和语义模型的知识抽取技术的研究以及构建以用户需求为中心、自适应、可移植的知识抽取系统。最后,知识抽取的研究需要结合知识工程、文本挖掘、知识发现等研究领域的技术和方法以及情报学、管理学、文献学等学科领域的理论知识才能全面地、科学地发展。
[1] 化柏林.国内外知识抽取研究进展综述[J].情报杂志,2008(2):60-62.
[2] 化柏林,张新民.从知识抽取相关概念辨析看知识抽取的特点和发展趋势[J].情报科学,2010(2):311-315.
[3] 张智雄,吴振新,等.当前知识抽取的主要技术方法解析[J].现代图书情报技术,2008(8):2-11.
[4] 化柏林.基于NLP的知识抽取系统架构研究[J].现代图书情报技术,2007(10):38-41.
[5] 叶鹏.基于机器学习的中文期刊论文自动分类研究[D].南京大学,2013.
[6] 刘振,张智雄.开放信息抽取技术的现状研究[J].情报杂志,2013(11):145-148、186.
[7] 洪娜,张智雄,刘建华.基于Ontology 的信息抽取技术方法分析[J].情报理论与实践,2009(2):109-112、116.
[8] 郑彦宁,化柏林.句子级知识抽取在情报学中的应用分析[J].情报理论与实践,2011(12):1-4.
[9] 龚立群,孙洁丽.国外主要知识抽取项目介绍和评析[J].图书馆论坛,2007(8)11-15.
[10] 陈春霖.多知识抽取系统的设计与实现[D].大连海事大学,2014.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!