当前位置:首页 期刊杂志

文本挖掘领域研究现状与趋势分析

时间:2024-06-19

(武汉船舶职业技术学院,湖北武汉 430050)

文本挖掘是近些年来一个新兴研究领域,主要是从大量的、无结构的文本信息中发现潜在的、可能的数据模式、内在联系、规律、发展趋势等,抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程[1]。文本挖掘的研究领域范围较广,主要涉及自然语言处理、机器学习、数据挖掘、信息检索等多个内容,而不同领域的研究者对文本挖掘的应用目的也不同。

本文以Web of Science 数据库为数据源,利用CiteSpace软件对2007~2016年间文本挖掘主题有关的文献进行可视化分析,以了解文本挖掘领域的研究现状,探测文本挖掘领域研究前沿的发展趋势。

1 数据来源

本文选取WOS数据库为数据源,以2007-2016年共10年为时间跨度,以“text mining”或“text analysis”为检索词进行主题检索,将文献类型设定为“Article OR Review”,共得到4015条文献记录。统计得到2007-2016年文本挖掘领域每年出版文献量情况分布图(见图1)。从图中可以看出,文本挖掘相关的论文持续增加,到2015年有明显上涨,当年出版文献超过600篇,这说明随着技术的进步和研究工具的发展,进行文本挖掘研究的人越来越多,文本挖掘的影响力在逐步攀升,文本挖掘技术的作用也越来越不能被忽视。

图1 2007-2016年文本挖掘相关论文数量的年度分布

使用当前国际信息可视化分析工具CiteSpace[2-4]软件,运用文献共被引分析方法,对文献数据进行计量和可视化分析,探测文本挖掘领域的发展趋势、前沿主题及其演化规律。

2 各图谱的生成与分析

CiteSpace是Citation Space的简称,可译为“引文空间”。CiteSpace软件是一款着眼于分析科学分析中蕴含的潜在知识,并在科学计量学、数据和信息可视化背景下逐渐发展起来的一款引文分析软件,可以通过可视化的手段来呈现科学知识的结构、规律和分布情况[5]。软件基于引文分析的原理,通过对文献数据信息的计量和可视化处理,探测学科研究前沿随着时间的变化趋势以及研究前沿与其知识基础之间的关系,发现不同研究前沿之间的内在联系,使研究者能够直观地辨识学科知识结构与知识基础的演进。

2.1 机构合作图谱分析

在功能与参数设置区的Node Type选择为Institution,得到文本挖掘研究的机构合作网络(图2)。其中节点的大小代表了发表论文的数量,连线反映合作关系强度。从图中可以看出各机构间有较多合作。

图2 2007-2016年文本挖掘研究机构合作可视化结果图

按照中心性强度排名,得到近10年发表研究成果有影响力的前15名研究机构(表1)。

表1 按中心性强度排名的机构

从表格可以看出,排名靠前的15所科研机构中,有7所位于美国,5所位于中国,2所位于英国,1所位于比利时。就单个科研机构来看,英国曼彻斯特大学的发文频次最大中心性最高,这表明曼彻斯特大学在文本挖掘的研究较为活跃,发文贡献最大;从整体来看,在文本挖掘领域有较大影响力和控制力的机构多在美国,其次在中国。国内研究文本分析的机构较多,有一定影响力和控制力的机构分别是:微软亚洲研究院、清华大学、中国科学院、台湾中央研究院以及香港城市大学。

2.2 文献共被引图谱

共被引分析是指两篇文献共同出现在第三篇施引文献的参考文献目录中,则这两篇文献形成共被引关系[6]。Cite Space软件开发者陈超美博士曾在论文中表示,通过文献共被引分析,一组突现的动态概念和潜在的研究问题即可用于探寻该领域的研究前沿。利用聚类分析等多元统计分析方法,可以把众多的分析对象之间错综复杂的网状关系简化为数目相对较少的若干类群之间的关系并直观地表示出来。

在 Cite Space 中选择“cited reference”为网络节点,先用系统预定阈值,然后根据选入节点的数量再进行调整,经调整得到共被引分析图谱(图3)。

图3 2007-2016年文本挖掘共被引文献分析可视化结果图

其中每一个节点表示一篇文献,节点的大小反映了被引用的次数,根据被引用次数列出引用次数大于75次的14篇文献(表2),这14篇文献也是整个研究领域的知识基础。

表2 经典文献(共被引频次>75次)

从表2可以看出,尽管引用次数大于75次的有14篇文献,但涉及到的作者只有10位,其中有3位作者各自有2篇文献被引用次数大于80次,分别是:Salton Gerard、Pang Bo、C Manning。

Salton Gerard是信息检索之父,也是信息检索向量空间模型的创始人。他开发了著名的 SMART 文本检索系统,并将向量空间模型应用于这个系统。1988年,Salton Gerard总结各种不同的自动术语加权方法的,并以此为基础提出了单个术语的标引模型。

Pang Bo的两篇文章都是关于情感分析,一篇介绍了实现观点挖掘和情感分析的技术和方法,另一篇则采用朴素贝叶斯,最大熵分类和支持向量机三种机器学习算法确定电影评论所表达的态度是积极还是消极,并将情感分类与传统的主题分类进行对比,探讨了情感分类所面临的挑战。

Christopher Manning是斯坦福大学计算机科学与语言学教授,也是自然语言处理领域的领导者。表2中被引用的两本都是Christopher Manning与人合著的教科书,一本是信息检索的教材,从计算机科学领域的角度出发,介绍了信息检索的基础知识、搜索引擎的核心技术,如文档分类和文档聚类问题,以及机器学习和数值计算方法;另一本是关于自然语言处理的教材,主要是结合数学和语言学基础,采用统计方法介绍了构建自然语言处理工具所需的理论与算法。

而14篇中引用次数最多是关于LDA模型的一篇文献。D. M. Blei在2003年提出了LDA(Latent Dirichlet Allocation)模型,即潜在狄利克雷分配模型。LDA模型是一个三级分层贝叶斯模型,包含词、主题和文档三层结构,可以用于收集离散数据(如文本语料库)以生成主题,而文本建模中的主题概率提供文档的显式表示[7]。D. M. Blei等人提出基于变分方法的有效近似推理技术和用于参数经验贝叶斯估计的EM算法,并将LDA模型与MU模型、LSA模型对比。LDA模型现在已经成为了主题建模中的一个标准,自诞生之后LDA模型有了蓬勃的扩展,可以应用于情感分析、学术文章挖掘、社会媒体、时序文本流、网络结构数据等,近几年在社会网络和社会媒体研究领域最为常见。

主题模型常常与自然语言处理一起使用,Porter stemmer 算法就是自然语言处理算法的一种。M.F. Porter在1980年建立了Porter stemmer 算法,并在其网站上公布了各种语言的实现版本,其中C语言的版本是作者编写的最权威的版本。Porter stemmer是一种高效的词干提取算法,可以用来还原英文单词的词性和词形变化,去掉前缀、后缀等[8]。目前可以通过互联网获取对应的Porter stemmer 算法版本,M.F. Porter为文本挖掘研究人员提供了极大的便利。

机器学习的任务是从数据中归纳或发现规律,自1986年关于机器学习的研究再次兴起,越来越多的学者将机器学习应用到自己的研究领域,F Sebastiani于2002年讨论了应用机器学习进行文本分类的主要方法,主要集中在文件的表示,分类器的构建和分类器的评估[9]。

文本挖掘在信息分析中的应用较多,在客观需求和条件具备的双重推动下,最为活跃的领域是生物医药领域。生物医药领域开发了一系列文本挖掘和信息提取工具,以从日益增长的文献中提取相关信息。

2000年M Ashburner探讨了基因本体论,通过构建生物过程、分子功能和细胞组分三种独立的本体,建立了可以用于研究真核细胞细胞内基因和蛋白质功能的自动可控词表[10]。

生物医学命名实体识别就是对存在大量生物医学专业实例和术语的生物医学文本进行详细、有效的分析,进而抽取有用的信息。2004年开始举办第一届BioCreative竞赛, BioCreative是致力于生物信息的探索竞赛,旨在通过全社会的共同努力,促进生物医学领域信息抽取和文本挖掘技术的发展。BioCreative 2004评测包括生物命名实体识别任务、实体命名规范化的任务等。BioCreative 2006包括基因提及识别、基因名标准化以及蛋白质——蛋白质交互关系抽取三项任务。LHirschman和M Krallinger分别概述了BioCreative 2004的任务以及BioCreative 2006面临的挑战。

截至2006年,由于文本挖掘和数据集成仍处于起步阶段,可用于生物医学文献挖掘的工具不多,LJ Jensen列举了一些可以用于生物医学文献挖掘的在线工具和资源,概述了信息检索、实体识别、信息提取三个任务,文本挖掘的基本流程和方法,以及如何将挖掘的数据与生物医药领域相结合[11]。

综合这14篇文献的主题,其中有4篇是关于生物医学领域基因知识、文本文献的挖掘,2篇是关于信息的获取及索引,剩下的8篇主要涉及自然语言处理、机器学习、情感分析、文本聚类及文本分类。

2.3 关键词共现图谱

关键词的共现分析就是对数据集中作者提供的关键词的分析,关键词共现的频次越多,文献所研究的主题越接近,在知识图谱上它们之间的距离就越接近。在 CiteSpace 上将节点选择为“key words”,连线强度选择Cosine,网络裁剪使用MST+ Pruning the merged network+ Pruning the sliced networks,调整阈值,绘制关键词共现知识图谱。首次绘制发现关键词中有很多词是同义词或者一个词有不同的写法,例如“text mining”一词出现 “text-mining”、“textmining”等多种写法,诸如此类的情况较多,因此需要手动合并同义关键词。经调整,绘制出数据挖掘领域关键词共现知识图谱(图4)。

图4 2007-2016年关键词共现分析可视化结果图

统计关键词出现频次,列出出现频次>100的关键词,共有27个(表3)。

表3 关键词(出现频次>100)

结合聚类结果以及出现的关键词进行分析,发现近 10 年来文本挖掘的研究热点:(1)文本数据挖掘的基础领域研究,包括机器学习、自然语言处理、情感分析、主题建模等;(2)文本数据挖掘的技术研究,包括文本信息抽取、文本分类、文本聚类、文本数据处理等;(3)具体应用领域研究,包括知识发现、文献计量研究、生物医学研究、文本挖掘工具研究、Web研究、社交媒体数据研究等。

对文本挖掘的技术研究主要集中在信息检索、信息提取、文档分类、文档聚类、自然语言处理和Web挖掘6个方面,包括关键词搜索、关键词查询、索引、链接分析、文本分类、文档标准化为主、短语聚类、主题模型、拼写纠正、词法化、语法解析和词义消歧、Web链接分析等内容。

从关键词出现的时间可以看出,随着大数据时代的来临、新兴技术的出现,文本挖掘被应用到各种不同的领域。例如将文本挖掘用于网络新闻及舆情分析、电子商务用户评论以及社交网络用户生成数据分析、商业流程优化、医疗健康分析等。而比较热门的应用领域有4个:学术科研领域、生命科学领域、社交媒体、商务智能。

3 结 语

进入21世纪的信息化时代以来,数据的规模正以指数的速度与日俱增,几乎所有的组织、机构都在存储电子数据,同时互联网上的电子图书馆、社交媒体应用也生成了大量的数据,这使得文本挖掘成为一大热点,无论是学术界还是产业界都对其抱以相当积极的关注。本文基于CiteSpace软件分析了Web of Science 数据库采集到的4015条文献记录,综合对机构合作图谱、文献共被引图谱和关键词共现图谱进行的可视化分析得到以下结论:

(1)从整体来看,在文本挖掘领域有较大影响力和控制力的研究机构多在美国,其次在中国。

(2)文本挖掘的研究主要涉及情感分析与主题分析、文本挖掘理论及主要算法模型、生物医学研究、概念与语义关系发现、其它领域应用5大类。其中对文本挖掘的技术研究主要集中在信息检索、信息提取、文档分类、文档聚类、自然语言处理和Web挖掘6个方面,包括关键词搜索、关键词查询、索引、链接分析、文本分类、文档标准化为主、短语聚类、主题模型、拼写纠正、词法化、语法解析和词义消歧、Web链接分析等内容。

(3)文本挖掘的应用领域较为广泛,从研究趋势来看,未来的文本挖掘应用将集中在4个方面:学术科研领域、生命科学领域、社交化媒体、商务智能。

总体来说,文本挖掘相关的研究在不断深入,相关的算法和模型在不断调整优化。未来在基于新方法和新技术的文本挖掘研究方面,以及在更多学科和领域中的信息分析中,文本挖掘将会得到更多的关注和更广阔的研究空间。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!