异构数据文本挖掘技术研究

时间：2024-04-25

高国连

[摘要] 本文主要研究基于自然语言处理技术和数据挖掘技术，面向出版行业，对海量、异构的数字出版文本内容进行智能分析与挖掘，研究与实现命名实体识别与语义关系抽取、自动摘要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术，为资源的编辑、加工、整理提供帮助，为知识标引和素材推荐等提供技术支撑。

[关键词] 出版；文本挖掘；异构数据

doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2017. 21. 070

[中图分类号] TP311.13 [文献标识码] A [文章编号] 1673 - 0194（2017）21- 0164- 02

1 背景

数字出版已经成为出版行业的一种趋势，将逐渐取代传统出版方式。数字出版所产生的大量数字内容需要进行智能管理和自动加工，而其中文本数字内容数量最多，包括报纸、期刊、图书等出版类型，对文本数字内容的智能加工与挖掘技术是数字出版领域的关键基础技术，对数字出版多个子系统起到平台支撑作用。例如，文本分类技术可以将数字内容按照行业分类体系自动归类，文档自动摘要技术可以将数字内容进行提炼和标引。这些技术能帮助出版行业单位对数字资源进行明晰化、系统化、智能化的管理，自动发掘潜在的知识规律，替代人工劳动，提高了生产效率。

目前，文本挖掘技术已经被广泛应用于互联网搜索与服务行业。主要采用的技术包括网页信息抽取技术、网页聚类技术、日志挖掘技术等，其目的是通过对互联网网页、用户日志等数据进行分析，改善搜索效果和提高用户体验。然而，与互联网搜索领域不同，数字出版领域的数字出版物形式多样，包括期刊、报纸、书籍等等，不同类型的出版物具有不同的篇幅与结构。传统的文本挖掘技术已不能满足对数字出版领域数字内容的智能化处理与分析需求，因此亟需研发面向数字出版领域的文本挖掘技术。

2 大数据文本挖掘技术研究现状

基于自然语言处理技术和数据挖掘技术，面向数字出版领域的文本挖掘技术，对异构出版内容资源内包含的知识体系进行抽取和挖掘，为资源的编辑、加工、整理提供帮助，为知识标引和素材推荐等提供技术支撑。一方面，对已有文本挖掘技术（例如基于条件随机场的序列标注技术、基于支持向量机的分类技术等）进行升级改造，以满足数字出版行业的技术要求；另一方面，针对新的技术需求，研发文本挖掘创新技术（例如开放式实体关系抽取技术、基于图学习模型的摘要和关键词统一抽取技术、非规范文本的情感分析技术等）。

文本挖掘成果的处理对象主要针对新闻文本类型，无法处理数字出版行业所产生的异构数字内容，例如对科技文献和书籍进行自动摘要的难度要远大于对新闻文档的自动摘要，因此这些已有的文本挖掘技术已经打下了一个坚实的基础。

3 异构数据文本挖掘技术目标

基于自然语言处理技术和数据挖掘技术，面向出版行业，对海量、异构的数字出版文本内容进行智能分析与挖掘，研究与实现命名实体识别与语义关系抽取、自动摘要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术，为资源的编辑、加工、整理提供帮助，为知识标引和素材推荐等提供技术支撑。本课题研发的技术将作为数字出版行业的关键支撑技术，为多个相关子系统提供服务。

面向新闻的命名实体识别技术、传统的文档摘要与关键词抽取技术、面向简单分类体系的文本分类技术、基于高维索引的文本相似搜索技术、基于规则的文本过滤技术、基于聚类的主题检测技术、基于查询的主题追踪技术、新闻规范文本的情感分类技术。

4 异构数据文本挖掘技术路线

异构数据文本内容文本挖掘技术划分为三个层次：引擎层、服务层以及应用与管理层。

4.1 引擎层

引擎层包括各项文本挖掘的基础功能，实现文本挖掘的核心算法。

（1）命名实体识别，识别出文本中出现的专有名称和有意义的数量短语并加以归类。

（2）实体关系抽取，识别一个文档集内存在联系的实体，并抽取适当的短语描述它们之间的关系。

（3）自动关键词与摘要提取，为给定的一篇或多篇文档自动提取若干反映文档主要内容的关键词；在符合长度要求的限制下，抽取若干反映文档主要内容的若干句子组成摘要；以及针对用户特定查询的相关文档集，生成描述这些文档与用户查询相关的摘要。

（4）自动分类，依据文档内容，按照预先指定和训练的分类体系进行自动分类。

（5）文本过滤，根据用户设置的敏感规则对文档进行过滤，并特别针对互联网中出现的各种隐藏的敏感内容的手段加以识别。

（6）文本消重，提供海量文档的快速相似判断功能，为版权保护、学术不端行为检测等系统提供支撑。

（7）话题检测与追踪，在没有话题的先验知识的情况下从信息流中实时自动检测出各个话题及其相关的文档；以及通过若干篇相关报道学习话题内容并在信息流中跟踪其后续相关报道。

（8）情感分析，以自然语言处理技术和文本挖掘技术为基础，重点研究对用户评论文本的情感语义计算核心技术，提供文本情感倾向分析、情感要素抽取功能。

4.2 服务层

服务层包括功能接口和数据接口及并发控制模块。功能接口对引擎层提供的各项文本挖掘功能进行封装，与出版企业服务总线相连，为工程其他系统提供服务，同时还开放配置接口以便管理工具和其他系统能够根据需要调节文本挖掘系统参数。数据接口封装数据库、本地文件、网络数据流相关输入输出操作，为文本挖掘模块提供统一的数据处理接口。数据监视器根据定时计划任务扫描数据源，发现变化的数据，主动将数据推送给相应的文本挖掘模块进行处理。并发控制模块在采用集群部署时负责分配挖掘任务并汇聚挖掘结果。

4.3 应用与管理层

应用系统根据应用需求，通过出版系统总线服务调用文本挖掘系统的一个或几个功能。例如，選题优化系统可以调用主题检测功能获得热点话题信息；出版舆情分析系统可以调用情感分析功能获得出版舆论的情感倾向，调用文本过滤功能检查有无针对敏感内容的用户评论等。

5 结语

异构数据文本挖掘技术利用基于规则的敏感信息识别技术和基于样例文档的话题追踪技术分析文本信息流的话题，并利用话题检测技术分析挖掘当前的热点话题，为出版选题、效果评估等决策提供科学的依据，应用前景非常广阔。

主要参考文献

[1]杨建武，陈晓鸥.XML文档集的聚类研究[C]//全国数据库学术会议，2001.

[2]李尚昊，朝乐门.文本挖掘在中文信息分析中的应用研究述评[J].情报科学，2016，34 （8）：153-159.

[3]谢秋华.Web文本挖掘的相关技术问题探讨[J].长春理工大学学报：自然科学版，2010（7）：55-56.

[4]许高建.文本挖掘关键技术研究及实现[D].合肥：合肥工业大学， 2007.endprint