当前位置:首页 期刊杂志

基于改进TF-IDF 特征的中文文本分类系统*

时间:2024-05-04

但唐朋 许天成 张姝涵

(华中师范大学计算机学院 武汉 430079)

1 引言

随着当下移动互联网技术的高速发展,网络用户的身份由单一的信息获取者转变成为双向的信息产生者和传递者。这一身份的改变加快了信息的传播速度,扩大了信息传播广度。与此同时,大量的文本信息也出现在网络当中。作为数据收集的重要步骤,在录入文本信息时往往需要对应其类别。然而不是每一个信息来源都会标注原始数据的类别。所以就需要设计一种自动文本分类系统来进行分类。更进一步说,如果对某一个用户所发布的信息进行分类处理,研究者们就可以探寻该用户对网络信息的关注程度,同时将其感兴趣的部分应用到信息推送等应用当中。总体而言,文本的分类研究拥有广泛的应用前景。

目前国内外已有不少学者在进行相关领域的研究,如魏芳芳等[1]基于支持向量机对农业文本进行分类,其缺点是分类的范围被限定在了农业领域不具备常规性和通用性。刘怀亮等[2]利用知网语义相似度进行中文文本的分类,提升了中文文本分类的准确度,但在进行向量模型构建时仅通过评论筛选维度没有考虑不同维度间可能存在的内在联系。李锋刚等[3]将 LDA 主题模型与传统 SVM 分类模型相结合解决了传统分类问题中相似性度量和主题单一的问题,但LDA 主题模型[4]的效能会跟随所设置参数而变化,通过模型不一定能够建立起完全匹配文本的向量集。为了解决上述问题,不仅需要在通用性质的类别下进行分类,还需要充分考虑文本中各个维度特征之间的关系。徐明等[5]针对微博短本文特征选择提出了一种改进的卡方统计算法,其能够增加分类的准确度但还是不能挖掘文本间的潜在联系。为了提高中文文本分类的准确度,本文采用 BOW 模型[6~7]进行文本向量化操作,并利用 TF-IDF 策略[8~9]进行向量维度的权重计算以保证最终向量化的结果能够对应原始文字数据。其后对传统TF-IDF策略进行改进并联合基于SVM 模型机器学习算法完成自动化文本分类系统的设计。

2 相关理论

2.1 BOW模型简介

BOW 模型是一种文本向量化模型,将文档表示成特征矢量。它的基本思想是对于任何一个文本,不考虑其词序、语法以及句法,仅仅将其看作是各个不同词汇的集合,而文本的每个词汇都是独立的。通过对不同语句中不同词汇的提取构建空间向量集。BOW的构造原理如下所示:

文本内容:不错不错

他去了北京读书

文本1:不错

文本2:去了、北京、读书

对文本1、文本2构建向量:

表1 BOW向量集的构建方法

2.2 传统TF-IDF特征

传统 TF-IDF(Term Frequency-Inverse Document Frequency)即词频-反文档频率是一种用于文本挖掘的常用技术。其中DF指的是文本集中所含有该特征的文档数目。IDF 反文档频率则反应了特征词在整个文档集合中的分步,可以在一定程度上体现这个特征的区分能力。某一个特定词语的IDF 可以由总文档数除以包含该词语的文档数再取商对数获得。即

其中N指所有文档总数,dft表示含有特征词t的文档数目。

TF 为词频,指的是某一个给定词语在该文件中出现的频率。所以可以通过推导得到计算公式。

归一化计算公式为

其中tfij表示特征词tj在文本中出现的次数,即为词频。在完成权值计算之后,将得到拥有如下性质的矩阵。

1)列是所有文档总共词的集合。

2)每一行代表每一个评论文本。

3)每行是一个向量,这个向量代表了词的权重。

若仅使用BOW 模型对文本进行向量化处理会导致所得文本向量过于庞大,所得的维度也越高,高纬度的向量组不利于文本分类,所以本文引入TF-IDF 策略进行处理,在降低维度的同时也能得到尽可能符合原文的向量组。

2.3 SVM分类器

SVM 分类器[10]是一种经典的机器学习分类模型,它能够准确地对高纬度信息进行分类,将文本的待处理数据表示为空间中的向量xi。通过在这个空间中创建一个超平面来达到将不同向量分类的目的,超平面的法向量表示为w。yi表示对应数据xi的类别且yi∈{- 1,1} 。下面分别给出其目标函数和对应最优解。

目标函数:

最优解:

其中αi表示拉格朗日算子,大于0的拉格朗日算子被称为支持向量,其余的拉格朗日算子等于0,SVM分类器根据计算待测数据并以超平面为界划分类别。本文将利用SVM 分类器对已经处理好的文本信息就行类别分类。

3 改进TF-IDF特征

运用传统的TF-IDF特征对文本进行向量构建时只考虑了特征项在各个文本中的分布情况,而忽略了特征项词语间的近义、同义情况。不同于英文文本,中文文本中往往含有大量近同义词,这些词语的存在势必会影响到文本分类器的分类效能。如果仅使用传统特征计算方法反而会丢失文本关键特征,文献[11~12]通过知识语言分析提出了词语级的相似度分析方法,并采用“知网”相似度算法来计算词语间的相似程度进一步提高词语相似度计算的准确程度。所以为了解决传统TF-IDF特征不能解决文本中含有近义词、同义词的情况,本文将相似度计算应用到TF-IDF特征计算方法中。并以此来增加特征项的权重。使其能够反应整个文本的特征。为了规范对于同义词、近义词的判断。我们规定相似度计算大于0.8的两个词可以被认为是同义词或近义词,并定义相似度因子α。α代表文本中一个特征项的数量与其相似特征之和在所有特征项总数中的占比情况。我们将使用相似度因子α来调节TF-IDF特征计算公式。相关公式如下所示:

1)相似度计算

其中x和y分别表示文本向量中的两组特征。

2)相似度因子

其中P表示某一文本中特征项t的个数,Q表示与特征项t相似度大于0.8 的特征项的个数,我们认为这部分特征词与原提特征词能够表示相似的文本特征。U是所有特征的数量。

3)融合语义的TF-IDF策略

其中Wij表示某一特征词的权重,tfij表示特征词tj在文本中出现的次数,即词频。N是整个文本的总数量,dft表示含有特征词t的文档数目。

4 中文文本分类系统的构建

文本的分类系统[13~15]主要由以下几个部分构成:1)文本获取器,主要通过网络爬虫技术定向从互联网自动获得文本信息;2)分类训练器,使用一定量的训练数据来训练机器学习模型以达到进行文本分类的目的;3)分类器,与训练器相似,不同的是分类器将直接对所收集到的未标记数据进行分类。本文将重点介绍分类训练器的构建。

4.1 分类训练器

分类训练器由5 个步骤完成:1)原始文本信息;2)预处理,由于文本中含有大量无用信息,如人称“我”、助词“的”等对文本类别意义没有帮助的字词所以需要对原始信息进行分词与去停用词处理;3)降维和向量化,分别利用第二部分所介绍的BOW 模型、TF-IDF 策略对文本信息进行向量化操作和降维处理;4)构建Bunch 库使组成的向量能够被SVM 分类器所训练。5)利用机器学习算法中的SVM分类器对数据元素进行学习,使其能够对中文文本进行分类。分类器的步骤由图1所示。

图1 分类训练器工作流程

4.2 Bunch类库

Bunch 类库用来存储进行降维和向量化后的文本数据同时对应其标签。在Bunch类库中有4个成员:对象名称、标签、文件名与文本内容。这4 个成员之间含有两层映射:一是对象名称与文件名的映射;二是标签类与文本内容的映射。构建Bunch类主要是利用其机理来规范化机器学习训练的操作。Bunch类如表2所示。

表2 Bunch类库说明

5 实验验证

为了更加便利地构建文本分类系统,本文在如下平台进行实验,CPU:Intel Core i7 6700,内存:DDR4 8G,硬盘:固态硬盘120G,操作系统:Windows 7,开发环境:python 3.4.4,sklearn 机器学习库。且训练数据选择了复旦大学中文文本分类语料库进行训练。文本分类普遍使用的评价标准有准确度、召回率、F1值,具体定义如下:

上述公式中,TP表示某特征被正确分类的正样本,FP表示某个特征被错误分类的负样本,FN表示某一特征在分类时被错误分类的正样本。为了说明改进特征的有效性,本文将分别利用传统TF-IDF 策略和改进TF-IDF 策略进行文本分类实验实验结果由表3、表4、图2、图3、图4所示。

表3 传统TF-IDF策略的实验结果

表4 基于改进TF-IDF的实验结果

图2 不同维度准确度的对比

由实验结果可知,应对不同纬度下的中文文本分类任务,该文本分类系统的准确度都处于较高水平,说明系统的建立是成功的,且应用改进策略的结果明显优于应用传统方法。值得注意的是,当选择不同维度来表达中文文本时得到了不同的分类准确度。这是因为在较低维度时用于衡量整篇文章的特征向量较少,不利于机器学习进行分类。而较高的维度虽然能够从各个方面完善的表示文本信息,但过高的纬度会伴随噪声,即向量中的无关信息会影响机器学习模型的判断。从实验结果来看在维度数为1500~2000 时分类的效果能够达到最好的情况,但这可能并不是绝对。需要重复试验找到最优情况。

图3 不同维度召回率的对比

图4 不同维度F1值的对比

6 结语

本文以文本分类为切入点,基于改进TF-IDF特征和机器学习原理设计了一种自动化中文文本分类系统。实验证明,改进后基于TF-IDF 特征的文本分类性能要优于传统文本分类方法。在本方法下设计的文本分类系统具有较高的准确度,能够用于实际应用满足了研究的需要。值得关注的是当维度提升至一定程度后各项指标不再增长,我们将在后续的研究中继续相关工作直至解决问题。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!