基于Word2vector的文本特征化表示方法

时间：2024-07-29

周顺先，蒋励,，林霜巧，龚德良，王鲁达

(1.湘南学院软件与通信工程学院，湖南郴州 423000，2.中南大学信息科学与工程学院，长沙 410075)

0 引言

目前，针对信息检索任务中的文本，在无法直接识别其词语语义的情况下，多采用基于词语统计的样本特征化表示方法，例如词频-逆向文件频率模型[1-2](term frequency-inverse document frequency，TF-IDF)模型与词袋[3](bag of words，BOW)模型。现行的基于词语统计的特征化表示方法可在无语义规则支持的情况下实现文本特征化表示，但将忽略词语语义，无法有效地提取其词语语义特征。

Word2vector最先由Mikolov在2013年提出，该方法能够简单、高效获取词义的向量化特征，引起业界的极大关注。当文本作为信息检索的样本时，针对在不同文本中的每个词语，Word2vector可依据其上下文关系有效地提取其语义(即词语语义特征)，并以词向量提供形式化表达[4]。因此，Word2vector的词义特征提取无需语义规则库。由于Word2vector的词义特征提取机制的复杂性，使得不同文本中相同的词所对应的词向量并不相同。难以根据Word2vector的词向量形成文本的特征化表示，尤其难以形成向量空间模型(vector space model，VSM)[5]形式的样本特征化表示。

Mikolov在相关论文[6]中说明了Word2vector的机制。部分技术开发人员已对word2vec中的数学原理进行了深入的剖析[7]。在此基础之上，西南大学唐明等[8]提出一种文档向量表示的方法，应用与中文文档的分类；华东师范大学计算机应用研究所杨河彬等[9]提出CT-Word2Vec神经网络语言模型，利用词汇的上下文信息将词转化成向量，在词向量的学习过程当中融入了用户的搜索点击行为。上述方法在执行过程中，前者是对词语语义明细的文本进行特征化表示，存在对词语语义规则的利用(如中文分词的划分粒度)，后者也可用于支持文本进行特征化表示，但存在人为语义识别的因素(如用户搜索行为的干预)。

单纯依靠word2vec工具，可根据上下文关系提取词语的语义特征，并可不依赖语义规则，且针对词语语义不明的文本同样有效。而在近期文献中，未有此类基于Word2vector的文本特征表示方法被提出。

文本提出的特征化表示可采用Word2vector作为基于上下文的词义特征提取方法，并适用于现行基于向量空间模型(vector space model，VSM)的信息检索算法。该文本特征化表示方法，能够根据Word2vector词义特征，在无语义规则支持、词语语义不明的情况下，形成VSM形式的文本特征化表示，适用于以VSM形式为特征化表示的文本分类算法。

1 研究动机及相关技术

本文的研究动机是构建一种基于上下文关系的文本特征化表示方法，采用Word2vector提取文本中的词语语义(词义)特征，并最终形成VSM形式的文本特征化表示。实现Word2vector词义特征提取方法的Word2vec工具是其相关的技术基础。

1.1 基于Word2vector的文本特征化

基于Word2vector信息检索文本特征化可以解决2个方面的问题：①根据Word2vector词向量难以形成文本特征化表示的问题；②在缺少语义规则库的情况下，文本特征化过程中词义特征提取的问题。本文研究动机的具体思路如下。

1)根据文本中的空格或统一粒度的分词规则划分每个词语。

2)针对由分词得到的词语，采用Word2vector方法提取其词义特征，并以词向量形式表示。

3)采用适当的聚类划分数量，对得到的词向量进行聚类，即实现对词语词向量的“最优适应度划分”的聚类。根据最终的聚类结果将词语替代表示为其词向量所属聚类划分的质心S，即用质心S代表其聚类划分内的词语，将词语语义特征近似认同为所属聚类划分的质心。

4)将“质心S所代表的词语”在该文本中出现频率计为质心S的频率，并统计词向量聚类质心S的逆向文件频率；参照TF-IDF模型构成词向量聚类质心频率模型，并生成VSM形式的特征化表示。

5)根据基于Word2vector的VSM特征化表示进行文本相似性分析。

根据研究动机，将利用Word2vector提取词义特征，获得文本中所有词语的词向量；而后，根据最优聚类效果适应度的划分对词语的词向量进行聚类，并根据聚类结果将词语替代表示为其词向量所属聚类划分的质心(S)；最后，将质心所代表的词语在文本中的出现频率计为质心S的频率，并构成词向量聚类质心频率模型，用于特征化表示文本。词向量聚类质心频率模型蕴含词义特征，且属于VSM形式，可适用于现行的基于特征向量的信息检索算法(如分类、回归、聚类)。

基于Word2vector的文本特征化与传统的词语统计机制不同，可通过分析Example 1表明。Example 1中，2个简单的句子可视为2个文本样本，并且构成一个极小的语料库。

Example 1.

Sample A. Men love holiday.

Sample B. Human enjoys vacation.

Sample A和Sample B的含义极为相似，2个文件之间的相关性和语义相似性是相当大的。

词语统计机制的文本特征化对Example 1中文本的向量化表示如表1所示。其中，在A，B2个向量中，不为零的词频值没有同时出现在2个文本样本中的相同词语上。这2个词频的正交向量表明，用于文本特征化表示的词语统计机制，不能有效表示Example 1中的语义相似性。而基于Word2vector的文本特征化表示则可依靠词向量所属聚类划分质心对词语的替代表示，实现词义特征统计，从而有效表示Example 1中的语义相似性。

表1 词语统计机制的Example 1文本向量化表示

1.2 Word2vector及Word2vec工具

当文档作为信息检索的样本时，针对在不同文档中的每个词语，Word2vector可依据其上下文关系有效地提取其语义(即词义特征)，并以词向量的形式给出[10]。Word2vec是Word2vector方法的模型实现软件工具包，能够基于词语的上下文关系，快速有效地训练并生成词向量。Word2vec工具包含了2种训练模型，CBOW(continuous bag of word)与Skip_gram。Word2vec中训练模型的基础是神经网络语言模型(neural network language model ，NNLM)[11]，其基本原理如图1所示。必须注意的是，Word2vector的词义特征提取机制使得不同文档中相同的词所对应的词向量并不相同。所以，导致难以根据Word2vector的词向量形成信息检索样本的特征化表示，特别是难以形成VSM形式的样本特征化表示。

图1 Word2vector方法原理Fig.1 Word2vector mechanism

Word2vec作为一款将词表征为实数值向量的高效工具包[6]。其利用深度学习的思想，可通过训练把对文本内容的处理简化为多维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用于自然语言处理相关的工作，如聚类、同义词查找、词性分析等。若将词语当做特征，则Word2vec就可将特征映射到多维向量空间，可为文本数据寻求更加深层次的特征表示。

Word2vec使用的是Distributed representation的词向量表示方式[6]。Distributed representation的基本思想是通过训练将每个词映射成N维实数向量，通过词之间的距离(如余弦相似度、欧氏距离等)判断它们之间的语义相似度[12]。Word2vec采用一个三层的神经网络(含输入层-隐含层-输出层)，Word2vec的三层神经网络本身是对语言模型进行建模，同时获得一种词语在向量空间上的表示是Word2vec的真正目标(见图1)。Word2vec三层神经网络可根据词频用Huffman编码使得所有词频相似的词隐藏层激活的内容基本一致，出现频率越高的词语，所激活的隐藏层数目越少，可有效地降低计算的复杂度。因此，Word2vec具备高效性。

2 基于Word2vector的文本特征化表示方法

基于Word2vector的文本特征化表示利用Word2vector提取词义特征，获得文本中所有词语的词向量。之后，根据最优聚类效果适应度的划分对词语的词向量进行聚类，并根据聚类结果将词语替代表示为其词向量所属聚类划分的质心S。质心所代表的词语在文本中的出现频率计为S的频率，构成用于特征化表示文本的词向量聚类质心频率模型(semantic frequency-inverse document frequency，SF-IDF)。

2.1 方法说明

基于Word2vector的文本特征化表示方法，主要由以下步骤构成。

2.1.1 对样本进行词语分词

将文本中的词语视为ASCII字符串，根据空格或划分每个词语。将词语记为wordi,t，表示第i个样本中的第t种词语的分词，有i={1,2,…,|D|}，|D|为数据集中D的样本数，t={1,2,…,n}，n为词语种类数，所有文本中词语wordi,t的数量为N，不同文本中的相同ASCII字符串识别为同一词语。

2.1.2 采用Word2vec工具提取词义特征

词向量初始化赋值时，不同文本中的相同词语具有一致的词向量，有wi,t=wj,t。

针对由2.1.1节得到的词语，采用Word2vector方法，基于词语的上下文关系提取其词义特征，并以词向量形式表示。本步骤运用Word2vec工具包中的训练模型，可获得词语的词向量。训练模型以神经网络语言模型NNLM为基础，其原理如图1所示。

采用NNLM计算某一个上下文中一个词语wordi,t的概率，即p(wordi,t=t|context)，词向量是其训练的副产物。NNLM根据数据集D生成一个对应的词汇表V，其中的每一个词语都对应着一个标记wordi,t。通过数据集来构建训练样本并作为神经网络的输入，以确定神经网络的参数。NNLM词语上下文样本的构建过程为：对于D中的任意一个词wordi,t，获取其上下文context(wordi,t)(例如前n-1个词)，从而得到一个元组(context(wordi,t),wordi,t)。以该元组作为神经网络的输入进行训练。NNLM的输入层和传统的神经网络模型有所不同，输入的每一个节点单元是一个向量，向量的每一个分量为变量，在训练过程中对其进行变更，该向量即为词向量。由图1可知，对于每一个词wordi,t，NNLM都将其映射成一个向量wi,t，即为词向量。

Word2vec生成的词向量wi,t具体表示第i个文本中的第t种词语的词义特征，有i={1,2,…,|D|}，|D|为样本数，全体样本中词语的词向量wi,t的数量为N。

2.1.3 词语语义特征替代表示

首先，采用最优聚类效果适应度下的聚类划分数量，对词向量进行K-means算法聚类[13]，即实现对词语词向量的“最优适应度划分”的聚类。词向量的K-means聚类中，采用两词向量夹角的余弦值计算二者间的距离。

根据2.1.2节，所有样本中词语的词向量wi,t的数量为N，词向量wi,t具体表示第i个样本中的第t种词语的词义特征。已知的样本分类数量为C，而样本数量为M。本步骤中，将词向量聚类划分的质心称为S(表示为词向量空间中的向量)，S的数量k即是聚类划分个数。

为度量词向量空间中的K-means聚类效果，本文给出聚类划分数量适应性的计算。为表示聚类划分数量适应性，令f(k)为体现聚类效果适应度的函数，表示为

(1)

(1)式中：α为k个S向量间的平均余弦距离；β为k个聚类划分内的词向量间平均余弦距离的均值，具体地有

(2)

(3)

图2 聚类效果适应度函数Fig.2 Clustering effect of fitness function

设聚类划分个数k∈[N,N×C]，且为正整数，当f(k)=max(f(k))时，令最优聚类效果适应度下的聚类划分数量K=k，f(K)是聚类效果适应度的最大值。经计算可知，函数f(k)在N到K的区间是单调递增的，在K到N×C的区间是单调递减的，函数f(k)的分布如图3所示。

当f(k)=max(f(k))时，K=k，f(K)是聚类效果适应度函数的极值，即最优聚类效果适应度，K-means聚类质心S的数量最终确定为K。

根据最终的聚类结果将词语替代表示为其词向量所属聚类划分的质心S。具体地，当f(k)=max(f(k))时，最优聚类效果适应度下的聚类划分数量K=k，将任意词语wi,t替代表示为其词向量所属聚类划分的质心S，即将词语的特征近似认同为所属聚类划分的质心。在任意局部词向量空间中，用质心S代表其聚类划分内的词语，其对应关系如图3所示。

图3中的具体替代表示关系为

Sb↔{wordi,t|wi,t∈Wb}

(4)

(4)式中：第b个聚类质心Sb所代表的词语wordi,t构成一个词语集合；wi,t是词语wordi,t的词向量；Wb是类属于质心Sb所在聚类划分的词向量所对应的词语的集合。

图3 词向量空间中根据聚类的替代表示关系Fig.3 Substitution in word vector space

词语语义特征替代表示是采用聚类质心代表该聚类划分中所有词语及其语义，有可能造成信息损失。将由结果表明其所造成的信息损失可视为在文本特征表示过程中可承受的影响。

2.1.4 基于词义特征替代表示构建文本特征化表示模型

首先，统计每个词语在一个样本中出现的频率，根据2.1.3节给出的质心S与词语的替代表示关系，将第b个质心Sb所代表的词语在该样本中的出现频率计为质心Sb的频率；并统计词向量聚类质心Sb的逆向文件频率，有b={1,2,…,K}。而后，参照TF-IDF模型构成词向量聚类质心频率模型——SF-IDF。

TF-IDF模型[1]中，样本doci的特征化表示由特征向量di实现，有

di=(di(1),di(2),…,di(n))

(5)

向量di中第t维元素di(t)计算方式为

di(t)=TF(wordt,doci)·IDF(wordt)

(6)

(6)式中，TF(wordt,doci)是词语wordt在样本doci中的频率，其计算方式为

(7)

(7)式中的分子是该词语在样本中的出现次数，而分母则是在文件中所有词语的出现次数之和；IDF(wordt)为词语wordt的逆向文件频率，其计算方式为

(8)

(8)式中：D为样本doci的构成数据集；|D|为数据集D中样本的总数；|{doci|wordt∈doci}|为包含词语wordt的样本数量。

参照TF-IDF模型，SF-IDF模型具体构成如下。

SF(Sb,doci)是词向量聚类质心Sb在文本doci中的频率，其计算方式为

(9)

(9)式中：TF(wi,t)表示词语wi,t在文本doci中出现的频率；SF(Sb,doci)仅累计文本doci中由质心Sb所代表的词语的频率。

IDF(Sb)为词向量聚类质心Sb的逆向文件频率，其计算方式为

(10)

(10)式中：D为文本doci的构成数据集；|D|为数据集D中样本的总数；|{doci|wi,twi,t∈Wb∈doci}|为包含由质心Sb所代表的词语的样本的数量。

(11)

(12)

SF-IDF模型属于VSM(向量空间模型)形式，用于特征化表示一个文本。

2.1.5 文本相似性分析

根据SF-IDF模型特征化表示，计算2个文本间的相似度；并据此进行信息检索领域中样本分类算法的执行。

(13)

2.2 方法分析

据互信息理论，可给出基于Word2vector的文本特征化表示方法的有益性分析。

假定X与Y为表示样本X与Y词语语义内容的随机变量。若样本已知，X和Y的互信息(mutual information)表示两者间的不确定性归纳。样本X与Y之间的互信息I(X;Y)定义为

(14)

在词语统计机制下，概率P(xi)或P(yj)由统计样本X或Y中xi或yi的出现次数(词频)计算，并通过文本语料库规模(N)进行归一化。联合概率P(xi,yj)由xi与yi之间的存在关系的次数(相关频率)统计，并根据N进行归一化。xi与yi之间存在的关系为“相同”或特定关系[14]。

以Example 1为例，在任意Sample A中的词语与Sample B中的词语之间，并没有可统计的存在关系的次数，它们并不“相同”，也没有表现出特定关系。故词语统计的特征提取显示P(xi,yj)=0，且样本间的互信息I(X;Y)=0。可以证明词语统计机制的特征提取丢失词语语义内容所产生的互信息。

基于Word2vector的文本特征化表示的语义特征提取方式，是进行词语语义特征替代表示。因而在不同的样本中，词语可由词语语义特征替代表示产生关系。在Example 1的Sample A与Sample B中的词语间，存在可统计的存在关系的次数，尽管它们并不“相同”，却可表现出特定关系。例如词语“Men”与“Human”的语义根据上下文关系提取，并通过词语语义特征替代表示进行近似认同。上述分析表明，基于Word2vector的文本特征化表示可提供文本词语语义层面的信息概率加权量(probability weighting information ，PWI)[15]。

3 实验及结果分析

根据词向量聚类质心频率模型，采用信息检索领域中的经典样本分类算法——权重邻居不均衡分类样本集分类算法(neighbor-weighted k-nearest neighbor for unbalanced text corpus ，NWKNN)执行文本分类。NWKNN是权重邻居(k-nearest neighbor，KNN)算法，用于不均衡分类样本集的样本分类判别。该算法在信息检索领域中被视为一种高效的分类算法，其公式为[16]

score(doc,ci)=

(15)

函数score(doc,ci)求得将文本doc归于分类ci的评估值，用于判定文本doc归属于拥有最高评估值的分类；函数score(doc,doci)表示样本doc与已知类别样本doci的相似度，采用向量余弦距离计算；Weighti为分类权重设定值，根据NWKNN算法经验化赋值为3.5[16]；函数δ(docj,ci)表示样本docj是否属于类别ci，若样本docj属于类别ci，则该函数取值为1，否则，该函数取值为0。

样本分类的性能评估采用F1-measure标准。该标准结合召回率Recall和准确率Precision的评估度量F1如下

(16)

运用F1-measure标准，可观察分类系统针对数据集的分类效果。为便于比较，将总结文本分类结果的宏观F1度量值Macro-F1。同时，可以得到文本分类结果的平均准确率。

由于实验步骤中将文本中的词语视为ASCII字符串，根据空格或划分每个词语，所选用的文本数据集均可视为无语义规则支持、词语语义不明的文本集合。

分别以路透社文本集Reuter-21578、维基百科XML数据Wikipedia XML为文本数据集，采用NWKNN算法进行文本分类实验，并采用F1-measure标准进行样本分类的效果评估，SF-IDF向量与现有技术中TF-IDF向量的分类效果对比如表2，表3所示。

表2 Reuter-21578数据集上TF-IDF向量与SF-IDF向量的分类效果比较

表3 Wikipedia XML数据集上TF-IDF向量与SF-IDF向量的分类效果比较

据表2，表3所述，可见SF-IDF向量的分类效果明显优于现有技术中TF-IDF向量。在没有语义规则支持且词义不明的情况下，在Reuter-21578数据集上平均准确率由原有的57.1%提高到63.3%，在Wikipedia XML数据集上平均准确率由原有的48.7%提高到59.2%。

实验结果显示，在没有语义规则支持且词义不明的情况下，针对文本相似性分类任务，SF-IDF模型相较TF-IDF模型拥有更优良的F1-measure评估结果，说明本文所提出的特征化表示方法具备文本词义特征提取方面的优势。

4 结束语

本文所提出的词向量聚类质心频率(SF-IDF)模型，采用信息检索领域经典样本分类算法NWKNN，在公用数据集Reuter-21758与Wikipedia XML之上，与TF-IDF模型进行对比实验，展示了明显优势。SF-IDF模型提高了文本相似度计算的准确性，提升了文本分类准确度，并拓展了信息检索领域中向量空间模型的构建方法。

SF-IDF模型所实现的方法，解决了根据Word2vector词向量难以形成文本特征化表示的问题，可在无语义规则支持的情况下，构成基于上下文的文本特征化表示。因此，SF-IDF还可应用于分析无法被自然语言直接解读的文本或数据链报文(如Link-16，Link-22)。

今后基于Word2vector的文本特征化表示方法的研究工作将尝试采用密度聚类算法执行词向量最优聚类效果适应度下的聚类，并展开多种文本数据集上的信息检索试验。

参考文献：

[1] ZHANG W,YOSHIDA T,TANG X. A comparative study of TF* IDF, LSI and multi-words for text classification[J].Expert Systems with Applications, 2011,38(3):2758-2765.

[2] TU Shouzhong,HUANG Minlie.Mining microblog user interests based on TextRank with TF-IDF factor[J].The Journal of China Universities of Posts and Telecommunications, 2016, 23(5):40-46.

[3] PURDA L,SKILLICOM D. Accounting Variables, Deception, and a Bag of Words: Assessing the Tools of Fraud Detection[J].Contemporary Accounting Research, 2015,32(3): 1193-1223.

[4] LEQV,MIKOLOV T.Distributed Representations of Sentences and Documents [J].Computer Science,2014,4(32):1188-1196.

[5] JING L,NG M K, HUANG J Z.Knowledge-based vector space model for text clustering[J].Knowledge and Information Systems, 2010, 25(1):35-55.

[6] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J].Advances in Neural Information Processing Systems,2013,10(26): 3111-3119.

[7] Poll的笔记.文本深度表示模型——word2vec & doc2vec词向量模型[EB/OL].(2016-04-24)[2017-02-20].http://www.cnblogs.com/maybe2030/p/5427148.html.

[8] 唐明,朱磊,邹显春. 基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217.

TANG Ming, ZHU Lei, ZOU Xianchun. Document Vector Representation Based on Word2Vec[J].Computer Science,2016, 43(6):214-217.

[9] 杨河彬,贺樑,杨静.一种融入用户点击模型Word2Vec查询词聚类[J].小型微型计算机系统,2016,37(4):676-681.

YANG Hebin, HE Liang, YANG Jing.Query Clustering Using CT-Word2Vec Model [J].Journal of Chinese Mini-Micro Computer Systems , 2016 ,37(4):676-681.

[10] MIKOLOV T, CHEN K, CORRADO G, et al. Computing numeric representations of words in a high-dimensional space：United States,13/841,640[P].2015-05-19.

[12] MIKOLOV T, YIH W, ZWEIG G.Linguistic Regularities in Continuous Space Word Representations[C]//Ken Church.HLT-NAACL.Atlanta,Georgia：Association for Computational Linguistics，2013:746-751.

[13] KANUNGO T, MOUNT D M, NETANYAHU N S, et al. An efficient k-means clustering algorithm: Analysis and implementation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):881-892.

[14] van RIJSBERGEN C J. Information retrieval [M]. London: Butterworths Press,1979：113-252.

[15] CHUM O, PHILBIN J, ZISSERMAN A. Near Duplicate Image Detection: min-Hash and tf-idf Weighting[EB/OL]//(2008-08-01)[2017-04-20]. http://www.cs.jhu.edu/～misha/ReadingSeminar/Papers/Chum08.pdf.

[16] TAN S. Neighbor-weighted k-nearest neighbor for unbalanced text corpus[J].Expert Systems with Applications,2005,28(4):667-671.