当前位置:首页 期刊杂志

基于χ2统计量的不良文本过滤特征选择方法

时间:2024-05-04

管江红

(西藏民族大学信息工程学院,陕西咸阳 712082)

0 引 言

不良文本过滤过程中,需要将文本表示为计算机容易处理的形式,这种表示方法既要包含足够的信息用来反映文本的特征,又不至于太过庞大使学习算法无法处理[1]。通常所使用的文本表示方法为向量空间模型(Vector Space Model,VSM),空间向量虽然经过分词过程的预处理,但其维数依旧很高,不仅会使分类时间大大延长,还会导致分类结果误差加大[2]。因此,需要找到一种合适的特征选择方法[3-4]对空间向量降维,即对特征项进行特征选择。

特征选择方法种类繁多且各有优劣[5-6]。文献[7]提出一种基于文档频率(DF)的特征选择方法,其结构简单,但缺点也较为明显,词频作为唯一的判断标准,会导致特征选择结果过度偏向高频词,另外,实验结果表明其可能导致部分低频词包含更多的特征信息。文献[8]考虑了特征未发生的情况,提出信息增益(IG)特征选择方法,但是在类别分布与特征项分布不均时,绝大部分的特征项不会出现,则导致特征选择不准确。文献[9]考虑了特征项与类别的关联,提出基于互信息(MI)的特征选择方法,但忽略了特征项出现的频率,因此会导致特征选择结果过度偏向低频词。

对于以上特征选择方法所存在的缺陷,χ2统计方法具有极高的优越性,但依旧存在缺陷,本文为提高不良文本过滤效果,针对其缺陷进行改进,得到更加优化的特征选择方法[10]。

χ2统计量方法虽然是目前文本分类中应用效果最好的特征选择方法之一,但不可避免地存在缺陷。主要有:降低了部分具有明确分类意义的低频词权重;提高了部分在其他各类别频繁出现,但很少出现在指定类别的高频词权重。

本文针对现有以χ2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,提出一种不良文本过滤特征选择方法。所改良的特征选择方法能够弥补现有χ2统计量在类内/类间特征项分布情况判别能力的缺陷,进而充分贴合不良文本过滤过程的特征选择需求,从而提升不良文本过滤效果。

1 χ2 统计量计算

特征选择方法种类繁多且各有优劣,χ2统计方法通常用来检验两个变量是否独立,一般来说,原假设为两变量独立,计算得到的χ2统计量值越大则说明实际与原假设越背离,则原假设成立的可能性越小,两变量关联性越强。在文本分类领域,原假设H0:特征项与该类别没有相互影响,无关联;备择假设H1:特征项与该类别有关联,χ2统计量越大即偏离值越大,特征项与该类别关联度越高。若特征项与类别相互独立,则χ2统计量为0。

特征项与类别关系表如表1 所示,A为既包含特征项tj又属于类别Ci的文档频数;B为虽然包含特征项tj但不属于类别Ci的文档频数;C为类别Ci中不包含特征项tj的文档频数;D为所有文档中既不包含特征项tj又不属于类别Ci的文档频数。

表1 特征项与类别关系表Table 1 Relation between feature and category

特征项tj对于类别Ci的χ2统计量表示为:

式中N为训练文档总数,即N=A+B+C+D。

在特征选择过程中,根据χ2统计量在类别内对特征项由大及小降序排列,从而选出统计量相对较大,即与该类别相关性相对较强的特征项,因此,χ2统计量的具体数值并不重要,对于每一个类别来说,其训练文档总数N、属于Ci类文档数A+C以及不属于Ci类文档数B+D是相同的,因此,可将式(1)简化为:

多个类别分类过程就是将类别内所有特征项分别计算χ2统计量,按照其数值大小排列后,有两种特征选择方式:选取序列靠前的k个特征项为最终确定的特征项集合,其中k可根据具体情况设定;也可以设置阈值,选取χ2统计量超过该阈值的特征项,否则舍弃。

2 不良文本过滤特征选择方法

2.1 双层分类的特征选择方法

在文本分类过程中存在双层分类的情况,如不良文本过滤过程。其中,将文本分为正常文本及不良文本两大类别的过程为一层分类;两大类别的小类细分为二层分类。不良文本过滤双层分类示意如图1 所示。

图1 不良文本过滤示意图Fig.1 Example of harmful text filtering

在不良文本过滤过程中,针对χ2统计量在类内类间特征项分布情况判别能力的缺陷,将改进后的分类特征权重值CTW(Category Term Weight)作为特征选择的依据。CTW 值计算公式为:

式中:χ2(tj,Ci)为特征项tj对于类别Ci的χ2统计量;IDF(Inverse Document Frequency)为改良后逆文档频率;ICF(Inverse Category Frequency)为逆类别频率;ISDF(Inverse Super-stratum Document Frequency)为逆上层文档频率。下面对IDF 值、ICF 值及ISDF 值的计算进行详细介绍:

1)IDF 值的计算

传统IDF 值公式为:

由IDF 公式可知,如果包含该特征项tj的文档数越多,则IDF 值越趋近于0,但显然,这没有区分特征项在所属类别类内与其他类别之间的分布差别,因此,将IDF 公式改进为:

式中:N为训练文档集合总文档数;n为包含该特征项tj的文档数,n=m+k,m为类别Ci中包含该特征项tj的文档数,k为除类别Ci外其他各类包含该特征项tj的文档数。

式中若m1>m2,则有f(m1)>f(m2),由此可知,f(m)与m为正比例关系,与k为反比例关系,达到对特征项类内与类间分布情况考虑的改良,即该项IDF 值满足以下条件时获取较大值:特征项tj在类别Ci中频繁出现,并且在其他类别中鲜少出现。

2)ICF 值的计算

在训练文档集合中,往往不能保证所有类别文档数量相同,导致文档数量关于类别的分布情况出现倾斜,而当这种不均衡出现时,如某类别文档数较少时,IDF值几乎不能起到抑制作用,导致权重偏向依赖于χ2统计量,最终导致CTW 值偏高。

因此加入逆类别频率ICF 值弥补抑制强度为:

式中:p为训练文档集合的全部类别数量;q为包含特征项tj的类别数量。

由式(7)可知,当包含特征项tj的类别越多时,ICF值越趋近于0,即该特征项tj的代表性越差,权重值越低。

在训练文档集合中,考虑到某两类二层类别有可能具有较高的相似度,即某一特征项在其中某几个一层其一类别部分文档中频繁出现,在其他类别(包括其他一层其他类别)文档,以及上述某几个一层其一类别中的其他文档中很少出现的情况,有可能导致在分类过程中,一层类别特征项被分散,使得介于两类一层类别之间的文档不能被识别,即不能被清晰划定是否属于该一层类别。

因此加入逆上层类别频率ISDF 值弥补,公式为:

式中:N为训练文档总数;w为包含该特征项tj的文档数,w=v+l,v为全部一层其一类别中包含该特征项tj的文档数,l为除其他一层类别中包含该特征项tj的文档数。

式中若v1>v2,则有f(v1)>f(v2),由此可知f(v)与v为正比例关系,与l为反比例关系,该项ISDF 值满足以下情况时获取较大值:特征项tj在一层其一类别中频繁出现,并且在其他一层类别中出现较少。由此,达到了模糊一层其一类别中各类别界限的目的,可提高一层类别之间的识别能力。

2.2 基于双层分类特征选择的不良文本过滤

不良文本过滤技术实现过程可分为训练文本过程与测试文本过程两个部分,总流程如图2 所示。

图2 不良文本过滤技术总流程图Fig.2 Overall flow chart of harmful text filtering technology

训练文本过程如图2 左侧分支所示,首先,利用网络爬虫抓取一篇类训练文档,进行中文文本分词后进入朴素贝叶斯分类算法的训练阶段,其主要目的是确定类中心向量所包含的特征项及其前验概率与后验概率,最后进行类别阈值的确定。

有的班主任认为学校的各种规章制度给自己带上了重重枷锁,如课间操和早读到岗,他们敷衍了事,走走过场,做做样子。而有的班主任却自得其乐,加入跑操队伍,既锻炼了自己的身体,又鼓舞了学生士气;与学生一起早读,既带动了学生,又成就了自己。

测试文本过程如图2 右侧分支所示,进行中文文本分词后生成测试文本文档的向量空间模型表示,进入朴素贝叶斯分类器应用阶段。首先要对作为反例类别的5 类分别计算测试文档属于该类概率,为了尽量减小分类误差,在判断测试文档最可能的归属类别时,将类别概率与其所对应的类别阈值作比较后取最大值,假定测试文档属于该类,最后,将该类别概率与其阈值进行第二次对比后,得到最终分类结果。

朴素贝叶斯算法多项式模型P(tj|Ci)采用最为常见的词频法计算,由于存在概率估计过低(为0)的情况,引入m估计(m-estimate):

式中:Nji为特征项tj在Ci类所有文档中出现的总次数;|V|为待测试文档Xr的单词表长度(不包含重复单词),即该文档所包含的非重复特征项的数量。由此可知,为Ci类中所有特征项的总次数。

类别Ci类的先验概率P(Ci)为:

将改良后的χ2统计方法应用于不良文本过滤过程中,ISDF 值的计算公式为:

式中:N为训练文档总数;w为包含该特征项tj的文档数,w=v+l,v为全部反例类别中包含该特征项tj的文档数,l为除反例类别外其他正例类别中包含该特征项tj的文档数。

3 实验与分析

针对不良文本检索与正常文本检索,分别计算正确率、召回率及F值,使用改良前及改良后特征选择方法的评估指标结果如表2,表3 所示。为更直观地观察对比情况,将数据表示为柱状图的形式,如图3~图5 所示。

表2 特征选择方法改良前评估指标Table 2 Evaluation indexes for unmodified feature selection method

由图3 可知,针对不良文本检索来看,正确率由于特征选择方法的改良有了明显的提高,由87.11%提高至90.33%,由此可判定通过特征选择方法的改良能够确定更具有类别特征的代表性项,在过滤假设类别分类过程中,提高了测试文本在假设阶段更加准确,从而提高不良文本过滤技术的过滤能力,针对正常文本检索来看,正确率也有了小幅提高,增长了1%。

表3 特征选择方法改良后评估指标Table 3 Evaluation indexes for modified feature selection method

图3 特征选择方法改良前后正确率对比图Fig.3 Comparison of accuracy of unmodified and modified feature selection methods

图4 特征选择方法改良前后召回率对比图Fig.4 Comparison of recall rate of unmodified and modified feature selection methods

由图4 可知,通过特征选择方法的改良对召回率的影响不大,但也有小幅提升,针对不良文本检索召回率增长4%,针对正常文本检索召回率仅增长0.03%,几乎不变。

图5 特征选择方法改良前后F 值对比图Fig.5 Comparison of F value of unmodified and modified feature selection methods

由图5 可知,综合评估指标F值综合正确率与召回率来看,特征选择方法改良的效果较好,针对不良文本检索F值由85.06%增至88.48%,针对正常文本检索F值由96.43%增至97.21%。由以上结果可知,特征选择方法改良有助于提高不良文本过滤技术的过滤功能,效果明显。

4 结 语

本文针对双层分类的特性,提出IDF,ICF 及ISDF 作为计算因子,对χ2统计方法进行改良,从而提出了一种新的特征选择方法。实验结果显示,对特征选择方法的改良大大增强了不良文本分类准确度,提高了分类效率。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!