当前位置:首页 期刊杂志

基于舆论数据的中文情感分析研究

时间:2024-05-04

寇凯

摘要:随着互联网高速发展,人们通过网络社交平台对于社会舆论发表自己的观点。对这些舆论数据进行情感分析研究,识别出情感倾向,为企业、政府制定战略决策提供重要支持。文章首先对情感分析的研究现状进行说明;然后根据处理数据的不同,将情感分析方法归为四种模型;最后总结中文情感分析的不足和面临的挑战,并对前景进行展望。

关键词:情感分析;情感倾向;模型

随着Web2.0的兴起,越来越多的网民利用微博等社交平台发布信息。2015年7月23日,CNNIC发布了最新中国互联网报告,报告显示,我国网民规模达6.68亿,互联网普及率为48.8%,大量的舆论成为重要的数据来源。本文将重点对情感分析模型进行总结。

1.情感分析概述

情感分析又称情感挖掘。通过计算机技术对数据进行分析,挖掘出人们对于社会舆论表达积极(Pos)、消极(Neg)或中性的(Neu)情感。数据类别不同采用方法不同,提取情感特征也不同。目前情感分析模型大致分为4类,分别是基于情感词典、词句、文档和主题模型。以下分别从这4类模型进行整理。

2.基于情感词典模型

情感词又称带有情感倾向性的词语。确定一个词是积极还是消极,用情感词典把对应的情感词用数值表示出来,正值为积极,负值为消极,零为中性。这种方法简单易行。

刘坤林将情感词表与人工选择的规则相结合,统计待分析文本中积极情感词和消极情感词的个数直接判断。李钰将传统基础情感词典和微博表情符号词典相结合,得到微博正向情感词数加上正向表情符号数与负向情感词数加上负向表情符号数相互比较确定情感极性。杜振雷提出多特征融合的情感分析,在计算中加入多个特征,利用SVM分类器进行分析。刘楠用词典的主客观方法和统计方法相结合,将含有情感词或情感表情符号的微博短文本判别为观点句。通过特征项是否在情感词典中出现,以及出现的频率判别情感。王志涛利用现有词典,将句型句间关系、词语多元组和主题词相关性等规则相结合。

3.基于词句模型

词句情感分析是把一篇文档分成多个词语或句子,采用基于情感词典方法和基于机器学习方法对词句进行分析是积极、消极还是中性。

李岩建立亲和力传播算法词语义倾向性方法。先利用文本激活力模型对具体数据集进行建模;然后找到词亲和力网络抽取候选观点词;最后检测候选观点词的语义倾向性并生成语义倾向性词典。Meng等提出一种跨语言的混合模型,选取相互匹配的双语料似然最大化的参数学习法,来获取情感词典中从来没有出现过的词汇来提高情感词典的覆盖。刘楠将加权投票与AdaBoost方法组合成VoteAdaBoost模型,对样本进行迭代训练形成分类器对情感分类。姚天叻等提出标注词性搜索依存关系判断词性的方法。李婷婷等提出基于SVM和CRF多特征组合的微博情感分析方法。

4.基于文档模型

文档的情感分析是分析整个文本的情感倾向性。早期的文档情感分析是在词语和句子的基础上进行。随着网络的快速发展,文档的情感也变得多样化和复杂化,所以分析起来相比基于词典的方法和基于词句的方法更具有挑战性。

李岩根据情感鉴别算法计算情感亲和力值,将SDA和SSC线性组合,根据正倾向和负倾向情感特征的整体得分情况对文档的情感倾向性进行分析。王文等提出基于文本语义和表情倾向的微博情感分析方法,构建四元组Q(A,S,F,E)。王根等提出多重冗余标记CRFs的句子情感分析研究,利用冗余信息能够将多个互相关联的任务统一起来。冯时等根据博文特点,构建博文情感倾向性识别算法计算结果,给定阈值参数作为最终的评价标准。李景玉等利用SVM的候选评价对象筛选模型和加权的候选评价对象筛选模型,对特征的语义、最小距离和词频进行筛选评鉴对象。叶强等根据连续双词词类组合模式(2-POS)自动判断句子主观性程度的方法,利用加权后的主观词类组合模式,计算语句主观性。张浩将CRF和EM融合的方法对语料进行情感分析。张想在SVM的基础上,构建TSVM分类器模型,对评价对象特征进行抽取与合并,对词语覆盖率的纯度上有很好的改进。

5.基于主题模型

主题又称为评价对象。一篇文档往往含有一个或者多个主题,每个主题对应相应的概率分布。通过将概率分布可以大致确定情感倾向为积极、消极或中性的。

刘坤林将人工标注的数据和噪声标注的数据的机器学习算法进行集成,构建基于ESLAM。通过集成的表情符号平滑的语言模型不仅可以判别积极和消极的情感,也可以主观性的分类。TSENG H等依靠SBV极性传递算法,寻找所有含有SBV结构的关系对,记录主题打上标签,最后判断情感极性。谢丽星等构建层次结构的多策略分析框架,将网络用语词典进行匹配识别,以及否定词的转移处理,深入研究主题相关特征。陈永恒等利用SAA SSW贝叶斯网络模型对主题种子词及句子进行重构。GRIFFITHS T等将词典情感倾向性与LDA话题模型与滑动窗口的多方面集成,形成的情感分析模型,可以有效地识别和划分话题。

6.结语

随着互联网的发展,舆论热点越来越受到人们关注。针对这些数据进行研究,挖掘其中含有的情感,是具有深远意义的。除了以上的方法外,中文的意思多义,在不同情景下表达的情感也有所不同,不但要考虑其本身意思,也要根据上下文考虑语义倾向性。本文对情感分析的相关研究成果进行综述,总结了情感分析的模型,确定下一步研究重点,为未来情感分析的研究提供帮助。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!