时间:2024-08-31
耿晓龙(天津理工大学计算机与通信工程学院,天津,300384)
高校网络舆情分析系统的探究
耿晓龙
(天津理工大学计算机与通信工程学院,天津,300384)
摘要:随着网络技术在高校的迅速普及和发展,大学生的学习生活越来越依赖于互联网,由于大学生常常对网络虚拟社区中的 “焦点”、“热点”问题发表一些具有明显负面性的意见或者言论,导致负面的信息在互联网上迅速传播,而这些负面的高校网络舆情如果不加以适当控制可能会对学校甚至社会带来消极的影响。本文致力于高校网络舆情分析系统的研究,力求寻找有效途经,探索新方法,开拓新思路,为加强高校网络舆情监管体制的实效性提供有益的帮助。
关键词:大学生;热点;高校;网络舆情 在输入框中键入任意关键字,例如“天津理工大学”,便可持续监控微博、微信、校园BBS、论坛贴吧中此关键词的舆情状况。同时,可以立即得到该“天津理工大学”关键词的相关信息,并会及时反馈详细分析结果以及每天宏观环形图(如下图)。
随着网络媒体、手机媒体、微博、微信等的兴起,新媒体的发展正在改变着媒体生态,舆论引导实践与研究日趋重要。中国互联网络信息中心(CNNIC)的《第37 次中国互联网络发展状况统计报告》指出,截至2015年12月底,中国网民规模达6.88亿,互联网普及率达到50.3%,半数中国人已接入互联网。手机网民规模达到4.82亿,学生群体的互联网普及率已经达到25.53%,远高于其他群体。
随着微博、微信等新型网络社区的兴起,高校学生网络舆情呈现出许多新特点。不少网络谣言、虚假新闻借助新媒体得到快速扩散,势必会影响高校学生的价值观、思想及其行为,从而造成学生思想上的迷茫、心理上的冲突甚至行动上的鲁莽。因此舆情分析在思政管理中发挥着极其重要的作用,越来越多的高校已经意识到舆情分析的重要性。但中文语法错综复杂,歧义、断句、一词多义等问题都是舆情分析过程中面临的难点,这导致了舆情分析发展困难。
由此,基于语法分析的舆情分析系统应运而出。与机器学习不同,语法分析是将汉语从语法角度进行解析,语法分析主要是从语义的角度将句子“读懂”,而机器学习仅是通过计算向量,找到归属于自己那一类的“训练模型”。语法分析可以真正意义上读懂汉语,读懂多义词,分析同义词,甚至是有歧义的句子。
近几年来,最大熵模型在自然语言处理领域中,被誉为最好的机器学习算法之一。从理解什么是“熵”开始来理解“最大熵模型”。“熵”最初由物理学家克劳修斯提出,在热力学中,体系的热力总是自发的趋于温度均匀分布,这个过程是不可逆的;墨水滴入水中,也会自发趋于自由扩散,这个过程也是不可逆的,这些过程可以看作微观世界中的无数大量微观粒子,“熵”便是描述这些微观粒子的位置、速度、状态的函数,当温度均匀分布、墨水均匀扩散后,熵值趋于最大。因此熵值越高表明无序性越强。
“最大熵模型”,也就是熵增原理,推崇在无外物作用下,熵值总是趋向于增大,即事物总是朝着混乱状态发展。因此熵值最大便是事物最真实的状态,对信息的研究来说,熵值最大的情况下,对信息的判断最为准确,因此用“最大熵”对一个信息做评价。
使用最大熵分析语义,需要预先准备一套训练集,程序经过N次迭代后,就可以根据之前通过迭代学习的语法关系,判断新输入的语句了,但是由于训练集是一个封闭的测试集,所以要是放在开放的网络中进行测试,效果就会差很多。
本文通过此方法进行了一系列测试,准确率只有60%~70%,可能原因如下:
(1)选取特征太注重词语,语料库无法覆盖所有词语的搭配情况;
(2)依存关系过多,导致识别难度过大;
(3)最大熵模型不是在线学习模型,无法根据语法关系确定其他词的词性。
国内许多处理自然语言的机构都采用最大熵的方式,如果拥有大数据入口,每天使用海量数据作为训练模型,是可以达到高效分析的,但大数据入口掌握在少数互联网龙头公司,研究机构想要获取信息只有通过网络爬虫进行抓取,获取的消息质量与数量都得不到保证。
此外,K最近邻域也是一种重要自然语言处理手段,该方法主要是将信息源向量化,把样本划分到k个聚类中,相似的度量方法有欧氏距离、夹角余弦或者考斯基距离等。在实际应用中,k值选择变得尤其重要,由于当k选取过小的时候,近邻数量太少,失去了分类的精度;当k选取过大的时候,近邻数量太多,很多与信息并不相关的文本也被包含进来,使得分类结果并不准确。
K最近邻域也有着其劣势的一面。
(1)实时性效果不好,当训练文档集很大时,计算开销很大,而且随着训练集的增加,分类过程会越发缓慢,常用办法是减少训练集规模,但这样又会导致分类结果不准确。还有一种办法是改进算法,减少相似计算的复杂度,这种方法虽然可以提高效率,降低k最近邻域搜索计算的开销,但无法保证结果是全局最优,当样本集非常大的时候,很容易出现以偏概全的现象。
(2)有一种快速文本分类方法,可以借助数据库检索引擎的多维索引快速返回结果,但这样会增加训练过程,提高了训练复杂度,但也不失为一种解决办法。
本文研究的网络舆情分析系统,主要特点是监控功能。用户可以对任意关键字进行监控,如下图所示。
实现过程使用百度提供的rss(简易信息聚合)抓取api(应用程序编程接口)实现,该rss会提供相关关键词在整个互联网中的最新信息。由于百度提供的rss采用gb2312编码,程序采用gogb2312包分析,并采用rss2.0协议抓取rss信息入库,使用本文中介绍的语法分析技术对提取的数据进行分析,并绘制成表格。
从2016.1.5至2016.1.12,每天抓取1000条舆情数据分析,对舆情判断与监控结果进行人工审核,得出语法分析准确度折线图,如下图所示。
从图中可以看出,7天内最高准确率达90%,最低准确率达65%,平均准确率为78%。由于分析词库的准确率影响着语法分析效果,而目前分析词库还在完善中,对部分词语的理解还不准确,因此语法分析还有很大的提升空间。
同时,还需关注新词汇的出现,特别是网络流行词、流行句。从最近的流行词,例如“点赞”、“活久见”、“壁咚”等词的出现频率来看,一星期最多出现1至2个流行的网络词汇,所以并不会给语法分析词库的完善带来太大的负担。
本系统根据语境分析词语在句中的词性,来确定词语的极性,从而统计出整个句子的极性,特别是在语法复杂的语句中,有着比机器学习更好的表现。由此可见本文开发的语法分析算法,是一种非常良好的语义分析解决方案,尤其在解决微博、微信等新闻消息时准确率比机器学习高很多。
本文通过对高校网络舆情监控重要性的分析及舆情分析方法的对比,自主设计了一款监控软件,此软件使用语法分析的自然语言处理技术。通过解析汉语语法,根据预订确定词语的词性,从而提高对词语词性分析的准度。通过此系统可以有效的监控高校网络舆情事件,从而阻止一些可能对高校声誉、品牌造成严重的负面效应的舆情扩散,最终实现把高校网络舆情风险降至最低。
参考文献
[1]刘燕,刘颖.高校网络舆情的特点及管理对策[J].思想教育研究,2009,(4):46-48
[2]王兰成, 徐震. 基于本体的主题网络舆情知识模型构建研究[J].信息工程大学学报, 2012, 13(2):229-234. DOI:10.3969/j.issn.1671-0673.2012.02.019.
[3]兰月新,曾润喜.突发事件网络舆情传播规律与预警阶段研究[J].情报杂志, 2013, 32(5):16-19. DOI:10.3969/ j.issn.1002-1965.2013.05.004.
耿晓龙(1984-),男,河北衡水人,天津理工大学计算机与通信工程学院,讲师,研究方向:思政管理。
The research of university network public opinion analysis system
Geng Xiaolong
(Tianjin University of Technology School of computer and communication engineering,Tianjin,300384)
Abstract:Along with the network technology in the rapid popularization and development of,and of the students' learning life increasingly dependent on to the Internet,because students often on network virtual community in the "focus", "hot spots" problem:some has obvious negative opinions or comments,resulting in negative information on the Internet quickly spread,and the negative of the network public opinion if not properly control may bring negative influence to the school and social.This paper is devoted to the study of network public opinion analysis system in Colleges and universities,in order to find effective ways to explore new methods,to explore new ideas,to enhance the effectiveness of network public opinion supervision system in Colleges and universities to provide useful help.
Keywords:college students;hot spots;colleges and universities;network public opinion
作者简介
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!