基于“情感-原因配对”方法的青少年舆情系统设计

时间：2024-08-31

李宇圣，李柏松，杨宜颖

（南华大学计算机学院，湖南衡阳，421200）

0 引言

情感分析作为舆情分析的一个重要模块，主要负责从大量原始文本数据中提取情感文本信息，并将得到的文本情绪用于进行下一步文本分类。然而目前的大部分舆情分析系统仅仅考虑了文本的情感，并没有考虑到文本的情感与产生改情感的内容是相关的，降低了舆情分析系统的准确性。并且目前得到文本情感产生的原因需要事先对文本的情感进行标注，这一过程耗费了大量的人力，含有一定的误差。

最近，文献[1]提出了一种有效提取情感文本并检测情感，原因子句的新方法。本文首次将这种情感-原因配对方法用于青少年舆情分析系统。受人类逻辑表达的启发，情感态度和对应原因句一般会在短文中同时出现。例如，有的学生发微博说“我终于找到了失踪的钱包，今天有点小开心”。这句话的前半部分是情绪产生的原因，后半部分代表的是他的情感态度。通过进行情感-原因的配对和过滤，我们能轻松分析出青少年的（尤其是在校学生）心理状况，进一步帮助校园决策者正确引导学生持续健康发展。

总的来说，本文基于情感-原因配对方法设计了一个适用于青少年的舆情分析系统，利用爬虫技术，特征提取，情感分析，注意力机制和可视化技术登一系列方法步骤，有效地将情感-原因配对方法融入舆情分析系统。通过分析民众在社交媒体下的评论或博客，从而提取对应所表达的情感及原因，再将其一一配对并进行可视化展示，这将有助于年级管理员更加精准把握青少年学生情绪起伏的原因，找出影响校园环境稳定的事件，防止负面舆论的进一步扩大。本文的主要贡献总结如下：

首先,我们全面研究了当前的舆情分析系统及其不足之处。当前的舆情分析系统普遍使用手动标注情感，这不但仅导致增加了人力物力的额外开支，还会导致标注结果的偏差，最终致使舆论分析不准确。

其次，针对上述问题，我们将情感-原因配对分析和注意机制融入舆情分析系统，更好地从舆论信息中探索青少年的情绪及其潜在或直接原因，减少了大量不必要的人力和物质资源开销，进一步提高了舆情分析的准确性。

最后，我们构建了一个基于情感-原因配对分析的学生舆情分析系统，其中的舆论分析模块可以定时自动分析舆论信息。我们对系统进行了测试，结果表明该系统能够达到自动智能分析的预期效果。

1 舆情分析与情感分析

舆情分析系统能够高效准确地跟踪、控制舆情的走向与发展，提高网络舆情的引导、管理水平，掌握信息传播的主动权。而情感提取是网络舆情分析技术的关键步骤之一。通过设计恰当的算法对获取的数据进行分析，发现用户的情感倾向，能够更好地帮助舆情分析系统得到产生舆情的原因，并对其的传播影响、舆情等级进行评估，采用合理的手段对舆论进行引导和管控。在本节中，我们主要讨论舆情分析的相关工作，我们将这些相关的工作分为舆情分析的介绍以及情感提取两类。

1.1 舆情分析

社交媒体用户在网上发布的评论可以被有益地用于提取有意义的信息，从而支持决策者在整个政策周期中的行动，提供了一个一个快速而廉价的信息流[2]。文献[3]等人将舆情监测系统分为舆情信息采集、舆情信息处理、舆情信息分析、舆情服务四个部分。针对基于关键字统计的舆情分析系统，文献[4]提出了一种基于语义内容识别的网络舆情监测分析系统框架，解决了舆情分析系统中的一些关键问题。文献[5]通过对热点自动发现和深入分析技术的研究，建立了基于数据挖掘的敏感信息分析框架，设计了敏感信息挖掘方法，有效地弥补了传统舆情监测系统难以应对舆情变化的缺点，增强了实用性。文献[6]提出了基于流的实时主题计算、基于查询文档的主题匹配和字段增强等方法，提高了舆情监测系统的准确性。

1.2 情感分析

情感分析和观点挖掘是从书面语言中分析人们的观点、情感、评价、态度和情感的研究领域。它是自然语言处理中最活跃的研究领域之一[7][8]，在数据挖掘、Web挖掘和文本挖掘中也得到了广泛的研究。事实上，这项研究已经从计算机科学扩展到管理科学和社会科学，因为它对企业和整个社会都很重要[9][10]。文献[11]提出了一种基于知识的学习方法，能够通过主题模型的选择偏好，进行粗粒度的语义消歧方法，提高了情感分析的准确性。然而目前互联网上的信息有多种呈现形式，因此文献[12-15]提出了多模态情感分析的任务，通过视觉、听觉和文本特征的联合使用极大地提高了效率。

情感原因提取（Emotion cause extraction，ECE）是一项旨在提取文本中某些情感背后的潜在原因的任务，近年来由于其广泛的应用而备受关注。在长文本中根据事先注释好的情绪寻找相对应的原因，他们构建了一个小的中文语料库进行测试。针对于算法存在两个缺点：1）在提取原因之前，必须对情感进行注释，这大大限制了它在现实场景中的应用；2）先诠释情感，然后提取原因的方法忽略了它们是相互指示的事实。文献[16]提出了一个新的任务：情绪-原因对提取（ECPE），旨在提取文档中潜在的情绪对和相应的原因。通过多任务学习进行个体情感提取和原因提取，然后进行情感-原因配对和过滤，很好地解决了ECE中存在的问题。

在舆情分析中，情感分析是极其关键的一个模块，如果能在情感分析阶段将情感以及情感背后潜在的原因提取出来，将极大地提高舆情分析的精度。然而目前的舆情分析系统需要进行人工标注，首先标注情感，再通过神经网络挖掘出产生情感的原因。然而这需要极大的人力，且忽略了情感和对应的原因是相互关联的。因此我们将基于因果分析的情感原因提取加入到舆情分析系统中，使整个舆情分析系统能够摆脱人工标注的难题，提高舆情分析系统的效率，减少经济上的开销。

2 基于“情感-原因配对”方法的舆情系统设计

2.1 总体设计流程

如图1所示，首先我们通过聚焦式网络爬虫获得初步文本数据，然后对获取的文本数据进行特征提取，在处理后的特征集中，提取文本中的关键字来形成特征。在保证文本原有的核心信息的基础上，减少需要处理的词汇数量，在接下来的情感分析任务中引入注意力机制,可以使神经网络更多地关注文本中包含情感信息较多的部分，最后我们基于因果关系对处理后的文本信息进行分析，通过多任务学习进行个体情感提取和原因提取，然后进行情感-原因配对和过滤，提取关键字得出情感等级，最后制成情感等级折线图和词云图进行数据的可视化展示。

图1 总体设计流程

2.2 舆论数据采集

大数据时代数据量突增，数据结构复杂多变，冗余信息占比高,为了更好的解决文本原因情感提取所需要资源来源，本文提出基于聚焦式网络爬虫的舆情获取技术，并使用webmagic爬虫框架。WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成，将这些组件结合并完成多线程的任务后，你基本上可以对爬虫的功能做任何定制。

与通用爬虫不同，聚焦网络爬虫并不追求大的覆盖，而将目标定位抓取与主题相关的特定网页，爬取广度小，精确度高，极大地节省了硬件和网络资源。

我们提出的聚焦式网络爬虫技术主要分为四个模块，如图2所示：（1）浏览器模块，利用该模块能模拟浏览器的一个请求发送过程，利用不同协议去获取URL信息。（2）URL队列模块，给爬虫程序创造队列，用于存放爬到的URL地址。（3）时间模块，用于创建进程的睡眠时间，使爬虫程序可以按用户需求定时执行任务。（4）数据库模块，通过调用该模块，可以连接数据库，并通过编写数据库语句，使程序能够对数据库进行操作。

图2 基于聚焦网络爬虫的舆论数据采集技术

2.3 特征提取方法

社交媒体带来了大量的网络数据，其中通常包含复杂而多样的文本信息，使得情绪分析难以计算。针对这一问题，我们提出了一种基于注意机制的深度学习特征提取方法。该方法能从大量信息中有选择地筛选出重要信息并且聚焦到这些内容上,同时忽略大多数不重要的信息，比如从文本中包含的大量词汇中，抽取出识别度比较高的词汇，在处理后的特征集中通过相关技术可以抽取出关键词构成特征，在保证文本原有的核心信息的基础上，去除区分度小的、影响力小的词汇，减少需要处理的词汇数量，从而降低向量空间的维数，简化计算，提高文本处理的速度和效率。在接下来的情感分析任务中引入注意力机制,可以使神经网络更多地关注文本中包含情感信息较多的部分。

图3展示了特征提取方法的总体思路：从整个深度学习模型中提取特征向量，编码器对输入序列中的每个项进行处理，并通过编译捕获输入信息（称为上下文）。在处理完整个输入序列之后，编码器将上下文发送到解码器，解码器逐项开始产生输出序列；在上下文信息中不妨假设我们想要得到第i个词语的表征，对于包含第i个单词的单词组合，会生成两个输出：一个用于特征提取（绿色圆圈），另一个用于注意力加权（红色圆圈）。这两个输出可能共享同一个网络，但在本文中，我们为每个输出设立单独的网络。在得到最后的注意力权重之前，注意力（红色圆圈）的输出通过需要经过sigmoid和softmax层的运算。这些注意力权重会与提取出的特征相乘，以得到词语的表征。

图3 舆情分析中的特征提取方法

2.4 舆情分析与可视化展示

经过聚焦式爬虫对文本资源的筛选以及对文本进一步的特征提取，我们采用情感-原因部分提取技术，把处理过后的文本通过多任务学习（原因提取和情感提取能相互改善）进行个体情感提取和原因提取，然后进行情感-原因配对和过滤，提取出关键字和学生情绪正负及其强度，最后进行数据的可视化展示，如图4。

图4 舆情分析与可视化展示

具体实现和流程图如下：

第一步，将一条博客分成几个子句或词组。提取出博客中一系列的情感子句和原因子句。

第二步，将笛卡尔积应用于情感子句组和原因子句组，获得所有可能的情感-原因子句对。所有可能的情绪-原因对都由三个特征向量表示：情绪子句、原因子句和两个子句之间的距离（即相关性）。然后将训练好的逻辑回归模型检测每个可能的情感-原因子句对，筛选出有因果关系的情感-原因子句对。

第三步，分别从每对情感-原因对的情感子句中计算出情感强度，原因子句中提取出关键词或字。

第四步，以月或天为单位作时间—情绪强度折线图和词云图进行可视化展示。数据的呈现也是一种分析，之后管理人员直接通过这些数据，结合当下情况做贴合实际的分析。通过词云图，我们可以知道公众最近在关注的问题以及生活中的重大事件，以便于更好地了解相关情况，及时给与回应。通过时间—情绪强度折线图，我们可预测下一个舆情高涨点在何时出现，重点关注此刻需要留意人群的情况。

3 总结

本文主要总结了现有的舆情分析系统中存在的问题。在青少年成长过程中持续关注他们的身心健康发展至关重要。舆情分析系统能够高效准确地跟踪、控制舆情的走向与发展，提高网络舆情的引导、管理水平，掌握信息传播的主动权。基于因果的情感分析则能减少舆情分析系统中人为标注所带来的问题。根据目前我们所了解到的研究，我们是首个将基于因果的情感分析结合注意力机制融入到舆情分析系统中。在以后的工作中，我们会持续改进，利用分析得到的信息为个人提供可靠建议。