当前位置:首页 期刊杂志

基于大数据技术的舆情信息收集研判管理系统实现路径探索研究

时间:2024-04-24

张雅京 付军 刘皓

中日友好环境保护中心

一、研究背景

随着网络应用的迅猛发展,互联网已深入覆盖并影响到当今社会的各个领域。Web2.0上的话题往往具有突发性、直接性、丰富性、互动性、偏差性的特点。无论对于政府还是商业组织来说,这些数据蕴含着非凡的价值。正确合理利用这些信息,可以有效地了解民情民意,配合处理一些突发性公共危机事件,从而促进社会和谐。同时,随着互联网的发展,逐步进入大数据时代。大数据的发展不仅使得通过互联网获取个人信息更加容易、可获取的内容也更多。在大数据时代,面对如此海量快速的信息,舆情的采集、分析、可视化呈现都将进行相应的转变。目前国内的舆情研究和应用非常广泛[1],有些研究专注于特定领域的舆情系统的研究和开发[2],有些研究则面向通用[3]。本文所设计和实现的系统属于后者这一类,和其它已有的舆情系统相比,本系统具有信息覆盖面广、架构灵活、智能分析等特点。

二、系统需求

1.采集:互联网规模大、媒体类型众多、网民众多、信息更新速度快。系统需要对网络上的主要信息不遗漏,覆盖论坛、博客、微博、新闻、新闻、境外等信息源,对信息源进行实时采集。针对不同的信息源,可以方便的调整采集频率,采集字段。

2.架构:考虑到数据量大和可扩展性等特点,需要采用基于云计算的构架设计。系统以网页形式展示给用户。用户只需要用浏览器登录系统就可以使用全部功能。

3.个性化:为了满足使用者的不断变化的需求,需要系统能够实现个性化。系统能方便的调整和设置参数(比如关键词、站点等)。用户能通过简便直观的方法筛选出关心的数据,并且能方便、直观的进行系统维护。

4.智能:为了降低用户的设置,筛选重要信息的工作量,系统需要进行智能分析,自动的对文章进行过滤,分类,地域识别,情感分析等。

三、系统架构

本系统采用跨平台的JAVA技术,使得采集系统可以运行在各种操作系统上。图一给出了系统的总体架构,其包含两个部分。第一个部分是数据采集和分析模块;第二部分是舆情信息收集研判管理系统模块。图二是舆情信息收集研判管理系统模块的系统功能图。这部分功能直接对接客户。

四、数据采集和分析模块

(一)信息采集模块。采集器不但可以采集普通采集器的所能实现的简单的网页采集,还可以执行网页上的动态脚本(例如javascript,ajax等)以得到普通采集方式通过抓取静态页面无法获取的信息。越来越多的网站采用了动态页面技术(即javascript,ajax等),典型的如博客,微薄等网站,通过普通的静态页面往往只能采集到部分信息,甚至根本采集不到真正的页面内容。本系统的采集器内建了页面动态构建技术,可以使采集到的页面执行页面动态脚本而得到与普通浏览器能看到的完全一致的页面内容。

(二)信息分析模块。信息分析模块主要包括以下功能:垃圾文识别、自动排重、相似文计算、原创新闻计算、舆情倾向性分析、自动摘要提取、行业识别、传播路径分析、传播轨迹图。

(三)垃圾文识别。垃圾文包括广告,无意义文章等。据分析,特别是论坛站点,70%左右是此类文章。系统采用人工智能技术,能够有效识别此类垃圾文,大大增强舆情分析和处理的效率。对于系统未能自动识别的垃圾文,如果人工识别为垃圾文后,系统对后续采集同类文章能够自动识别为垃圾文。

(四)自动排重。系统根据信息的各项属性:信息的文本内容,信息的发文站点,版面,发文作者计算信息的hash值。通过判断两条信息的hash值是否相同,从而快速的判断两条信息是否重复。

(五)相似文计算。虽然互联网上很多信息都是重复的,但是重复信息往往有少量的变化,这个模块的目的是找到那些几乎是重复的、但是又不完全相同的文章。相似文计算的方法参考了。由于系统所采集的数量巨大,所以不能针对所有文章进行计算。由于相似文章的出现往往是在一个事件范围内集中出现,因此对每一个新进系统的文章,只计算最近2天的文章中是否有重复文章。

(六)原创新闻计算。原创新闻报道数量侦测系统主要包括两部分功能,即转载文章识别归类和原创文章判定两部分。转载新闻往往含有发文网站的链接及“【转】”等特征内容,可通过建立模板识别大部分转载文章。比对转载文章及现有文章特征库即可将相当部分转载文章滤除。对于不含转载信息、通过更改原文个别关键词的伪原创性文章,则需通过原创判别算法剔除。原创新闻判别算法核心在于语义分析和相似文章识别算法,本系统利用文本相似性算法,以文章主干或关键词为基础,通过文章相似度算法,建立相似度聚类数据库,为原创文章的识别提供依据。而后可通过以下三个步骤判别文章的原创性:提取文章内关键词结点;将提取的关键词结点进行近义词匹配。(搜索引擎有自己的近义词库);发现一篇文章中的节点于另外一篇文章中的节点超过某个点,给予伪原创定义。

(七)舆情倾向性分析。系统能够自动分析出文章的倾向性为正面,负面,或者中性,为舆情处理提供重要的分析依据。

(八)自动摘要提取。自动摘要提取算法包含两类方法,即机械方法和语义方法,本系统将结合两类方法。

机械方法需要对文本的物理信息进行归纳:词的频率、标题、词的位置、句子的结构和位置等。通常分为以下三个步骤:计算词的权重,确定有效词;通过词和句子的位置、线索词指示性短语等计算句子的权值;将句子排序,并按照原文顺序整理输出;

基于机械方法的摘要提取能够对文章内容做一定的梳理,但其缺点主要体现在结构不平衡、内容冗余、缺乏连贯性等方面,因而需要结合语义方法对摘要做进一步整理,语义方法包含:语法分析、语义分析、语用分析和信息提取等,此方法将文本整理成语法树等形式,从而梳理文章主干,完成信息提取,将所得到内容结合机械摘要得到最终结果。

(九)行业识别。对数据进行行业分类,该模块基于机器学习和自然语言处理领域最先进的思想和算法,提供了常用的多个行业(包括环境、卫生、渉警等)的分类。

(十)传播路径分析、传播轨迹图。对所有的微博消息,系统会采集内容以及其转播信息。对于需要做路径分析的微博消息,根据微博转播记录和转播微博的文本信息追本溯源的找到了这条微博的传播路径,并将传播路径上的各个节点的地理位置信息、个人信息等保存下来,最终形成了一棵信息传播树。

五、舆情监测系统功能模块

(一)舆情数据基础管理。该系统能够全面、及时监测互联网舆情。可定制采集,提供全面、及时的舆情信息。全面监控微博、博客、新闻网站、论坛、贴吧、搜索引擎等互联网内容。通过舆情监测系统实现对舆情管理和对舆情数据服务的有效支撑。

条件筛选:发文时间是一篇网络文章最重要属性之一。通过时间控制,就可以通过限定文章的发文时间,对文章进行筛选。除了限定具体时间区间之外,系统还设置一些快捷按钮,直接查询“今天”、“昨天”、“本周”、“上周”、“本月”、“上月”和“全部”等时间范围内的文章。“类型”,可提供筛选“新闻”、“论坛”、“博客”等类型的文章,且可同时筛选如“新闻”或“论坛”的文章。“褒贬”,可提供筛选“正面”、“负面”、“中立”、“未知”等性质的文章,且可同时筛选如“正面”或“中立”的文章。“地域”,可提供筛选包括“境内”、“境外”的文章,当只筛选了“境内”范围里的部分省时,“境内”为半蓝颜色显示;只有所有省份都被筛选时,“境内”为蓝色显示。“专题”,可提供筛选多个专题的文章,如专题为“城管城建”或“交通”的文章。

文章浏览:对于每一篇收录进系统的文章,列表将显示如下信息:标题、网站、信息类型、褒贬、地域、所属专题、阅读数、回复数、发表时间、操作。

文章操作:系统提供对每一篇文章的丰富的管理功能。对文章进行查看全文信息、修改文章属性、对文章进行公告预警操作或者定向预警操作、删除文章、分不同模式查看监测列表内容、导出文章(word或excel格式)。

(二)信息预警。提供实时信息预警机制,由舆情信息的重要性、紧急性及客户约定需求决定。系统要将短时间内发生的突发热点事件以及敏感新闻通过系统通知、短信、电话、QQ、邮件等方式通知用户。

(三)统计分析。统计分析包括“趋势分析”、“媒体分析”、“地域分析”、“褒贬分析”、“热点分析”、“热词分析”六大类;分别表示按“时间”、“媒体类型”、“地域分布”、“舆论褒贬性质”、“热点舆论、话题”、“最热”要素来进行对比分析出图。

图形化展示功能。对热点新闻和事件发展趋势进行图形化显示,便于更加直观地了解舆情发展态势。提供多种基于Flash的图表,包括全国地形图、趋势图、金字塔图、转载传播链等,具有更好的交互能力。

(四)热点识别。热点自动发现。舆情系统采用基于内容相似的智能聚类技术,能够自动识别网络上的热点新闻事件,及时掌控论坛中的交互信息,发现网民的关注焦点和热点。同时利用舆情分类信息,把用户不关注的热点信息过滤掉,提高热点发现的准确性。根据新闻热点、关键词、专题等信息进行热度分析,考虑了信息来源、所处网页位置、转载、点击、评论、回复和报道率等关键因素,并能够对这些因素进行综合排名,并支持以半小时为间隔的任意时间段进行统计分析,同时提供1天、3天、7天等时间序列的符合用户精确度要求的分类热点排行。

热点自动追踪。舆情系统可以对热点信息做到持续追踪,并通过趋势分析图和传播链分析图等技术帮助用户了解热点事件的报道趋势以及来龙去脉,帮助用户更好地对舆情进行研判。

网络热词自动挖掘。热词挖掘是从互联网不断更新的信息中寻找一定时期热度高的那些短语,比如人名、地名、机构名和其他常见短语,很多网络热词是词典中未收录的新词语。按领域可分为政治、经济、军事、娱乐、体育、卫生、科技、社会生活等各个领域的热词。

(五)报告生成。舆情分析系统提供有效的舆情简报加工工具,可以辅助用户生成各种类型的互联网舆情简报。报告的内容可编辑修改,报告模板可灵活定制。支持日报、周报、及时报等多种简报样式。可以通过元搜索方式从百度新闻获取统计信息,使得简报的统计图表具有更高的代表性和准确性。提供可以在线生成和编辑WORD格式的简报,支持复杂格式的简报,提高了简报的表现能力。

系统能够实现对专题给定时间范围的文章进行统计,并生成统计报告。

(六)系统管理。个人信息管理:系统里可以管理用户的个人信息,如用户名、密码、邮件、电话等。

用户管理:提供系统用户权限管理方面的配置,中青华云配备专人实时响应更改用户需求,如:通过申请可添加或变更系统管理员,设置系统管理员的权限,从而实现多用户分权限管理。通过角色和权限配置,对系统中的各个功能进行严格的权限管理,保证系统的安全性。

关键词管理:可根据需要添加需要关注的文章的关键词。也可以对已有关键词作修改和删除的操作。

网站管理:用户可以在网站管理的页面上点击“申请添加网站”,就可以申请添加想要监测的网站。

专题管理:可添加需要关注的文章的专题。可以对现有的专题进行是否想要让其显示的操作,也可以对已有专题作修改和删除的操作。

系统设置:系统设置能够选择“最新监测”的文章的来源(“论坛”“博客”“新闻”“微博”)、和选择关注的专题、是否显示系统专题、是否仅显示已归档文章。

(七)舆情检索。舆情系统针对信息内容管理和资源建设的新需求,实现包括Native XML,集群,Unicode,自然语言及智能扩展检索等功能,结合结构化和非结构化数据联合查询技术,满足客户对专业搜索的广泛需求。专业级搜索需要精确(查全和查准两者需要兼顾)和快速(数据一旦变化需要及时体现),而通用互联网搜索引擎无法满足精确和快速的目标检索需求。

(八)回收站和垃圾箱。可以对一些回收站和垃圾箱中的文章进行管理。

六、结论

本文提出的基于大数据技术的舆情信息收集研判管理系统是一个基于大数据技术的舆情信息高效采集与存储系统。它能实现信息的全方位采集、更新和自动分析。在此基础上,系统还给用户提供了直观、高效的使用界面,使用户可以快速、精准的在海量的互联网数据中筛选出自己所关心的舆情信息。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!