时间:2024-05-04
潘 芳,刘智宇,向 兰,高丁亚
(1.深圳市汇星数字技术有限公司,广东 深圳 518107;2.长沙学院 经济与管理学院,湖南 长沙 410022;3.湖南大学 金融与统计学院,湖南 长沙 410006)
第52次《中国互联网络发展状况统计报告》显示,截至2023年6月,我国网民规模10.79亿人、互联网普及率76.4%。与之相伴的是各类网络媒体平台强势崛起。相对于传统媒体,网络媒体环境下的信息在传播主体和速度、灵活性、多样性等方面具有明显的优势。这使得网络媒体逐渐成为人们发布、获取信息的主要渠道。在今日头条、微博热搜、知乎热榜等网络媒体上的新闻事件,常常成为社会关注和公众舆论的焦点。一些关于文化遗产保护的负面事件,如2017年的“八达岭长城被刻字”、2020年的“女子闭馆日开车进故宫”等,都是先在网络媒体上被传播,引发强烈反响并成为舆情事件后,才受到相关各方的重视并加以整改,进而促进了文化遗产保护与管理水平的提高。网络媒体的舆情能映射文化遗产保护的各方面,为各方感知和监督文化遗产保护提供重要的支持。因此,对网络媒体环境下的文化遗产舆情大数据进行监测,非常有必要。
目前,文化遗产的舆情分析已经开始受到重视。中国遗产研究院多次对年度中国世界文化遗产的网络舆情进行分析和报告[1];中国非物质文化遗产保护中心也在2021年的“文化和自然遗产日”对相关的网络舆情进行了监测和分析。如“凤凰古镇门票事件”“丽江古镇旅游利益相关者冲突事件”等事件的网络舆情,也受到学者们的关注和分析[2-3]。尽管如此,在文化遗产舆情监测系统建设上,却仅有2014年上线运行的“中国世界文化遗产监测预警总平台”中建设了一个舆情监测的模块[4]。实际上,网络舆情大数据监测的方法与技术已不再是瓶颈,已有国内外学者对南海问题舆情监测、Twitter上的流行病舆情监测[5]、Twitter上的流行病舆情监测[6]等进行了研究。本文借鉴前人研究中的方法与技术,设计了文化遗产网络舆情大数据的监测系统。该系统致力于为各方及时把握文化遗产的发展动态、发现文化遗产保护的现存问题、洞悉文化遗产保护的社会诉求,提供全新的方式与渠道。
系统设计为知识层(底层)、运行层(中层)、展示层(上层),系统模型和运行流程如图1所示。系统能够对各类网络媒体上关于文化遗产的舆情大数据进行持续采集,并对采集的数据进行清洗、分类存储及信息挖掘等,实现文化遗产网络舆情的动态监测。监测内容包括,文化遗产的灾害和事故、景区-游客冲突、民众诉求、正负面新闻等。系统能够自动生成舆情分析简报定期发送给相关人员。当设定的监测指标超过阈值时,系统也自动生成舆情预警信息发送给相关人员。
图1 系统模型与运行流程
系统包括5个模块,各模块名称及其功能如下。(1)文化遗产知识库模块:本模块对基于文化遗产相关的文献资源、网络媒体舆情资源,进行整理、归类,总结文化遗产涉及的基本术语、术语关系、主体类型、事件类型、敏感词库、负面词库等信息,进而构建文化遗产领域本体,为舆情大数据监测与预警做好知识库上的支撑。(2)文化遗产舆情采集模块:本模块基于文化遗产领域本体,爬取网络媒体舆情大数据,并对爬取的数据进行清洗。之后,基于知识库中的主体、事件类型等信息,对舆情数据进行分类,并存储至文化遗产舆情数据库中。(3)文化遗产舆情存储模块:本模块首先基于文化遗产知识库,通过对文化遗产舆情的主体、事件类型等方面的分析,在确定文化遗产舆情存储数据库的功能、结构后,构建文化遗产舆情存储数据库。(4)文化遗产舆情监测模块:本模块基于文化遗产舆情存储数据库,对舆情大数据进行定期的分析及可视化,包括主题提取、热点话题分析等,并对敏感、负面舆情自动生成预警简报,通过邮件、微信等方式发送给相关人员。(5)文化遗产舆情展示模块:本模块对舆情数据定期的自动分析结果进行可视化,并通过直观图表将舆情现况和舆情趋势展示到浏览器端。同时,本模块还包含人机交互部分,能为人工分析舆情数据提供接口。
已有研究中虽然具体方法或技术有所差别,但都是运用大数据技术、文本挖掘技术、机器学习等,对海量的网络数据进行爬取、挖掘,最后生成监测报告等供相关人员参阅。由于本系统拥有一个底层知识库的支撑,因此,还需要领域本体构建技术,这些关键技术的介绍如下。(1)本体构建技术:本体在计算机领域中用于描述语义知识,包含概念与概念之间的关系以及描述它们的属性;本体构建方法比较著名的有骨架法、IDEF5法和七步法等,其中七步法是最受推崇的方法。(2)网络爬虫技术:网络爬虫(Web Crawler)是自动搜索和获得网页数据的计算机程序[7];网络爬虫通常从若干初始网页的URL开始,分析页面内容,提取新的URL并存入待爬行URL队列,如此重复上面的过程,从而遍历Web直到满足终止条件[8]。(3)数据库技术:文化遗产舆情存储数据库的建立。首先,创建基本表、设置约束条件、管理基本表;其次,创建和管理索引、创建和管理视图;再次,向数据库中输入数据,并实现对数据查询、修改、删除等操作;最后,编写存储过程、触发器等,并调试通过。(4)文本挖掘技术:文本挖掘(Text Mining)是基于计算机领域和统计分析领域的相关理论、方法和技术,从文本中发现和提取隐含规律或知识的过程[9];常见的文本挖掘任务有词云图绘制、高频词统计、语义网络分析、文本主题提取等。
系统各模块开发所涉及的开发工具如下。(1)文化遗产知识库和舆情存储模块:两个模块都将使用到MySQL和Redis进行开发。MySQL数据库能有效适配各种编程语言,同时支持在多种操作系统上使用。而使用Redis进行数据的缓存,能够有效提升系统的数据响应速度,减轻MySQL数据库的读写压力。另外,文化遗产知识库还将使用Protégé,它是本体构建的核心工具,也是开源且免费的。(2)舆情采集模块和舆情监测模块:2个模块将使用Java和Python进行开发,二者均是目前非常受欢迎的编程语言,均拥有体系化第三方库支撑以及完整的开发生态;同时,这2个模块还将使用SpringBoot框架进行开发,SpringBoot框架的“开箱即用”特性能够减少系统重复代码,提高开发效率[10]。(3)舆情展示模块:将使用HTML语言、Vue和Element UI进行开发,确保用户使用不同的浏览器进入系统时都能够具有良好的兼容性。
本文设计了文化遗产网络舆情大数据的监测系统,系统能为把握文化遗产的发展动态、发现文化遗产保护中的问题、洞悉文化遗产保护的社会诉求提供新的渠道。系统设计的功能不仅可以从海量网络舆情数据中挖掘出更有价值、更深层次的信息,还能大幅降低舆情信息获取时间和人工成本。另外,系统的实现将综合应用多种方法、技术和工具,将促进跨学科方法、技术的交叉与融合。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!