时间:2024-05-04
冯 楠,曹弘毅
(西安医学院,陕西 西安 710021)
二十大报告指出:我国人民对于信息获取途径的多样化需求正在逐渐加强,互联网媒体的内容与形式也更加多元化。微博作为一种社交网络,不同于传统媒体,具有扩散快、信息量大等特点,受到了广泛的关注。然而,微博信息的传播效率却受到网络拓扑结构等多种因素的影响[1],故提高微博信息的传播效率具有重要的现实意义。因此,探索微博信息在不同网络结构中的传播效率并预测其传播趋势,对于深入理解网络拓扑结构对信息传播效率的影响、提高微博信息的传播效率等具有重要的意义。
微博信息在不同网络结构中的传播效率及预测机制是微博研究的重要方向之一。已有研究主要围绕行为动力学模型、网络拓扑结构、机器学习和深度学习等方面展开。行为动力学模型是研究微博信息传播机制的重要方法之一,如SI 模型、SIS 模型、SIR 模型等[2]。这些模型能够预测微博信息传播的速度和范围,并分析节点的传播能力。同时,网络拓扑结构对于信息传播的影响也受到了广泛关注,如无标度网络、小世界网络、星形网络[3-5]。基于这些特殊的网络结构,研究者探索了微博信息的传播机制及传播效率。其中,机器学习是一个主要方法,用于预测微博信息在不同网络结构中的传播趋势[6-7]。研究者提出了很多基于机器学习的微博传播预测模型,如基于神经网络的模型、基于分类器的模型、基于深度学习的模型等[8-10]。这些模型利用微博网络中的各种特征,如用户行为、内容、情感等,采用监督学习和非监督学习等机器学习算法进行建模和预测分析,从而实现微博传播效率的提升。此外,还有一些基于图卷积神经网络(Graph Convolutional Network, GCN)的微博传播预测模型[11-12]。这些模型基于大规模有标签的微博数据集,利用GCN 对节点特征进行表示和聚合,预测微博的传播路径和概率,并对算法的性能进行评估和对比。相对于传统的机器学习模型,GCN 模型具有更好的性能和可解释性,可以更精确地预测微博传播效率。
尽管研究者们在微博传播效率和预测机制方面取得了一系列重要的研究进展,但仍存在以下待解决的问题。首先,大多数研究停留在传统的行为动力学模型和网络拓扑结构分析,缺乏对于微博传播机制的深入研究和探索;其次,微博传播效率和预测模型的可解释性和实用价值仍有待挖掘。而时序预测模型的优势恰好可以应对这些问题,能够基于历史数据并结合时间序列的特征对未来的事件进行预测。这种方法可以更加精准地对微博传播效率等各种指标进行预测,而不是简单地基于节点度数和其他传统拓扑信息进行预测[13]。本文提出一种基于时序预测的微博传播效率模型,可以为微博传播研究提供更加全面、新颖的分析方法和预测模型。
微博信息传播效率是当前社交媒体研究的热点之一,涉及到社交网络、信息传播、影响力评估等多个领域。近年来,以IEA-ARIMA 模型为基础的微博信息传播效率研究也得到了广泛关注。
在国际上,相关研究主要集中在微博信息传播效率评估算法的探讨和应用。例如,D. Varshney 等提出了一种基于人工神经网络的信息传播效率预测方法,该方法可以对微博信息传播效率进行准确预测,并且可以根据预测结果进行相关决策[14]。另外,A. Hernandez 等提出了一种基于深度学习的微博信息传播效率预测模型,该模型利用长短时记忆网络(LSTM)对微博文本进行建模,可以提高预测精度[15]。
在国内,IEA-ARIMA 模型在微博信息传播效率方面的应用也已经有了一定的研究。例如,张帅等人提出了一种基于IEA-ARIMA 模型的微博情感分析方法,该方法可以对微博的情感进行分析,并且可以预测微博的转发量[16]。此外,韩连金等也提出了一种基于IEAARIMA 模型的微博影响力评估方法,该方法可以对微博用户的影响力进行评估,并且可以帮助企业和个人进行推广和营销[17]。
虽然目前已有许多研究将IEA-ARIMA 模型应用于微博信息传播效率的评估和预测,但是仍然存在一些不足之处。目前的研究主要集中在微博信息传播效率的预测和评估,而如何提高微博信息传播效率的问题仍然亟待解决。此外,部分研究还存在数据集样本不足、算法复杂度高等问题。
本文构建了一种基于改进欧拉算法的时序模型,并从复杂网络理论的角度探索了不同拓扑结构下的微博信息传播效率。研究结果表明,在球型网络、随机网络和微博网络三种不同结构中,球型网络是最优的传播环境,可显著提升微博信息的传播效率。本文中深入探讨了网络拓扑结构对微博信息传播效率的影响,并提出了新的预测方法,对提高微博信息的传播效率具有重要意义。
本论文的数据收集是通过新浪微博API 接口进行的。API 接口提供了获取用户信息和用户关注度数据的服务,具体步骤如下:
步骤1:获取Access Token。在使用API 前需要先获取Access Token,用于API 的授权验证。本研究中使用OAuth2.0 认证方式获取Access Token。首先,需要在新浪微博开放平台上注册并创建应用程序,获得应用程序的App Key 和App Secret,用于认证;接着,使用Python 中的requests 库进行请求,请求https://api.weibo.com/oauth2/access_token 接口,传递App Key、App Secret、授权码和回调地址等参数,从而获取Access Token。
步骤2:获取用户信息。通过新浪微博API 接口可以获取用户的基本信息,如用户ID、用户名等。本文需要获取一组样本用户的信息,具体方法为:首先,定义样本用户列表,从该列表中逐一获取每个用户的ID 号;然后使用API 接口的https://api.weibo.com/2/users/show.json 接口,传递用户ID 和Access Token 等参数,获取每个用户的信息;最后,将用户信息存储到数据库中以进行后续的分析。
步骤3:获取用户关注度列表。用户关注度指的是该用户关注的其他用户数量。通过新浪微博API 接口可以获取一个用户的关注度列表。本文需要获取一组样本用户的关注度列表,具体流程为:首先,定义样本用户列表,从该列表中逐一获取每个用户的ID 号;然后使用API 接口的https://api.weibo.com/2/friendships/follow ers.json 接口,传递用户ID 和Access Token 等参数,获取每个用户的关注度列表;最后,将用户的关注度数据存储到数据库中进行后续的分析。
本文通过新浪微博API 接口获取数据,包括获取Access Token、获取用户信息和获取用户关注度列表等步骤。详细方法如下:
1) 数据收集代码
2)获取用户ID 代码
3)获取用户关注度列表代码
本文研究了新浪微博中“意见领袖”用户的关注关系,并采集了相关数据。本文获取了包含N个用户信息及其关注度的数据集,其中N= 2 × 105,这些用户构成了一个200 000×20 000 的信息传播网络。由于网络节点数量庞大,难以呈现完整的网络结构,因此选择了60 个固定的节点,通过确定每个节点的ID,绘制了球型网络、随机网络和微博网络的用户关注度图,将关注列表中的用户记为AID。如果该用户的某个AID 在ID 集合中,就会画出一条ID 到AID 的有向边。用户之间的关注关系表示为aij,其中0 表示不关注,1 表示关注。通过比较这三种网络结构对出入度的影响,绘制出如图1所示的三种网络结构。
图1 微博用户的关注度网络结构
已有文献针对复杂网络的结构和特征进行研究并提出了许多指标。在对网络静态拓扑结构进行分析时,选取合适的指标对研究结果有着至关重要的作用。本文借鉴了徐建民等学者的方法[18],并从度和路径两方面选取多个指标进行分析。在度方面,选用了网络中度分布的一些基本参数,包括出入度、聚类系数、最短路径、介数中心度、中心化程度等指标。
1)网络的聚类系数cb,公式如下:
式中:li为与节点相邻节点之间的边数;ki为与节点相邻节点的个数。
2)最短路径,即节点间边数最少的连接方式,而网络的直径则是最短路径中最大距离的值。平均距离的计算公式如下:
式中:n为网络节点数;di,j为节点间的最短距离。
3)介数中心度。中心度是用来描述节点在网络中所占中心地位的指标。介数中心度可以通过计算节点间最短距离数与网络总边数的比值来得到,计算公式为:
式中:gjk表示节点j和节点k之间的最短距离;gjk(a)表示节点j和节点k之间经过节点a的最短距离数。
4)中心化程度。网络的中心化程度可以通过计算所有节点的中心度与最大中心度之差的比值来得到,计算公式为:
1)传播模型的构建
微博信息的传播网络受到多种因素的影响,包括群体成员互动、群体成员心理、时间推移和偶然事件等。在线用户人数在不同时间段存在较大波动,同时用户对微博信息的传播选择也会有所改变。信息转发数量呈S 曲线发展趋势,最初信息传递速度较慢,随着市场的兴起,信息开始指数增长,但随着潜在用户数量的不断减少,信息增长速度会变得更为缓慢。借鉴SIR 模型,可将信息在网络中的传递情况分为易感(Susceptible)、潜伏(Latent)、感染(Infectious)和免疫(Recovered)四种状态[19]。根据上述模型,信息在网络中的传递情况如图2 所示。
图2 微博信息在用户间的传递情况
2)算法的改进
欧拉算法是一种常用的信息传播模型,用于预测信息在网络中的传播情况。然而,标准欧拉算法没有考虑到节点的入度和出度,导致预测结果不够准确。为了解决这一问题,对欧拉算法进行改进,提出改进欧拉算法。改进欧拉算法考虑了节点的入度和出度,并将其纳入传播过程的预测中,从而更准确地预测信息的传播过程。运用改进欧拉算法的信息传播时序预测模型,能够更好地模拟微博信息在网络中的传播过程,更加精准地预测未来某一时刻节点的状态。具体改进思路为:首先,在标准欧拉算法的基础上,增加节点入度和出度的计算;其次,根据节点的入度和出度对传播率进行调整;最后,在预测过程中实时监测节点的状态变化,并将其反馈到传播模型中,进一步调整传播率。改进欧拉算法的信息传播时序预测模型代码如下:
雷达图常用于多组指标的综合分析,具有完整、直观的优势。将三种网络结构下节点出入度的最大值、均值、中位数绘制成雷达图,如图3 所示。
图3 不同网络结构的出入度雷达图
根据图3 可以观察到,雷达坐标轴覆盖了0~6 000的范围。在三种网络结构中,出入度均值都大于中位数,这种“互惠”型在线网络结构对于信息的传播非常有利。值得注意的是,球形网络的出入度最大值分别为5 786 和1 542,高于微博网络和随机网络,这表明微博网络在信息传播方面具有很大的优势。此外还可以观察到,在微博用户关注度网络中出度的最大值为1 542,但是它通常难以直接反映用户的实际价值,因为过多的冗余信息会干扰其有价值的信息。入度的最大值为5 786,意味着近1 3 的用户都关注了这些微博“意见领袖”。这些人通常拥有较高的关注度,并且往往是知名人士,但是不能简单地依赖粉丝数来衡量用户的影响力,因为用户对信息的贡献还跟结构度中心性有关。此外,可以从节点度值的大小中观察到,信息流入流出方向存在较大差异,具有较大出度的节点可以快速将信息传播到大量其他节点;而具有较大入度的节点能够吸引大量信息流入。综上所述,微博传播与网络结构密切相关,需要考虑网络结构和节点度值等因素才能更准确地预测信息传播结果。
传播效率是微博网络中重要的指标,而网络节点的度值对传播效率有着直接的影响[20]。本文将以最大度、平均度和中位数度作为节点属性,通过时间序列预测模型探索不同节点在微博网络中的传播效率差异。通过比较不同属性节点之间的传播效率,可以更好地了解微博网络传播过程中复杂的节点关系和信息流动规律,为网络建设和信息传播策略提供科学参考。不同网络节点的微博信息传播预测结果如图4 所示。
图4 不同网络节点的微博信息传播预测结果
根据图4 对微博网络中不同度值节点在信息传播效率方面的表现进行了比较。结果显示,当最大度节点作为信息源节点时,其传播速度最快,且在第5 天时传播效率达到74%,明显高于度均值节点和度中位数节点。然而,在第5~10 天的时间段里,三种节点的传播速度都变缓,微博信息网络的传播效率趋向于平稳。通过预测11~15 天时间段的传播效率,发现三种信息源在微博网络中的传播效率变化趋势与前5 天相似,传播效率趋于稳定,且度最大值模型的传播效率为85%,高于度均值和度中位数的预测值。这表明在微博网络中节点的度值大小能够显著影响信息的传播速度和广度,从而影响微博信息的传播效率。度值大的节点能够促进信息的传播,具有更高的传播效率。微博网络演化受到多种机制的协调作用,除了宏观特性,用户行为属性也发挥着重要作用。
在不同的网络结构中,不同类型的节点会对信息传播效率产生影响。对于不同度值的节点作为信息源输入,进行信息传播效率的比较,是目前信息传播研究领域的重点之一。通过对节点的度值和网络结构之间的关系深入分析,可以更加全面地探究不同类型节点在不同网络结构中的传播效率。本文以度最大值、度均值、度中位数三种不同度值的节点作为信息源输入,以时序模型分别预测不同网络结构的信息传播效率。不同网络结构的微博信息传播预测结果如图5 所示。
图5 不同网络结构的微博信息传播预测结果
从图5 中可以得知,在三种不同网络中,度最大值节点在球型网络中表现最优,其传播效率预测值为95%,在随机网络中为87%,而在微博网络中为83%。而度均值节点在球型网络中的传播效率预测值最高,为90%,在随机网络中为85%,而在微博网络中为72%。在三种网络中,度中位数节点虽然传播效率预测值相对较低,但球型网络中的传播预测效率最高,为84%;随机网络中其传播效率预测值为75%,而在微博网络中为70%。这一结果表明:在拓扑结构规则、大规模集群呈网状、节点被连接的概率大、所有节点之间路径相对较短的球型网络中,信息传播效率最高;而在孤立的集群呈星状、节点被连接的概率接近、信息传播分布广的随机网络中,传播效率稍低;微博网络的结构复杂,节点被连接的概率差异较大,信息在传播过程中会受到较大的阻碍。
本文构建了基于改进欧拉算法的时序模型,从节点和网络结构两方面进行了研究,探究了微博网络中信息传递的特征以及网络结构和节点度值等因素对信息传播结果的影响。结果表明,球形网络中节点度值大,相对规则的网络结构在一定程度上有利于信息的传递。微博传播与网络结构密切相关,需要考虑网络结构和节点度值等因素才能更准确地预测信息传播结果。
除此之外,本文采用改进欧拉算法的时序预测模型,探讨了微博节点大小和网络结构对传播效率的影响。在节点度值的选择方面,分析了度最大值、度均值、度中位数三种不同信息源节点对传播效率的影响,结果表明,度值大的节点能够提高微博信息的传播效率,传播速度快,传播范围广。在网络结构方面,球型网络的传播效率最高,随机网络次之,微博网络传播效率相对较低,其中网络越规则,越能够缩短节点间的距离,增大节点的连接概率,从而减少孤立节点,提升信息的传播效率。值得注意的是,本文的研究结果在改进欧拉算法的时序预测模型方面具有创新性,其从节点和网络结构两方面进行分析,能够更全面地探究微博信息传播的机理,对推广改进欧拉算法及类似模型具有参考意义。因此,在未来的信息传播研究中,应该从多个角度入手,探究节点和网络结构等因素对信息传播效率的影响。
本文采用的方法主要是基于网络结构的分析,未来的研究可以通过人工实验、大数据分析等方法进行探索,以更加全面地了解微博信息传播的机理。最后,本文的研究结果是基于模拟数据得出的结论,未来可以通过实际数据的采集和对比对结果进行验证和修正,从而更加准确地预测和优化信息传播效率。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!