当前位置:首页 期刊杂志

面向微博话题的用户影响力分析算法

时间:2024-05-04

刘威 张明新 安德智

摘 要:微博用戶影响力分析作为社交网络分析的重要组成部分,一直受到研究人员的关注。针对现有研究工作分析用户行为时间性的不足和忽略用户与参与话题之间关联性等问题,提出了一种面向微博话题的用户影响力分析算法——基于话题和传播能力的用户排序(TSRank)算法。首先,基于微博话题分析用户转发行为时间性,进一步构建用户转发和用户博文转发两种话题转发关系网络,预测用户话题信息传播能力;然后,分析用户个人历史微博和背景话题微博文本内容,挖掘用户与背景话题之间的关联性;最后,综合考虑用户话题信息传播能力以及用户与背景话题间关联性计算微博用户影响力。爬取新浪微博真实话题数据进行实验,实验结果表明,话题关联度更高用户的话题转发量明显大于关联度很低的用户,引入用户转发行为时间性相比无转发时间性,TSRank算法的捕获率(CR)提高了18.7%,进一步与典型影响力分析算法WBRank、TwitterRank和PageRank相比,TSRank算法在准确率和召回率上分别提高了5.9%、8.7%、13.1%和6.7%、9.1%、14.2%,验证了TSRank算法的有效性。该研究成果对社交网络的社会属性、话题传播等理论研究以及好友推荐、舆情监控等应用研究具有支撑作用。

关键词:社交网络;用户影响力;转发关系;微博话题;信息传播能力

中图分类号: TP391; TP181

文献标志码:A

Abstract: As an important part of social network analysis, Weibo user influence analysis has been concerned by researchers all the time. Concerning the timeliness shortage and neglect of the relevance between users and topics when analyzing user behaviors, a user influence analysis algorithm for Weibo topics, named Topic and Spread user Rank (TSRank), was proposed. Firstly, based on Weibo topics, the timeliness of users forwarding behavior was analyzed to construct two topic forwarding networks, user forwarding and user blog forwarding, in order to predict the users topic information dissemination capability. Secondly, the text contents of users personal history Weibo and background topic Weibo were analyzed to mine the relevance between user and background topic. Finally, the influence of Weibo user was calculated by comprehensively considering users topic information dissemination capability and relevance between user and background topic. The experiments on crawled real topic data of Sina Weibo were conducted. The experimental results show that the topic forwarding number of users with higher topic correlation is significantly greater than that of users with lower topic correlation. Compared with no forwarding timeliness, the Catch Ratio (CR) of TSRank algorithm is increased by 18.7%, which is further compared with typical influence analysis algorithms, such as WBRank, TwitterRank and PageRank, TSRank algorithm improves the precision and recall by 5.9%, 8.7%, 13.1% and 6.7%, 9.1%, 14.2% respectively, which verifies the effectiveness of TSRank algorithm. The research results can support theoretical research of social attributes and topic forwarding of social networks as well as the application research of friend recommendation and public opinion monitoring.

Key words: social network; user influence; forward relationship; Weibo topic; information dissemination capability

0 引言

社交网络平台是以互动交友、用户之间共同兴趣爱好为基础,以实名或非实名方式在网络平台构建的一种社会关系网络服务。社交网络平台现已取得迅速发展[1],全球最大社交网站Facebook发布2018年第一季度财报显示,截止2018年3月31日,Facebook的月活跃用户达22亿,比去年同期增长3.8%;新浪微博发布2018年第一季度财报显示,微博月活跃用户共4.11亿,比去年同期增长20%。微博作为新型公共话题传播平台,已有庞大的用户群体,用户量也保持较好增长,如此庞大的用户群体中存在有较高声望和影响力的用户,他们的言论和观点会影响大多数用户的观点,社交网络的无标度性质也决定了社交网络中少部分人掌握着大部分话语权[2],这部分有话语权的影响力用户非常值得关注。微博用户影响力可以通过微博话题的互动表现出来,表现为话题参与用户的行为和观点受其他用户的影响发生改变的现象[3]。分析微博话题的用户影响力对社交网络的研究具有重要意义:1)有影响力用户是推动话题持续传播和扩大话题传播范围的关键因素[4],研究微博用户影响力可以发现微博话题信息的传播规律;2)微博话题在传播过程中存在着错综复杂的社会屬性,研究微博用户影响力有助于了解社交网络的社会属性;3)微博用户质量参差不齐,用户需要推荐高质量和有影响力的用户,以获取有价值和感兴趣的信息,识别有影响力用户有助于推荐微博中有共同兴趣的高质量好友,因此,计算微博用户的影响力并找出影响力排名靠前的用户,对话题信息传播[5]、微博好友推荐[6]、网络舆情监督[7]等具有重要意义。

微博用户影响力得到了研究人员的持续关注,目前研究工作侧重于偏离用户关系网络分析用户行为时间,忽略行为时间对传播广度和互动关系强度的影响;侧重于从用户之间兴趣话题的角度分析,忽略用户对话题的兴趣关注和微博短文本等特征对话题识别的影响。

1)用户行为的时间性。毛佳昕等[8]认为用户帖子的被转发频率是最能代表用户影响力大小的指标,利用用户发布微博的时间分布、微博时效性和转发偏好计算用户帖子的被转发频率,确定用户的影响力大小,该方法侧重分析用户发布微博时间分布对被转发频率的影响,忽略发布微博时间对转发传播广度和转发关系强度的影响,不能区分影响人群广度不同的有影响力用户和转发对影响力的贡献度。廖祥文等[9]将用户观点、活跃度、中心度等特征加入到张量模型中,假设用户间评论的延迟时间满足指数分布,得到评论时间特征约束矩阵并引入到张量模型分解过程中,以此计算用户影响力,该方法侧重分析在张量分解模型中引入评论延迟时间来度量用户影响力,忽略评论延迟时间在用户关系网络中对影响力传播范围广度的影响,不能很好识别最有影响力用户。Su等[10]将用户交互行为的整个时间区间划分成时间片,在主题模型中引入文本主题、各类交互关系以及交互相关联的时间片,提出了一种主题级影响力时间模型(Topic-level Influence over Time, TIT),该模型侧重基于转发、评论等交互行为所属时间片来识别影响力有潜在增长趋势的用户,忽略转发、评论等交互行为本身发生时间对用户间交互关系强度的影响程度,不能有效地确定不同交互时间对用户影响力的影响程度。

2)用户的兴趣话题。周东浩等[11]使用潜在狄利克雷分布(Latent Dirichlet Allocation, LDA)主题模型分析用户的兴趣话题相似度,基于用户的传播概率、兴趣相似度和结构相似度构建随机游走模型,提出了一种用户传播能力排序算法,该算法侧重分析用户之间在结构和兴趣话题上的相似度,忽略用户兴趣与参与话题之间的关联性,最终识别出的影响力用户并非真正关注话题并持续产生影响力的用户,微博也具有短文本和数据稀疏等特点,直接使用LDA主题模型识别用户潜在兴趣话题分布的效果不佳。祝升等[12]利用LDA主题模型计算用户在博文内容上的话题分布,构建话题关系网络,综合用户之间的话题相似度、平均转发延迟和转发量占比得出边权重,迭代计算出用户影响力,该方法侧重分析用户之间的话题相似性,LDA主题模型直接应用到微博短文本的效果不理想,识别用户兴趣话题的效果不佳,计算用户之间话题相似度不准确。Wu等[13]利用消息内容、标签、转发、回复和提及(@)构建主题行为网络,采用启发式搜索方法生成用户的主题行为影响树,通过最大化受影响用户数和最小化传播路径识别有影响力用户,该方法侧重用户之间主题行为影响树的构建,忽略微博短文本特点和用户对参与话题的兴趣来分析用户主题,影响对话题真正感兴趣而持续产生影响力的关键用户的识别。

综上所述,现有研究有以下不足:1)忽略用户转发行为时间对用户影响力传播广度和交互关系强度的影响;2)未结合微博短文本等特征分析用户话题;3)忽略用户对参与话题的兴趣关注。本文选择国内最大的新浪微博社交网站作为研究对象,基于微博话题分析用户影响力。针对第1)点不足,在用户转发关系网络和用户博文转发关系网络中分析转发时间性(时间差)对转发关系强度和微博用户影响力传播广度的影响来计算转发时间性对微博用户影响力的贡献度。针对第2)点和第3)点不足,基于用户与参与话题之间的关联性来计算用户对微博话题的兴趣关注度,通过微博关系扩展微博短文本改进LDA主题模型,分别识别用户和背景话题的微博文本内容的潜在话题分布,计算用户与背景话题之间的关联度。算法思路:首先,基于微博话题综合分析用户交互以及包含的时间信息构建用户转发和博文转发两种话题转发关系网络,分析转发行为时间性对转发影响力和用户自身质量的影响,并从用户转发影响力和用户自身质量两个方面计算用户信息传播能力;然后,通过微博关系拓展微博短文本并改进LDA主题模型,通过改进LDA主题模型分析用户个人微博文本内容和微博话题文本内容的潜在话题分布,据此计算用户与背景话题之间的关联度;最后,综合分析用户话题信息传播能力和用户与背景话题之间的关联度,计算话题参与用户的影响力大小。通过爬取新浪微博真实话题数据进行实验,分别验证了引入用户转发行为时间性和用户与参与话题之间关联性的有效性。与典型影响力分析算法WBRank、TwitterRank和PageRank比较,本文提出的基于话题和传播能力的用户排序(Topic and Spread user Rank, TSRank)算法在准确率和召回率上分别提高了5.6%、8.5%、12.9%和6.3%、9.4%、13.5%5.9%、8.7%、13.1%和6.7%、9.1%、14.2%此处的值与摘要不一致,是否以摘要中的数值为准?请明确。,表明了TSRank算法的有效性。

1 微博用户影响力分析与度量

微博用户影响力可以通过微博话题的互动表现出来,对其他用户的行为和观点等产生影响,因此,本文基于微博话题分析用户影响力。话题参与用户的影响力主要表现为微博用户信息的传播广度和影响强度,即用户的话题信息在话题传播过程中,影响人群越广,影响用户强度越大,用户的影响力越大。微博用户影响力分析算法的整体思路如图1所示。

1.1 问题定义

1.2 权重指标定义

1.2.1 转发行为时间性

这样书写符合表达吗?请明确。回复如下:1.括号使用不正确,应该是(∑e X ri(v,u) )/(∑ri(v,u)),解释是第一个求和符号里的计算单元是e乘以ri(对多个e乘以ri求和),然后第一个求和符号的结果除以ri求和的结果,(这里只能文字说明,如未说明清除,请见邮件内容公式截图);

2.第二个求和符号下方也可以加上如同第一求和符号下方,也可不加,此处的i只是表示用户u的博文范围,无初值,第二公式表明对ri的求和。

其中:e為自然常数(e>0);O1(u)表示用户u发布话题博文集合,t0i为用户u发布第i条博文时刻(单位为h,表示距离博文发布当天凌晨的时间),ti为用户v转发用户u第i条博文时刻(单位为h,表示距离被转发博文发布当天凌晨的时间),ti-t0i为用户v转发用户u第i条博文的时间差(时间差越小,对被转发用户u的影响力贡献度越大);λ为控制衰减速率的参数,设置λ=11h。对于固定值λ(λ>0),当ti-t0i → 0+时,e-ti-t0iλ → 1;当ti-t0i → +∞时,e-ti-t0iλ → 0。

1.2.2 用户活跃度

1.3 度量指标定义

话题参与用户通过发布话题信息的传播对被转发用户产生影响,其影响的人数越多,在用户转发关系网络中从其他用户引入的链接数越多,表明其影响人群越广;同时,用户转发行为由用户自身的价值驱动,话题内用户质量越高,对其他用户的影响程度越大,体现了用户的信息传播能力的影响强度,所以从用户转发影响力和用户自身质量两个角度计算用户信息传播能力,分别体现微博用户影响力的影响传播广度和影响用户强度。

1.3.1 用户转发影响力

话题用户转发网络与网页链接结构十分相似,用户u被用户v转发相当于网页v存在一个链接指向网页u,用户v将自己的影响力贡献给用户u,网页v将自己的重要性贡献给网页u,但由于用户v的转发时间间隔和自身活跃度都不同,对用户u的影响力贡献度也是不同的,所以,在用户转发关系网络中,话题参与用户u的转发影响力表示为R(u),引入wr(v,u)来体现转发时间间隔对用户转发关系强度和用户影响人群广度的影响,借鉴经典网页排序算法PageRank的思想计算R(u),微博用户转发影响力的计算公式如下:

其中:O2(u)为用户u的转发用户集合;R(v)为用户v的转发影响力;out(v)为用户v指向其他用户的转发;c为阻尼系数,通常设置为经验值0.85。

1.3.2 用户自身质量

在用户博文转发关系网络中,用户u发布博文b(b∈VB)的质量记为Blogb(u),用户到博文节点的转发关系边权重设置为wr(v,u),体现转发时间差对博文传播广度和博文转发关系强度的影响,借鉴PageRank思想计算Blogb (u),计算如下:

其中:O3(b)是博文b的转发用户集合,Q(v)是用户v的自身质量,out(v)是用户v指向其他用户的转发。

在微博话题传播过程中,因为用户自身质量主要通过用户发布博文的质量体现,所以,使用用户u所有博文的质量表示用户u自身质量Q(u)。在用户博文转发关系网络中,设置博文节点b到用户节点u的边权重为wb(u),体现博文质量b对用户自身质量计算的重要程度。用户u的自身质量计算公式如下:

其中:O4(bu)此处的b,是否应该为u,为与式(8)保持书写一致是用户u的所有博文集合;wb(u)此处wb(u)是矢量或向量,但是其后的值Nb、Nc为常数,如何理解二个常数相除后却变为矢量(或向量)这个事情,是表述错误?还是其他,请明确。

回复如下:wb(u)是博文节点b到用户节点u的边权重,是有方向的,反过来,用户指向博文节点就不是Wb(u),该权重刻画的是博文节点b对用户节点u自身质量的贡献度。

其后的Nb和Nc是通过公式计算该权重值的大小,只是对Wb(u)的量化。=Nb/Nc,Nb为用户u的博文b的总转发数,Nc为用户u所有博文总转发数。

1.4 用户信息传播能力计算

在话题传播过程中,转发影响力体现被转发用户信息传播能力在话题内的信息传播广度,用户自身质量体现用户信息传播能力影响用户的强度,因此本文将这两个度量指标通过线性融合计算用户在话题内的信息传播能力大小,表示为Spread(u),计算如下:

其中:α1是用户转发影响力所占比重,α2是用户自身质量所占比重。设置α1=α2=0.5,表示用户的转发影响力和用户自身质量对用户信息传播能力同等重要。

2 面向话题的用户影响力算法

2.1 用户与参与话题间的关联性

面向微博话题的用户影响力研究大多假设用户影响力不受微博之外的因素影响,但微博社交网络用户具有社会属性,其影响力受多种因素影响。用户兴趣与热点话题之间的关联性代表该用户是否会持续关注该话题,频繁参与话题互动并产生持续影响力。本文在实验部分验证了用户与背景话题之间关联性对用户转发微博话题相关博文数量的影响,表明话题关联度较高的用户相比较话题关联度较低的用户,会更频繁地参与话题互动并产生持续影响力,为此通过分析微博话题相关所有博文集合和用户对应时段内的个人历史博文集合,计算用户与微博话题之间的关联度。

针对LDA主题模型不适用于微博短文本,结合微博短文本特征改进LDA主题模型。将微博话题内的每一个博文以及其他用户评论它的内容和原始发布者对这些评论的回复聚合成多个单个博文集合,然后聚合微博话题内的所有单个博文集合形成微博话题文档集合。基于此方法拓展博文短文本的原因是,用户发布博文以及用户之间的评论回复通常是围绕博文主题进行的。同样采用此方法拓展用户在同一时间段内的历史博文内容得到用户文档集合,然后使用中文微博关系主题模型(Micro-blog Relation Latent Dirichlet Allocation, MR-LDA)方法[15]改进LDA主题模型,该方法结合了博文之间的提及(@)、转发、评论和点赞关系。

识别微博话题文档集合和用户文档集合主题数K,使用改进LDA主题模型识别微博话题文档集合的主题概率分布Vtopic和用户文档集合的主题概率分布Vu,向量表示如下:

其中:piu和pitopic分别是用户u的文档集合和微博话题文档集合产生主题i的概率,且∑Ki=01piu=∑Ki=01是否应该为i=1?请明确pitopic=1。

相对熵,又称KL(Kullback-Leibler)散度,是描述两个概率分布之间差异的一种方法,符合本文计算用户与背景话题之间关联度的特点,所以本文使用KL散度计算Vtopic和Vu向量之间的距离,值越大,说明越不相似,计算公式如下:

由于KL散度不具有对称性,与用户和背景话题之间关联度的对称性不相符。为了使得公式符合对称性,便于描述用户与背景话题关联度和KL值对应关系,将公式进行转换。定义用户u与背景话题之间关联度S(u,topic),公式如下:

其中:S(u,topic)为用户与背景话题之间关联度,S(u,topic)的值越大,用户历史微博内容与背景话题内容的概率分布差别越小,用户与背景话题之间的关联度越高。

2.2 面向微博话题的用户影响力计算

用户信息传播能力代表用户对话题信息传播能力的大小,用户与背景话题之间的关联度代表用户与背景话题之间的黏性,是用户对话题传播持续产生的影响力,所以,基于用户信息传播能力和用户与参与话题之间的关联度直接计算话题参与用户的影响力大小,计算如下:

程序后

3 实验结果及分析

为了验证该算法的普适性和有效性,实验部分首先选取了新浪官方公布的微博热点话题“徐玉玉案”,该话题事件范围为2017年6月2日—2017年7月21日,又增加了该话题时间内的“2017NBA总决赛”“李文星事件”“顺丰菜鸟‘数据断交门”“四川‘格斗孤儿”“中国式相亲鄙视链”5个话题,共计6个话题,使实验数据包括教育、体育、社会、科技、民生等多领域的一般性话题和热点话题,同时,选取2017年6月21日—6月22日两天时间内新浪微博上的所有话题数据,进行实验验证,使实验验证具有普适性。通过网络爬虫获取以上相关数据,同时爬取话题参与用户在对应时间内的历史消息微博数据。对得到数据进行预处理后,数据集统计情况如表1所示。由于爬取的微博话题的用户数据量较大,借助Spark平臺实现本文算法(TSRank),使用Matlab仿真实验结果,通过多次实验的最优结果,设置控制衰减速率的参数λ=11h。

3.1 有效性测试

首先验证用户与参与话题之间关联度和转发行为时间性的有效性。以话题“2017NBA总决赛”为例,通过计算用户与背景话题之间的关联度对用户进行分类,将关联度较高和较低的用户分为话题相关用户和话题不相关用户,分析用户与背景话题间关联度对转发行为的影响。统计所有用户(all users)、话题相关用户(topics related users)和话题不相关用户(other users)所转发的与热点话题相关微博的数量变化,其中,时间周期为2天,结果如图2所示。

从图2中可知,在话题传播周期内,微博话题相关博文数的增长对各类用户的转发量都有所影响,话题相关用户的转发量上升幅度明显高于话题不相关用户,同时话题相关用户转发趋势与话题整体转发趋势比较接近,而话题不相关用户转发量的趋势与之并不明显接近。表明话题相关用户话题参与度更高,更易促进话题传播,话题相关用户会对话题传播持续产生影响力。验证了引入用户与背景话题之间的关联度有助于识别微博话题传播过程中有持续影响力用户,能在一定程度上屏蔽仅靠刷微博数来提升微博话题热度的水军用户。

验证引入转发行为时间性的有效性,使用捕获率(Catch Ratio, CR)作为评测指标,CR为通过Top-k用户检测到的信息与网络中实际存在的信息的比值。验证结果使用六个话题以及两日内的所有话题数据集的平均捕获率,如图3所示。从图中可以看出,转发时间性对CR指标的影响较大,随着Top-10、Top-20、Top-30、Top-50、Top-80和Top-100的变化,引入转发时间性的CR值明显优于不考虑转发时间性的情况。

3.2 实验对比测试

通过实验对比,测试TSRank算法识别有影响力用户的准确性,选取WBRank算法[16]、TwitterRank算法[6]和PageRank算法三种算法作为对比,其原因是:WBRank算法是较新提出算法,同样基于新浪微博平台和考虑用户行为进行分析;TwitterRank算法也是基于话题和网络结构的经典算法;PageRank是经典排序算法,且本文有借鉴其算法思想。图4给出Top-10、Top-20、Top-30、Top-50、Top-80和Top-100下四种算法对CR指标影响的实验结果。从图4中可以看出,随着选取有影响力用户数量的增多,TSRank方法的CR指标均优于其他三种算法,说明TSRank算法识别微博话题内有影响力用户的效果更佳。

3.3 算法准确率和召回率验证

为了更进一步验证本文方法的有效性,分别验证挖掘影响力个体的准确率和召回率。由于微博话题中的实际影响力用户难以人为确定,所以通过上述3种算法和TSRank算法的交叉验证来确定真实影响力用户的排名。

交叉验证方法[17]是将多种算法(N种)认为的正确结果作为最终正确结果。例如给定4种算法A、B、C和D,各算法得出的正确结果分别为IA、IB、IC和ID,设置N=2,即2种算法认为的正确结果作为最终的参考结果,称其为参考标准集合I2,则定义I2为:

准确率P(Precision)体现挖掘话题内影响力用户的真实性,算法A挖掘影响力用户的准确率定义如式(16)所示:

召回率R(Recall)体现微博话题内影响力用户的挖掘充分程度,即算法A挖掘影响力用户的召回率定义如式(17)所示:

实验根据4种算法,在N=2,3,4时,对比了六个话题以及两日所有话题的平均准确率在Top-10、Top-20、Top-30、Top-50、Top-80和Top-100下的实验结果,如图5所示。

实验结果表明,参考标准数量N在不同取值情况下,

TSRank算法的准确率均优于其他三种算法,但实验效果有所不同。因为参考标准数量N设置过小(N=2)时,参考标准集合IN元素数目偏多,各算法与IN交集元素较一致,导致准确率相差不大;参考标准数量N设置过大(N=4),参考标准集合IN元素数目偏少,同样使得各算法与IN交集元素较一致,导致准确率相差也不大。当N=3时,四种算法的准确率效果最理想,能体现出各算法的准确性优劣,此时,TSRank相比WBRank、TwitterRank和PageRank,在不同Top-k和三个话题下的平均准确率分别提高了5.9%、8.7%和13.1%,表明TSRank算法能更准确地识别出有影响力用户。

实验同样对比了在参考标准数量N=2,3,4的不同设置下,6个话题以及两日所有话题的平均召回率在不同Top-k影响力用户下的实验结果,如图6所示。

从图6可知,参考标准数量N在不同取值情况下,TSRank算法的召回率均优于其他三种算法,但实验效果同样不同,因为N设置过小(N=2)时,各算法与IN元素的交集元素同样多,召回率相差不大;N设置过大(N=4)时,各算法与IN元素的交集元素同样少,召回率相差也不大。参考标准数量N=3时,实验效果最佳,此时,TSRank相比WBRank、TwitterRank和PageRank,在不同Top-k和三个话题下的平均召回率分别提高了6.7%、9.1%和14.2%,表明TSRank算法能更充分地识别出有影响力用户。

3.4 算法效率和复杂度分析

为了测试TSRank算法的执行效率,本文将数据集按照用户节点数逐渐递增,划分为5个规模不同的数据块,分别将其标识为数据块1、2、3、4、5,对应的用户节点数为76837、110381、158353、229361、281539,对比了4种算法在6个话题以及两日内所有话题数据上的平均执行时间(min),实验结果如图7所示。

實验结果表明,本文提出的TSRank算法的执行时间更少,算法效率明显优于同其他三种算法;同时,4种算法的执行时间随着数据集规模的增大而呈线性增长,但TSRank算法的增幅较小。

TSRank算法与PageRank算法相比,算法复杂度有所增加,需要计算用户转发影响力和用户自身质量,但它们的计算简单,且转发影响力、用户自身质量以及用户与话题间关联度是并行的,因此算法复杂度增幅较小,相比WBRank算法和TwitterRank算法,TSRank算法复杂度也没有过高,三者都考虑了用户网络结构和用户行为,其中,WBRank和本文算法都是基于PageRank迭代收敛,TwitterRank和本文算法都考虑了话题因素。对于算法的优化策略,可以从技术角度出发,增大并行节点数或将中间输出结果同用户关系相结合作为下一次迭代输入,提高执行效率,同时可以借助Spark GraphX技术提高对大规模图计算的效率。

4 结语

利用社交网络中微博话题和参与用户数据,本文给出了话题参与用户的话题信息传播能力和用户对微博话题兴趣关注的度量机制,提出了一种面向微博话题的用户影响力分析算法,通过真实新浪微博数据验证和与其他同类经典算法对比,测试了本文算法的可行性、高效性和准确性。本文提出的算法,可以用于解决大规模微博话题用户中的关键用户识别问题,对社交网络中解决信息传播和舆情监控等问题具有支撑作用。

本文仅在用户行为时间性和用户与微博话题间关联度基础上提出挖掘微博话题内有影响力用户算法,进一步的工作可以基于话题传播网络,将微博用户影响力与微博情感结合考虑,挖掘话题传播过程中高影响力用户的情感极性,更有效地监控舆情。

参考文献 (References)

[1] 赵姝,刘晓曼,段震,等.社交关系挖掘研究综述[J].计算机学报,2017,40(3):535-555.(ZHAO S, LIU X M, DUAN Z, et al. Review of social relationship mining research [J]. Chinese Journal of Computers, 2017, 40(3):535-555.)

[2] 韩忠明,陈炎,刘雯,等.社会网络节点影响力分析研究[J].软件学报,2017,28(1):84-104.(HAN Z M, CHEN Y, LIU W, et al. Analysis of influence of social network nodes [J]. Journal of Software, 2017, 28(1): 84-104.)

[3] 吴信东,李毅,李磊.在线社交网络影响力分析[J].计算机学报,2014,37(4):735-752.(WU X D, LI Y, LI L. Analysis of influence of online social networking [J]. Chinese Journal of Computers, 2014,37(4):735-752.)

[4] LUARN P, YANG J C, CHIU Y P. The network effect on information dissemination on social network sites [J]. Computers in Human Behavior, 2014, 37(37):1-8.

[5] CHEN Z, TAYLOR K. Modeling the spread of influence for independent cascade diffusion process in social networks[C]// Proceedings of the 2017 International Conference on Distributed Computing Systems Workshops. Piscataway, NJ: IEEE, 2017:151-156.

[6] WENG J, LIM E P, JIANG J, et al. TwitterRank: finding topic-sensitive influential twitterers [C]// ACM 2010: Proceedings of the 2010 ACM International Conference on Web Search and Data Mining. New York: ACM, 2010:261-270.

[7] LI Z, LI M, JI W. Modelling the public opinion transmission on social networks under opinion leaders [C]// AEECE 2017: Proceedings of the 2017 3rd International Conference on Advances in Energy, Environment and Chemical Engineering. Bristol: IOP Publishing, 2017:012215.

[8] 毛佳昕,刘奕群,张敏,等.基于用户行为的微博用户社会影响力分析[J].计算机学报,2014,37(4):791-800.(MAO J X, LIU Y Q, ZHANG M, et al. Analysis of social influence of Weibo users based on user behavior [J]. Chinese Journal of Computers, 2014,37(4):791-800.)

[9] 廖祥文,张凌鹰,魏晶晶,等.融合时间特征的社交媒介用户影响力分析[J].山东大学学报(理学版),2018,53(3):1-12.(LIAO X W, ZHANG L Y, WEI J J, et al. An analysis of social media users influence on the integration of time characteristics [J]. Journal of Shandong University (Natural Science), 2018, 53(3):1-12.)

[10] SU S, WANG Y, ZHANG Z, et al. Identifying and tracking topic-level influencers in the microblog streams [J]. Machine Learning, 2017, 107(3): 551-578.

[11] 周东浩,韩文报.DiffRank:一种新型社会网络信息传播检测算法[J].计算机学报,2014,37(4):884-893.(ZHOU D H, HAN W B. DiffRank: a new social network information propagation detection algorithm [J]. Chinese Journal of Computers, 2014,37(4): 884-893.)

[12] 祝升,周斌,朱湘.综合用户相似性与话题时效性的影响力用户发现算法[J].山东大学学报(理学版),2016,51(9):113-120.(ZHU S, ZHOU B, ZHU X. User discovery algorithm based on comprehensive user similarity and topic time effectiveness[J]. Journal of Shandong University (Natural Science), 2016, 51(9):113-120.)

[13] WU J, SHA Y, LI R, et al. Identification of influential users based on topic-behavior influence tree in social networks[C]// Proceedings of the 6th Conference on Nature Language Processing and Chinese Computing. Dalian: [s.n.], 2017: 477-489.

[14] GOTEZ M, LESKOVEC J, MCGLOHOM M, et al. Modeling blog dynamics[C]// Proceedings of the 2009 International Conference on Weblogs and Social Media. Menlo Park, CA: AAAI Press, 2009: 26-33.

[15] LIN W, PANG X, WAN B, et al. MR-LDA: an efficient topic model for classification of short text in big social data [J]. International Journal of Grid and High Performance Computing, 2016, 8(4): 100-113.

[16] HU M, HANG G, ZHOU J, et al. A method for measuring social influence of micro-blog based on user operations[C]// Proceedings of the 2017 International Conference information Technology and Applications. Sydney: ICITA, 2017: 82-87.

[17] 丁兆云,周斌,賈焰,等.微博中基于多关系网络的话题层次影响力分析[J].计算机研究与发展,2013,50(10):2155-2175.(DING Z Y, ZHOU B, JIA Y, et al. Analysis of topic influence on multi-relational networks in Weibo[J]. Journal of Computer Research and Development, 2013, 50(10):2155-2175.)

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!