时间:2024-05-04
马逸晗 张宁
摘 要:为了研究期刊文献引用数量随时间推移的变化规律,选取上海理工大学学报1998-2016年刊登的文章及引用文献作为数据样本,经过数据筛选和整理,形成新的数据样本,随后按照引用关系,将刊登文章和引用文献形成一个新的引文网络,并分析该网络的静态属性,绘制幂率分布图,发现该网络呈明显的幂率分布现象。随后运用KS统计与极大似然估计拟合幂率分布X-min值和a指数进行幂率分布检验,结果证明该网络的文献引用频次服从幂率分布。
关键词:复杂网络;幂率分布;K-S检验;极大似然估计
DOI:10.11907/rjdk.172846
中图分类号:TP391
文献标识码:A 文章编号:1672-7800(2018)006-0181-04
Abstract:In order to study the change rules over time about variation of citation numbers of journal articles, this paper selected the published articles and references from Journal of Shanghai University of Science and Technology from 1998 to 2016 as data samples.New data samples were formed after data screening and collocation. Published articles and cited documents were transformed into a new citation network according to the reference relationship. The static properties of network were analyzed for making the power-law distribution map. It was found that the network showed a clear power-law distribution. We employed KS statistics and maximum likelihood estimation to fit the power distribution X-min and a exponent for power distribution test. The results showed that the citation frequency of the network followed a power-law distribution.
Key Words:complex network; power-law; distribution; K-S test; maximum likelihood estimation
0 引言
复杂性科学是21世纪的新兴学科。此前,并未对复杂系统进行系统、深入的研究,因为复杂系统涉及学科众多,需要采用合理的方法解决此类问题。复杂网络和复杂系统都是探索整体规律,两者之间有着紧密联系。因此,复杂网络成为研究复杂系统的重要方法之一。
特别是研究复杂系统时,假若在还原论基础上建立定量模型十分困难,但是建立网络模型十分容易。例如随机网络,其模型为n个定点,每一对定点的连接概率为P[1],以及Watts和Strogatz[2]提出的重要网络——小世界网。该模型是对规则网络中的边略微进行改动,随机增加与删减几条边,可以使小世界网介于规则网与随机网之间,因而更接近现实世界,从而具有更重要的研究价值。
对于复杂系统的研究需要探索其整体规律,因此需要注重定性研究。定性研究关注的要点是整体的概括而不是局部的精确。建立网络模型后,即可对网络静态特性展开研究,如聚集系数、节点度分布、平均路径长度等,并分析网络动态过程,以上反映的都是系统整体规律。
本文研究的期刊文献引用网络,是通过文献之间引用和被引用关系构成的集合。构成文献的类型有多种,包括科技期刊、专业丛书、会议论文、科技报告等,这些文献及其引用文献都反映了某一学科领域的发展以及该学科与其它学科间的交互关系。随着科技的发展,文献数量大幅增加,新的文章引用已发表的文章及相关资料,通过相互之间的引用关系,构成一个规模庞大的复杂网络。由于研究方法十分灵活,一种研究方法可能运用于多个领域,该网络可以对不同学科进行交叉描述,所以是十分重要的研究介质。
从文献引用网络节点和边的含义看,可看作衍生的社会网络,该网络中文献代表节点,引用关系用连边表示。但事实上该网络与社会网络有很大不同,社会网络中关系变化迅速,新节點不断出现,旧节点不断消亡。而文献引用网络中节点稳固,引用关系确定,一旦确定则无法随意删除和修改。从时间先后顺序看,只能是发表时间在后的文献引用发表时间在前的文献。文献与文献之间的引用关系不仅包含了二者之间的知识传递,更包含了作者、时间以及文献价值等多种信息。
将文献引用网络与复杂网络研究相结合,文献计量学中提出普赖斯定律的普赖斯(Price),通过科学论文之间的引证关系描绘了科学论文的网络图,并对引文网络中的出入度分布进行研究;随后,Barabasi等[3]在《Science》上提出了无标度网络模型,提出复杂网络中的度分布呈明显的幂率分布。对于复杂网络的研究,涉及领域越来越广,而对于幂率拟合还停留在图形法,直到Clauset[4]和Barabasi[5]提出基于极大似然估计的幂率估计方法,并用KS统计对结果进行检验。目前国内对于引文网络的研究也有许多新进展。如吴海峰等[6]对当前引文网络的现状及发展进行了综述性介绍;王亮等[7]从引文网络视角对知识流动相关概念进行剖析,总结出知识流动类型和要素;肖雪等[8]以期刊文献为研究对象,利用统计分析、信息计量等方法,揭示该领域的知识发展脉络和演进轨迹;杨波等[9]提出基于最大似然估计幂律分布的标度指数估计方法;尹丽春[10]从宏观、中观和微观3个层面对科学引文网络进行研究,探讨网络结构及其对知识流动传播产生的影响。
随着网络技术的发展,可供参考的科技文献越来越多。学者发表论文时,参考论文数量有没有发生明显变化?引用文献频次是否服从复杂网络中的幂率分布现象?为了解释上述现象并发现其分布规律,本文选取上海理工大学学报1998-2016年刊登的文章及引用文献为数据样本,以每篇文章的引用文献频次为研究对象,研究其分布规律。
1 研究方法
通过研究考证,现实世界中,很多网络都服从幂率分布。对幂率分布的最初研究中提出的定律是Pareto分布,后期又出现了长尾理论[11],用于描述小事件普遍、大事件稀少的概率分布网络。幂率分布的表达公式为:
通过公式(2)可以发现,X的取值是整个公式的关键,因为在实际网络中,并不是所有数据都满足X值服从幂率分布,实证数据其实是对于X的某个值服从幂率分布,这里的X值记为X-min。由于X-min的存在,选择的X-min大小将直接影响所求a的值,从而影响统计误差。因此,根据Clauset[4]在2009年发表的文章,本文将根据其提供的方法估计X-min,该方法既适用于离散数据,也可运用于连续数据。对于不服从正态分布的数据而言,常用的是K-S(Kolmogorov-Smirnov)检验方法,其用于计算实证数据的累积概率分布和拟合模型差值的最大值:
其中,F-n(x)是数据x最小值为X-min时的累积概率分布,F-0(x)是最拟合数据幂率分布的累积概率分布。所以首先需要对样本进行估计,得出最拟合数据,这里运用Cross-Validation[12-15]方法进行估计推断。
其次,需要对所求的a值进行标准化,传统研究方法是假设条件下的最小二乘估计法,这里选择在数据集有限的条件下,采用极大似然法估计服从幂率分布的参数a[4],参数方程为:
所以根据对K-S(Kolmogorov-Smirnov)检验的描述,可以通过最拟合数据得出的P值判断假设的合理性。对于一组数据,假设它们服从幂率分布,通过最拟合数据可以得出拟合数据与理论X-min分布的距离。由实际数据和理论X-min建立的模型为N,该模型会有n组数据产生,若实际数据和理论X-min模型的距离比模型N的距离大,这样的数据有m组,则mn值记为p,称为p-值。若p-值较大,则实际数据和理论模型的差异是由统计误差引起的;若p-值较小,理论模型的合理性则会受到质疑。一般若p值≤0.1,可以判断实际数据并不服从幂率分布。
2 实证数据研究与分析
2.1 数据来源及处理
本文以上海理工大学学报1998-2016年刊登的文章及其引用文献作为数据来源,由于原始数据来源是PDF格式的文章,需要进行人工摘录、辨别和汇总,所以需要进行大量的数据分析和处理。首先需要将所刊登的文章及文献都转化成固定的检索文献格式,便于分类查找;然后按照一篇被引用文献对应一篇刊载文章的形式进行摘抄记录,每条记录的格式为前部分是刊登文章的引用文献格式,用分隔符分开,后面是引用文献的文献格式,即若一篇文章有30篇引用文献,则应有30条记录;记录完成后,还需对这些数据进行去重及去伪。因为所有记录都运用Java语言进行编号整理,文章有30篇引用文献,在记录时有60条,但实际上只有31条有效,所以需要对数据进行去重处理。此外,在早年的上海理工大学学报中有社科类专题,但是此类文章对研究会起干扰作用,所以需要将该专题的文章去除,此即去伪工作。经过上述操作步骤后,得到的数据才是较为准确的。经统计,上海理工大学学报1998-2016年刊登文章及引用文献共计20 854条,其中刊载文章2 284篇,引用文献数量为18 621篇,二者相加的数量超过了文章及文献数量总和,是由于时间点靠后的刊载文章引用了时间点在前的文章,但所占比重较小,可忽略不计。通过对这些数据的分析,可以发现文章引用频次是否服从幂率分布。
统计分析结果汇总如表1所示,发现其中度为0的点占据了绝大多数,约为89.3%,因为在该复杂网络中,每篇文章都作為一个节点,但是文章引用的文献数量远远多于文章本身,往往为文章数量的几十甚至上百倍。经分析发现,文章引用频次主要集中在2~16条。对于引用频次极大与极小的文章也进行了具体分析,引用频次过大的文章主要是一些综述类文章,主要介绍学科发展现状及未来发展前景,而一些引用频次较小的文章主要是各位学者的心得体会。
为了更好地研究该网络,经过统计分析,将网络中度为0的节点去除,由引用频次为1~160的节点构成一个新网络。发现引用频次在2~16的节点占整个网络节点的86.5%,但其节点频次仅占整体引用频次个数的28.3%,这种文献频次分布规律与布拉德福期刊聚散分布规律、加菲尔德的文献集中规律大体一致。
2.2 数据可视化及幂率分布检验
为了验证前文的猜想,判断引用文献数目是否服从幂率分布。本文参考Clauset文章中的方法,应用Python统计分析软件,得出引用频次幂率分布图如图2所示。
通常判断一个分布是否服从幂率分布的方法是通过图形法,即观察分布图的形状。幂率分布在横坐标和纵坐标都是对数刻度的双对数坐标系中显示为一条直线,而指数分布在纵坐标为对数刻度的单对数坐标系中显示为一条直线[16]。如图2所示,横坐标代表引用文献数目频次,纵坐标代表Pr[X≥x]。通过对X和Y轴进行对数缩放后观察图形,有着很明显的直线趋势,图中已作出拟合直线,并且P值大于0.1。综上述,引用文献频次可以假定服从幂率分布。拟合结果如表2所示。
其中,n表示引用文献数目频次,X表示引用频次平均值,σ表示引用频次标准差,X-max表示引用频次最大值,X-min表示估计X最小值,a表示参数a估值,N-e表示引用频次估值,p是判断数据是否服从幂率分布的重要依据。
3 结语
为了研究期刊文献引用数量随时间变化以及技术变革的变化规律,本文选取上海理工大学学报1998-2016年的刊发及引用文献作为数据样本,通过研究期刊论文引用文献的频次分布规律,发现其构成网络呈明显的幂率分布现象,并且文献引用频次分布规律与布拉德福期刊聚散分布规律、加菲尔德文献集中规律大体一致,说明大多数作者投稿时,文章中引用文献数目具有一定规律性。同时运用KS统计和极大似然估计拟合幂率分布的X-min值和a指数进行幂率分布检验,结果证明该网络的论文引用频次在一定程度上服从幂率分布。此外,对于X-min值的形成作更深入的探究,将对未来引文网络研究有着重要意义。
参考文献:
[1] NEWMANMEJ. The structure and function of complex networds[J].SLAM Review,2003,45(2):167-256.
[2] WATTTS D J ,STROGATZ SH.Collective dynamics of “small-world”networds[J].Nature,1998,393:440-442.
[3] BARABASI A L,LBERT R.Emergenceof scaling in random networks[J].Sciences,1999,286:509512.
[4] CLAUSET A,SHALIZI C R,NEWMAN M E J.Power-law distributions in empirical data[J].SIAM review,2009,51(4):661-703.
[5] BARABASI AL,ALBERT R,JEONG H. Mean-field theory for scale -free random networks[J].Physica, 1999,272:173-187.
[6] 吴海峰,孙一鸣.引文网络的研究现状及其发展综述[J].计算机应用与软件,2012,29(2):164-168.
[7] 王亮,张庆普.基于引文网络的知识流动过程与机制研究[J].哈尔滨工业大学学报:社会科学版,2014,16(1):110-116.
[8] 肖雪,陈云伟,邓勇.引文网络的社团划分研究进展综述[J].情报杂志,2016,35(4):125-130.
[9] 杨波,陈忠,段文奇.复杂网络幂律函数标度指数的估计与检验[J].上海交通大学学报,2007(7):1066-1068,1073.
[10] 尹丽春.科学学引文网络的结构研究[D].大连:大连理工大学,2006.
[11] [美] 克里斯·安德森.长尾理论[M].乔江涛,译.北京:中信出版社,2006.
[12] 吴德胜,梁樑.基于V-fold Cross-validation和Elman神经网络的信用评价研究[J].系统工程理论与实践,2004,24(4):92-97.
[13] REFAEILZADEH P,TANG L,LIU H.Cross-validation,in encyclopedia of database systems[M].New York:Springer US,2009:532-538.
[14] CARLOS A,LPEZ SNCHEZ.A height-diameter model for pinusradiata[D].Don in Galicia(Northwest Spain):Annual of Forest Science,2003,60:237-245.
[15] BOYCE M S,VERNIER P R,NIELSEN S E,et al.Evaluating resource selection functions[J].Ecological Modeling,2002,157:281-300.
[16] 刘臣,单伟,于晶.中国学科知识网络的演化研究——基于1981-2010年引文数据[J].系统工程理论与实践,2013,33(2):431-436.
(責任编辑:黄 健)
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!