当前位置:首页 期刊杂志

基于最大熵原理的图书馆流通借阅统计分析

时间:2024-07-06

尹晓旭 王 彦

(北京航空航天大学图书馆,北京 100191)

图书馆藏书流通是图书馆工作的重要组成部分,馆藏图书的流通统计一直是图书馆统计工作的主要对象。目前已有的馆藏图书流通统计研究提出了多种分析方法[1-3],主要采用的方法是:获取样本、对样本数据进行处理、假设分布型式、估计假设分布参数、检验假设分布。王健、蔡智澄等学者[1,2],就图书馆流通读者统计数据引入概率统计方法,阐述了数理统计的数据分析方法和步骤,以上方法都是基于最小方差的统计分析方法。

笔者以本馆2009年上半年航空航天类图书借阅量为样本,运用统计学原理,引入熵的概念,采用基于最大熵原理的方法分析流通借阅数据,以期探索出一种图书馆流通统计的新方法。

1 熵的概念及计算方法

传统的随机分布统计大多针对高斯正态分布,仅考虑其期望和方差。然而,非高斯分布广泛存在,期望和方差已不能完全反映其特性。作为信息论、通信理论和热力学理论的一个基本概念,熵是一种描述随机变量的随机性或者不确定性的度量。

香农(Shannon CE)认为,信息是人们对事物了解的不确定性的消除或减少。1948年,他把玻尔兹曼熵的概念引入到信息论中,把不确定的程度称为信息熵。信息熵是描述事物无序性的参数,熵越大则无序性越强。

Jaynes证明,对随机事件的所有相容的预测(相容预测是指符合已知的某些参数与随机事件相关条件的某种对随机事件分布的预测)中,熵最大的预测出现的概率占绝对优势。

Tribus证明,正态分布、伽玛分布、指数分布等都是最大熵原理的特殊情况。最大熵统计建模是以最大熵理论为基础的一种选择模型的方法,即从符合条件的分布中选择熵最大的分布作为最优的分布。

样本容量为观测的总天数n,对n个样本进行分组,组数为k。样本值落入第i个区间的个数称为频数。由频数与概率的关系可知,样本值落入第i个区间内的频数近似等于随机变量X落入第i个区间内的概率。

随机事件的信息熵[4]:设随机变量 ζ,它有 A1,A2,……,An共n种可能的结局,每个结局出现的概率分为p1,p2,……,pn,则其不确定程度,即信息熵为:

一个系统的熵就是它的无组织程度的度量,熵越大,事件越不确定,熵等于0,事件是确定的。基于熵的定义,可以直观地说明最大熵分布原理。最小偏见的概率分布是这样一种分布,使其熵在根据已知样本数据信息的一些约束条件下达到最大值。由概率分布密度函数的规范性公理,以及n阶原点矩的定义,可得如下优化算法:

其中,(fx)为分布密度函数,R为积分限,μn为n阶原点矩。最大熵概率分布函数为原点矩为这实际上是一个非线性优化问题。

利用最优化定理,拉格郎日乘子参数 λ(nn=0,1,…,N)满足如下关系式:

由样本值求解原点矩μn,求解λn(n=1,…,N)的联立方程组。则所研究的问题可转化为如下优化算法[5]:

算法实现流程:

①根据已知样本数据,计算各阶原点矩

②选择积分限为:R

③建立优化模型式

④调用优化算法子程序

⑤判断,若满足优化条件转⑦;否则转⑥

⑥用另一初始点重新计算,转④

⑦输出参数λn(n=0,1,…,N)

2 借阅量统计分析方法

北京航空航天大学是一所具有航空航天特色和工程技术优势的多学科、开放式、研究性大学,图书馆在藏书建设上注重航空航天特色,汇集了大量关于航空航天事业发展、航空航天工程技术等方面的图书资料。航空航天类图书的利用率和流通情况可以反映出北航主要读者群对图书馆的实际利用情况。因此,该类图书的借阅量具有一定的代表性。笔者以2009年2月14日至2009年7月16日时间区间内航空航天类图书每天的借阅量为样本进行统计分析。

在此区间,除公共节假日以及其他情况的闭馆外,借还台总共开放134天。每天的借出量最大值为163本,最小值为15本。选择采样区间(8,170)作为样本的取值区间,将其等分为18个小区间,求出频数,列出频数分布表1。

表1 流通借阅频次分布表

由优化算法可给出随机变量的分布函数为:

对于所求得的随机变量分布函数,可以由期望的借阅量x求出其发生的频率f(x)。

根据表1数据画出频率的柱状图(见图1),横坐标表示借阅数据分组排序,纵坐标是借阅频数,图中曲线是最大熵拟合分布曲线。

由图1可见,除第3组数据外,该分布较好地拟合了样本值。这说明流通服务的人员和设备配置比较科学合理地满足了师生的需求。至于第3组存在较大拟合误差的原因,经过调查得知,处于该组借阅数据的日期,多是节假日前后,读者借阅行为与平日有较大不同。

由此可见,最大熵方法可以为图书馆合理配置人员与设备、提高图书馆流通的管理水平提供科学依据,从而为广大师生提供更优质的服务。

图1 流通借阅的最大熵统计模型

3 结论

利用最大熵优化所得的概率分布函数能够表达不同统计分布形式的随机变量的统计性,具有广泛的适应性[6]。在图书馆流通统计中与已有的方法相比,具有适用范围广、算法简便的特点,可为流通统计提供一种有效的方法。同时,这种方法可以推广应用到图书馆的其他统计工作中。计算中也发现,使用最大熵方法时也需注意以下问题:样本量选取不宜太小,太小将不能完全反映样本各阶矩的特性;积分限选取比较重要;初始值选择不合适将影响算法的收敛性和收敛速度。此外,如何考虑一些不确定因素、边界条件不稳定等情况对借阅量统计分析的影响,也是需要研究的课题。

[1] 王健.高校图书馆流通系统读者分布分析及假设检验[J].情报探索,2008(12):100-102.

[2] 蔡智澄,张根彬.图书馆流通系统读者分布密度及回归分析.情报业务研究,2004(3):114-115.

[3] 武晋媛.以流通统计分析验证馆藏结构的合理性[J].晋图学刊,2009(3):57-59.

[4] 吴乃龙,袁素云.最大熵方法.长沙:湖南科学技术出版社,1991.

[5] 俞礼军,严海,严宝杰.最大熵原理在交通流统计分布模型中的应用[J].交通运输工程学报,2001(3):91-94.

[6] 高翔,郑建祥.基于最大熵概念的复杂随机变量统计模型[J].农业机械学报,2008(2):43-46.尹晓旭 女,1961年生。馆员,主要研究方向:图书馆学、统计学。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!