时间:2024-05-04
金敏玉 周振勇
【摘要】文章总结了资源需求的两类基本模型,对BSS各子系统进行了模型归类;并在综合考虑系统的稳定性、安全性、发展速度以及建设周期等因素的基础上,给出了系统负载阈值和预警值的设定方法和参考数据。
【关键词】BSS 资源需求模型 阈值 预警值
1 引言
近十年来,中国电信企业BSS系统超常规发展,如何准确估算硬件资源需求一直困扰着规划设计人员。同时,各运营商BSS系统的建设管理工作逐步由粗放转向精细,对资源需求预测的准确性及投资的有效性要求大大提高。BSS系统规划设计人员不得不面对很多棘手的问题,如:
◆系统流程这么复杂,怎样才能理清业务指标和硬件能力之间的关系?
◆系统负载波动这么大,如何确定利用率?
◆系统发展这么快,怎么选择启动建设的时机?配置多少冗余才能保证系统运行安全?
本文将给出一般性方法,以期有效解决硬件资源需求估算中的这几个关键问题。
2 基本模型分析
BSS系统日趋复杂,一个省级系统就可能包括数十个子系统、上千个功能点。对如此庞大的系统直接进行资源需求分析会非常困难,如果能将系统分类,就会大大降低分析的难度。我们通过对不同运营商BSS系统的长期监测、分析,总结出两类基本的业务处理模型。
(1)OLTP类型系统
定义:联机事务处理系统,典型系统如营业系统。
特征:业务逐笔提交,实时性高。
OLTP类型系统的负荷与业务量的关联如图1所示。
图1是某运营商营业系统中间件服务器的一组实测数据及对应时期的工单量数据,不难看出OLTP类型的系统负载变化直接反映了业务量的变化情况。可以推定OLTP类型系统的负荷增长来源于与之相关的业务量的增长,并且这种关联近似为简单的一次函数关系。因此,只要分析业务量的增长趋势就可以直接推导出系统的负载变化,即
资源需求量(负荷)Y=系数a*业务量X+常数项c
但是,从更长时间的监测数据来看,a和c都不是恒定的,因为系统一直在建设发展,单笔业务的处理复杂度和处理效率都在变化。我们可以将OLTP类型的资源需求与处理的业务量之间的函数关系调整为:
Y=f(a)X+f(c)
其中:
Y表示资源需求;
X表示业务量,比如营业系统的工单量;
f(a)反映了系统处理效率以及复杂度的变动;
f(c)则反映了非线性相关的其他业务(比如系统监控)处理能力的需求变动。
f(a)、f(c)在短期内是常量,长期看却是逐步变化的。
就某一特定系统而言,可以通过历史数据推定f(a)和f(c)。其中,f(a)可以简化为按照年度变化的一个系数,例如1.1(n-2008),“1.1”表示忙时单笔业务的资源占用系数,不同的系统取值不同;“n”表示资源估算的目标年份,如果需要估算2010年的资源需求,则n为2010,以此类推;“2008”表示基准年,如果以2007年的数据作为基准,则调整为2007,以此类推。相对而言,f(c)的变化要小很多,并且绝大部分系统中其所占比重也很小,可直接取定为一个常数甚至忽略。
(2)批处理类型系统
定义:批量业务处理系统,典型系统如账务处理系统。
特征:非实时性业务为主,通常要求在规定的时间内处理完成,如月末月初的批量停开机、月底的集中出账等。批处理的时间往往相对固定,并且系统负载在处理期间处于高位运行。
批处理类型系统的负荷变化如图2所示:
图2为某运营商账务处理系统的实测数据,可以看出批处理类型系统负载通常呈现突然的变化,进程启动时负荷急速上升,进程结束负荷快速下降。这种变化规律短期看缺乏与业务量之间的有效关联,分析比较困难。但从长期看依然和业务量有直接的关系。比如账务处理系统需要完成用户的出账工作,如果每次出账完成的时间不变,那么用户数和人均账单的增长必然会引起系统负荷的上升。因此,批处理类型业务依然可以通过分析相关的业务量的增长间接分析系统负荷的增长。其基本函数与OLTP类型相似,但是增加了一个时间参数f(t):
Y=f(a)X/f(t)+f(c)
其中:
Y表示资源需求;
X表示业务量;
f(a)反映了系统处理效率、复杂度的变动;
f(t)反映了限定完成的时间的变动;
f(c)则反映了非线性相关的其他业务处理能力的需求变动。
f(a)、f(t)、f(c)在短期内是常量,长期看却是逐步变化的。
f(t)是指批处理限定完成的时间,如果保持不变,那么批处理类型系统和OLTP基本相同。但是如果f(t)发生了变化,那么资源需求Y会受到很大的影响。假设限定处理完成的时间缩短一半,那么资源需求就会增加一倍。实际上,对于大部分生产系统而言,f(t)的取定不是数据分析的结果,而是业务开展的实际需求,这个值通常都会在业务规范中予以明确。
(3)BSS系统模型归类
分析了两类基本模型后,需要将BSS系统进行模型归类,但实际上大部分系统都是两类基本模型的“复合体”,如表1所示:
注:不同运营商在功能设置上存在一定差异,因此表中分类仅供参考。
“复合体”资源需求的变化规律比单一的应用类型复杂,但通过分析会发现,实际情况要容易处理得多。因为系统的利用率指标通常只是指忙时的负荷,以OLTP为主的系统,都会把批处理进程放到闲时进行处理。因此,此类系统在资源估算时只需要考虑OLTP部分,融合计费就是一个典型例子。如果是以批处理为主的业务类型,在批处理运行期间OLTP部分资源需求所占比重往往很小,几乎可以忽略,因此也只需要估算批处理部分即可。
3 阈值和预警值的设定
了解了系统处理模型之后,还没有完成资源需求的估算。各系统的资源利用率都不可能达到100%,必须有一个合理的上限,并且何时启动项目建设也是一个问题。这里首先引入两个定义:
◆阈值:忙时系统的资源利用率门限值。
◆预警值:系统发展扩容需求时的利用率门限值。
阈值与预警值定义类似,但用处不同。阈值是系统处于最佳状态的利用率上限,预警值则是系统发起扩容需求的触发值,主要用于确保系统在利用率到达阈值前有足够的建设时间。因此预警值通常明显小于阈值。关于利用率门限值,还需要补充说明:利用率门限值不应包括极端峰值。因为极端峰值存在很大的随机性,不能准确体现系统运行的状态,实际处理时建议去除极端峰值。每日超门限值的时间累计不应超过0.5小时(如果每5分钟进行一次取样,那么门限值应该是每日的第六峰值)。
3.1 阈值的设定
通常情况下,系统建设都会预留一定的资源以确保系统运行在最佳状态,同时为应对突发业务、到货周期等不确定因素,也需要引入阈值。阈值的设定需要平衡两方面因素:
(1)资源利用率:阈值设置偏低(严格),会导致资源利用率降低,使投资增加。
(2)稳定性和响应速度:阈值设置偏高(宽松),可能导致系统压力过大、系统反应变慢,增加系统故障风险。统计数据表明,IT系统50%以上的故障是由系统负载过高(超过70%)触发的。
综合分析两方面的因素并参考国内各省市实际使用的阈值数据,我们给出如下建议,见表2:
说明:
(1)核心生产系统指影响范围大、用户感知明显的系统。此类系统一旦出现故障,日常营运工作很多便不能正常进行,引发大量的用户投诉,并可能导致重要数据丢失。例如:营业、计费、账务等。
(2)其他系统是指非生产系统或影响小的生产系统。此类系统出现故障后,不明显影响日常运营工作,不会被用户察觉或是用户觉得无所谓,也不会导致重要数据的丢失。例如:统计分析系统等。
3.2 预警值的设定
预警值的设定取决于两个主要因素:
(1)发起需求到设备上线的建设周期
不同运营商、不同系统的建设周期不同,通常情况下,IT系统的建设周期超过6个月。
(2)系统所处的生命周期阶段及负载增长的速度
一个系统发展将经历起步、成长、成熟、衰退四个主要阶段,预警值主要适用于成长期。现阶段,国内各省市运营商IT支撑系统基本都处于成长期,利用率增加很快,部分系统6个月增幅可达到20%以上。
这里举例来说明预警值的计算方法。假定某个系统建设周期为6个月,通过预测分析系统负载6个月的增幅为20%,那么预警值就等于阈值减去20%。各个系统可以通过类似的简单方式确定预警值,其关键是要估算建设周期内系统负荷的增长率。
4 结束语
BSS系统作为核心业务支撑平台和直接面向客户的窗口,在电信企业的生产系统中扮演越来越重要的角色。在电信企业利润普遍下降的情况下,如何在保障系统的稳定性、安全性的前提下,提高投资的有效性成为关注的焦点。本文通过分析BSS系统的业务特征,确定了两类基本资源需求模型,为提高系统资源需求估算准确性和提升投资有效性提供了参考;同时,通过设定BSS系统的阈值和预警值,保证了系统在建设、维护期间的稳定性和安全性。 ★
【作者简介】
金敏玉:工程师,毕业于浙江大学信息与电子技术专业,现任职于华信邮电咨询设计研究院有限公司网络规划研究院,主要从事信息系统的规划与设计,负责并参与的多个信息系统规划和工程项目设计荣获部级优秀咨询成果奖和优秀设计奖。
周振勇:高级工程师,博士,毕业于浙江大学计算机科学与技术专业,现任职于华信邮电咨询设计研究院有限公司网络规划研究院,主要从事数据通信网络及信息系统的规划与设计工作。负责并参与的多个工程项目荣获全国优秀咨询成果奖和工信部部级优秀设计奖,其中“中国电信CN2网络工程可行性研究报告”荣获全国优秀咨询成果一等奖,“中国电信CN2网络工程设计”获国家设计金奖。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!