当前位置:首页 期刊杂志

基于全业务综合网管的网络质量监控体系

时间:2024-07-28

[李忠谕 谭增辉]

1 引言

在中国“一带一路”战略的带领下,电信运营商在海外迎来网络和业务的快速发展,各专业网管各自开发迭代的模式已不能满足目前业务的迅速扩展,急需快速同步建设覆盖各业务网,包括核心网、承载网、接入网、IT系统和业务平台等多域的网络管理和监控体系,为内部各部门提供必要的集中监控和操作维护管理手段,实现网络监控工作能覆盖全网,在第一时间掌握网络整体状况,并进行快速响应和资源调度,实现全网的统一管理,统一维护和智能化运维。

2 全专业监控体系设计

2.1 概要定义

电信网络按照业务类型划分可以划分为移动网、电话网、数据网等[1],从功能上可以划分成核心网、承载网、和接入网,其中核心网包括电路域、分组域和IMS域,负责数据的处理、交换和分发等;接入网是负责用户业务的接入,主要包括无线接入网(如基站)和固定接入网(如PON),承载网是传输业务数据的网络,通常是融合了SDH/MSTP、PTN、IPRAN、WDM/OTN等多种传输技术。在实际运营中,还需配套机房资源和相关的IT支撑系统,由此开展网络运营,电信网络划分示意图如图1所示。

图1 电信网络划分示意图

传统的运营工作开展过程中,每个专业需要配套对应的网管或平台支撑,各自迭代开发,这些网络平台采集专业内的数据纳管,再进行监控和管理。这种方式无法有效同步快速地建立起全业务的监控体系,为了满足海外业务的快速发展,需要建立起覆盖全业务的综合网管。

2.2 监控体系设计

综合网管实现对多个专业域的统一管理。通过对全部专业设备的资源纳管,告警信息和性能数据的统一采集,实现跨专业数据关联分析,全专业集中管理、集中监控、集中运维。综合网管在采集层统一标准化南向采集数据,经过处理层对数据进行整形分析,在应用层提供系统功能的运作和呈现,并通过北向接口对外输出,系统架构如图2所示。

基于全业务综合网管的网络监控体系方案主要包括3个方面。

(1)全专业资源纳管,实现网络资源集中管理

综合网管以最大化转化现有系统能力为基础,充分应用前期网络建设积累的软件能力,对于已有专业网管的专业则对接专业网管,若尚未建设专业网管的专业则由综合网管直接直连设备。综合网管通过SNMP直连设备或通过EMS对接的方式,对电信业务所有设备资源的纳管,包括设备资源信息以及设备连接关系。

综合网管纳管的资源包括各业务网,覆盖核心网、承载网、接入网、IT系统和业务平台等相关的设备。综合网管以统一的资源模型对所有资源进行纳管,直连设备以分钟级频率采集同步资源数据,对接EMS的数据以天频率同步数据实现对全业务设备的数据采集和更新,综合网管作为整合现有专业网管的大网管,以无线网为例,包括优网网管(c网无线和c网核心网)、华为U2000(4G无线和4G核心网)、中创信令系统(信令数据),以及KQI系统(移动感知)和SCP系统等业务分析系统等。通过直连设备和对接EMS两种方式,综合网管纳管了全网设备,具备跨专业关联分析和呈现的能力,实现具备对全专业资源的动态分析和管理能力。

(2)告警与性能监控,实现网络质量集中管理

综合网管通过直连设备和对接EMS的方式采集告警和性能指标数,按照标准化协议及技术规范定义,对采集的数据进行规范适配,实现有效识别和处理,对于符合告警条件的数据,则按照综合网管标准化告警模板生成相关的告警,综合网管告警的数据来源包括三大类。

① 设备告警,综合网管通过实时接收设备的syslog和trap报文,匹配设置的规则生成的原始告警,并对原始告警进行分类归并等处理,生成告警。

② 性能越限告警,综合网管通过对采集到的性能数据进行跟踪分析后产生的告警,当采集的性能数据超过设置的阈值后产生此告警。性能指标包括网络指标(比如丢包率、可用性、可达、抖动、时延等)、网元运行基础指标(比如Linux服务器:文件系统利用率、内存利用率、CPU利用率等)以及业务平台相关的业务指标。

③ EMS告警,综合网管通过北向接口接收EMS的告警信息。

告警之间具备关联关系,在接收到大量告警时,为提高监控效率,提高告警信息的有效性,对告警进行关联压缩处理[2]。

① 同一区域的相同类型告警具有关联性,典型的场景比如同一区域同一时间段内不同设备出现的掉电告警,可以压缩成一个告警,并做提示。

② 同一对象的相同类型告警具有关联性,典型的场景比如某台设备在一定时间范围内重复出现的告警,可以压缩成一个告警,并做重复告警的提示。

③ 父子告警关联,当同一时间段内接收或分析到不同层级的告警时,以低层级告警向高层级告警压缩为原则。典型的场景比如PON网络,PON口告警,下挂的ONU均会出现ONU离线告警,那么此时将ONU告警均压缩到PON口告警。

④ 跨专业关联,综合网管具备全专业的设备和连接关系数据,当出现告警对象之间具有连接或承载关系时,将告警进行关联,比如某台连接业务平台的交换机故障,可以将交换机故障和业务平台故障进行关联。

综合网管产生告警后,要实时更新告警是否恢复,则定义了两种告警恢复的方式。

① 通过SNMP轮询的方式,结合告警原因对设备进行高频率的轮询采集,确定是否相应的设备状态或性能指标是否恢复。

② 通过接收EMS的告警恢复信息,对相关的告警进行恢复。

通过以上分析,综合网管实现了对全专业网络质量的监控和告警,并通过关联压缩提高告警准确率,实现全面、及时、精准的预警能力。

(3)工单电子化管控,实现网络故障智能运维

综合网管将符合条件的告警进行派单,在掌握本地值班人员和维护班组的基础上,预设置不同告警类别或告警对象的派单路径,综合网管将工单自动派单到相应的工位。为了提供告警处理效率,在现场处理完成进行回单时,综合网管会进行自动校验,判断告警是否恢复,进一步判断是否通过回单操作。综合网管在数据分析、告警产生、自动派单、自动校验等全流程均进行电子化处理,实现网络故障全流程智能运维[3],工单处理流程如图3所示。

3 结束语

澳门电信于2020年上线综合网管系统,实现对全网全业务的统一支撑,覆盖核心网、承载网和接入网,实现网络资源统一纳管、告警和性能数据集中管理,大大提高了网络运营能力,结合对于全专业告警的集中输出和智能派单,支撑了业务的快速发展,有效提高了运维效率。

图3 工单处理流程

在粤港澳大湾区建设的发展大潮中,需要持续提升信息基础设施,构建新一代高效通信网络,进而推动智慧城市建设。面对网络和业务的快速扩展,澳门电信通过建设综合网管,快速构建了全专业网络质量监控体系,建立了集约化运维管理能力。随着国家“一带一路”战略的发展,海外电信业务的不断扩大,电信运营商面对的机会和挑战并存,本文所提供的综合网管建设的方案可以作为需要快速建立全业务监控体系的参考。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!