时间:2024-07-28
尹永鑫,关威,张欣,贺晓博(.中国联合网络通信集团有限公司,北京 00033;.中讯邮电咨询设计院有限公司郑州分公司,河南郑州 450007)
近2 年境外运营商发生了多例大规模网络故障,故障期间出现的网元过载拥塞和信令风暴导致故障影响范围大、持续时间长,对用户的个人权益和运营商的品牌形象产生了较大的负面影响。2022 年7 月,某境外运营商移动网核心路由器割接失败后回退,大量终端集中发起注册导致PCRF/HSS 过载,进而引发信令风暴,经核心网和无线网的手动流控后仍无法压制信令风暴,故障持续时间超过60 h。
多起故障案例表明,网络故障发生时的DC 容灾倒换和故障恢复后的用户集中注册是引发信令风暴的2 类主要原因。经实验室模拟,极端故障场景下注册浪涌对移动核心网的冲击达到常规注册模型的100倍,大量用户集中发起注册可能引发网元拥塞和业务劣化,用户业务失败后的反复重试引发设备过载,进一步导致正常用户业务受影响引发冲击蔓延,最终发生信令风暴。
网元部署自保流控是防护信令风暴的重要手段,但随着运营商5G用户的迅速增长,产生信令风暴的风险呈显著增长态势。5G 网络中终端机制与核心网业务流程强耦合,5GC 或IMS 其一不可用将导致终端重新注册,而1 次注册贯穿核心网10 余个网元、近百次信令交互,其中任一消息被流控均将导致注册失败。因此,原有的各自为阵的设备过载自保机制已无法应对5G时代下的网络安全挑战,需制定端到端流控方案以有效应对注册信令浪涌对网络的冲击。
大量终端同时登网产生的注册信令冲击是核心网信令风暴产生的首要原因,注册信令冲击主要存在以下几类特征。
特征1:用户注册请求在网元内部呈现百倍的信令流量放大效应。以5G SA 用户注册为例,5G 终端需要成功完成1 次5GC 注册、1 次数据PDU 会话建立、1次语音PDU 会话建立、1 次IMS 挑战鉴权、2 次第三方注册才能正常使用数据、语音和短信业务,用户1次注册请求转化为核心网网元间的近百次信令处理资源消耗。
特征2:用户注册各类信令流程均在后端网元HSS/UDM 收敛。终端注册和鉴权流程需通过HSS/UDM 下载签约数据、鉴权向量并更新用户状态,因此用户在EPC/5GC/IMS 域各类信令流程均会共同占用后端网元HSS/UDM的信令处理能力。
特征3:用户注册失败,终端将多次重试,消耗网络资源。当大量用户终端同时向核心网发起注册请求时,因EPC/5GC/IMS 网络对信令流量的放大效应,注册请求将对核心网各网元产生巨大的信令冲击。信令流量如超过网元处理能力,将导致HSS/UDM 等网络中的短板网元首先出现过载拥塞,引发用户业务失败。此时注册失败的终端频繁重试将极大地消耗网络资源,导致恶性循环。前后端信令流量放大效应如图1所示。
为避免信令流量放大效应引发后端网元过载进而出现雪崩效应,已针对信令风暴产生的原因、特征和危害制定了核心网端到端流控方案,如图2 所示。其原则如下。
图2 端到端流控方案示意
a)在EPC/5GC/IMS 前端网元部署精准流控消减信令浪涌首冲击。
b)在端到端网元部署分级流控保障信令冲击发生时正常用户不掉线。
c)在端网间部署终端重试引导和管控策略保障过载拥塞不扩散。
d)在无线和核心网间部署协同流控,保障极端场景下信令风暴可收敛。
当注册信令冲击发生时,为保障后端网元不过载,应根据HSS/DUM 处理能力,在入口网元MME/AMF/SBC 上部署前端精准流控策略,拦截核心网各域内已无法处理的增量业务请求,使经入口网元放通的注册请求均能有效处理,百分百利用后端网络资源,有序消化信令冲击。运营商现网网络架构复杂,为在前端网元部署精准流控,需制定以下4个流控模型:前后端信令放大效应模型、后端网元能力分摊模型、前端网元精准流控模型和DRA精准流控模型。
运营商各本地网需根据EPC/5GC/IMS 网络信令流程和网络功能开启情况制定适用于本地网的前后端信令放大效应模型和后端网元能力分摊模型;进而根据本地网业务量、组网架构、网元处理能力、放大效应模型和后端网元能力分摊模型推导出前端网元精准流控模型。
针对不同的流控场景,可将前端网元精准流控模型细分为常规部署模型和应急处置模型,其中常规部署模型兼顾常规故障场景下的流控能力和用户上线能力;应急处置模型适用于在无法有效平抑信令冲击时应急开启。同时,为避免常规部署模型在极端场景下引发HSS/UDM 过载,另部署DRA 精准流控模型为HSS/UDM 提供入向流控保护。前端精准流控模型示意如图3所示。
图3 前端精准流控模型示意
4G 附着、5G 注册、IMS 初始注册因运营商各本地网络的个性化部署策略,对后端HSS/UDM 网元的消息放大效应呈现显著差异,如VoLTE AS 或HSS 未开启集合下载时,HSS 的diameter 消息放大效应翻倍。因此,需充分评估本地网络各类典型策略部署情况,制定前后端信令放大效应模型,模型样例如表1所示。
表1 前后端信令放大效应模型
因4G 附着、5G 注册、IMS 初始注册对后端消息的放大效应不同,3 类场景对HSS/UDM 的资源消耗存在较大差异。另外,云化UDM 存在2 种组网架构:UDM的EPC 和IMS 信令处理单元共用虚机,5GC 信令处理单元占用独立虚机;UDM的EPC信令、IMS信令和5GC信令处理单元共用虚机。综合3类业务场景的信令放大模型及HSS、UDM 的组网架构,制定后端网元能力分摊模型如表2所示。
表2 后端网元能力分摊模型
网元容灾倒换、网络故障恢复等场景导致大量4G、5G 用户同时向核心网发起初始注册形成注册浪涌,注册浪涌对不同网元的冲击规模与故障场景、4G和5G 用户的规模和比例密切相关。运营商现网中常见的承载网故障后恢复、资源池故障后恢复、单DC 故障容灾倒换等容易引发信令冲击场景,发起注册的用户通常分布在省内多台UDM、HSS 设备上,为保障此场景下后端网元不发生过载且保障掉线用户可以迅速登网恢复业务,制定了常规部署的前端网元精准流控模型。常规部署的精准流程模型要点如下:
a)根据HSS、UDM 网元的活动用户占比情况,推导出大量终端同时登网场景下,后端网元的上线能力最短板。
b)根据前后端消息放大效应模型,分别推导出前端网元MME、AMF、SBC的总上线能力。
c)以VoLTE 渗透率较高时,4G 和5G 附着成功后均发起IMS 初始注册为原则(EPC 上线能力+5GC 上线能力≤IMS 上线能力,否则将导致IMS 注册失败),根据SBC 的上线能力与4G/5G 用户的比例,进一步校准EPC、5GC的总流控阈值。
根据以上原则,定义相关参数并制定常规部署的前端网元精准流控模型如表3、表4所示。
表3 定义模型相关参数
表4 前端网元精准流控模型——常规部署
极端故障场景下,常规部署的综合考虑削减信令冲击和用户上线速率的精准流控方案已无法有效平抑信令冲击并保护后端网元,需针对不同的故障场景制定应急部署的精准流程模型,在网元出现拥塞时及时手动开启。应急部署的精准流程模型要点如下:
a)提前评估各类故障场景对应的后端网元处理能力最短板,以及相应场景下前端网元的台套数。
b)根据前后端消息放大效应模型,推导出各类应急场景下,前端网元MME、AMF、SBC 的流控阈值。在故障发生时结合故障场景和流控效果应急开启。
根据以上原则,制定应急部署的前端网元精准流控模型样例如表5 所示,现网部署时需结合故障场景提前制定多套应急部署流控模型。
表5 前端网元精准流控模型——应急部署
因常规部署的精准流控模型在特殊故障场景下仍存在引发后端HSS/UDM 过载的风险,因此需在DRA上针对本地网内所有HSS、UDM 本局处理能力分局向部署流控策略。每个局向分接口的流控参数根据后端网元能力分摊模型推导确定,即:S6a 口流控阈值=A(N)×X1,Cx/Sh口流控阈值=A(N)×X2。
DRA 精准流控可保障在极端故障场景下,超过HSS、UDM 处理能力的信令冲击提前在DRA 侧拦截,避免在应急处置精准流控参数配置前即发生HSS、UDM网元过载。
前端精准流控的部署保障了大量终端同时发起EPC/5GC/IMS 初始注册时,后端网元可全量有效处理经前端网元放通的用户请求。当故障发生时,除因容灾等原因发起初始注册的用户外,仍存在大量未掉线用户发起正常的重注册、短消息、语音和数据业务。一旦未掉线用户发起的业务请求因网元的流控机制被拒绝或丢弃,终端将根据自身失败重试机制发起初始注册用户重新登网业务请求,进一步加大注册信令冲击。
为避免在线用户业务失败恶性循环引发网络雪崩,需要在核心网各域网元中部署分级流控策略,对业务类型和信令消息类型区分优先级队列进行调度。分级流控模型如表6所示。配置模型原则为:
表6 分级流控模型
a)前端流控已放通的会话的后续中间消息高优先级执行,保障网络资源不浪费。
b)网元间的心跳检查消息最高优先级放通,保障网元通信不中断。
c)区分业务场景分级调度,放通重注册/注册更新保障老用户不掉线;流控初始注册,控制新用户接入。
为验证核心网前端精准流控和分级流控的效果,在实验室搭建5GC 和IMS 网络模拟环境,模拟20 万5G SA 注册用户因网络故障下线,在故障恢复后大量终端同时登网冲击5GC、IMS、UDM 网元的场景。观测在故障恢复后的1h内,UDM 收到的信令冲击量变化情况(根据放大系数折算为caps)。
场景1:仅部署自保流控。在核心网未部署前端精准流控和分级流控,仅开启设备自保流控的情况下,随着大量下线终端登网,UDM 受到的信令冲击量持续增加,直至触发设备自保流控并丢弃无法处理的信令。因单用户的5GC 注册和IMS 注册会放大为25对与UDM 交互的信令,部分中间消息被丢弃导致用户注册失败重试。UDM 的自保流控无法有效消化注册浪涌冲击,导致网元持续过载,故障恢复1h后用户仍无法登网注册。
场景2:部署前端精准流控。在核心网AMF/SBC根据前端精准流控模型部署流控策略情况下,故障恢复后,大量终端同时发起注册请求,当注册请求达到AMF/SBC 网元配置的精准流控门限值后,AMF/SBC 对超过阈值的注册请求直接回复失败响应,不再占用后端UDM 网元的处理资源,UDM 可有效处理被AMF/SBC 放通的用户注册信令,用户在15min内完成登网注册,未发生网元过载问题。在12min后,少部分被AMF/SBC 流控的终端根据重试定时器再次发起注册并成功登网,全量用户业务恢复。
场景3:同时部署前端精准流控和分级流控。当核心网网元部署前端精准流控但未部署分级流控情况下,AMF/SBC 放通了注册的首消息,但后续鉴权、响应等消息同样存在被流控的风险,导致已被放通注册首消息的用户登网失败。在部署分级流控场景下,可保障被放通注册首消息的用户的后续请求和响应均能被有效处理;同时放通刷新注册、呼叫等高优先级业务,保障在线用户不因网元流控而掉线。根据实验室模拟分析,部署分级流控可更有效提升用户的上线速率,用户在5~10min内即基本完成登网注册,因流控而延时重试的终端数量明显减少,保障故障发生后全部用户业务迅速恢复。
网元通过部署前端精准流控和分级流控完成对超出网络处理能力的终端接入请求限流,因限流导致业务请求失败的终端频繁登网重试将加剧对网络资源的消耗。核心网需根据终端在过载流控场景的业务特点和行为部署针对性的解决方案,解决方案包括对于被流控终端重试机制的引导和对于不遵守网络侧引导机制的终端的异常行为管控。
a)EPC/5GC 终端重试引导方案:3GPP TS 24.301、3GPP TS 24.501 分别定义了MME 和AMF 针对终端注册场景,网络侧通过回复拒绝消息(原因值#22 Congestion)并携带Backoff Timer信元实现EPC/5GC流控的功能。该信元指示请求消息重复尝试的延迟时长,使终端延迟并离散接入,减轻终端频繁注册对网络侧的资源消耗。
b)IMS 终端重试引导方案:3GPP TS 24.229 定义了IMS 可通过回复500/503 等失败响应码并携带Retry-After 头域拒绝终端的注册请求,入口网元通过拦截响应通知终端根据网络侧指示在离散时间重试,消减注册失败用户频繁重试对网元的信令冲击。
现网中部分终端收到网络侧下发的重试引导响应时,存在不遵循Backoff Timer 和Retry-After 时长要求并反复尝试登网情况,终端的无序注册行为使得终端重试机制引导方案难以取得预期效果。需针对不规范终端行为部署异常终端管控方案,以作为重试引导方案的有效补充。
a)EPC/5GC 异常终端行为管控方案:MME/AMF部署信令控制功能,MME/AMF 基于短时间内用户附着/注册、PDN 连接/PDU 会话建立、业务请求等消息的频次实施统计测量,当终端业务请求频次超出阈值即被判定为异常用户,在短时间内限制该终端登网。
b)IMS 异常终端行为管控方案:SBC 部署黑名单管控功能,SBC将频繁注册用户、异常高频呼叫用户临时加入黑名单,丢弃该用户发送的所有报文,削减高频业务请求对网络的信令冲击。
当极端故障场景下,核心网流控手段已无法在短时间内平抑终端大量业务请求引发的信令冲击。此时,核心网网元需要通知基站侧实施自动限流,减少发往核心网的信令消息量。
需在AMF/MME 网元部署过载通知基站限流功能,功能开启后,MME/AMF 网元出现过载时,向4G 和5G 基站发送Overload Start 消息,通知基站按比例拒绝终端新建连接,使得终端注册请求终结在无线侧,不再额外消耗核心网资源。当MME/AMF 网元状态恢复正常后,向基站发送Overload Stop 消息,通知基站允许终端重新接入网络。
网络演进带来的组网架构和业务模型的频繁调整为流控策略的部署带来了挑战。核心网端到端流控方案有助于指导运营商建立完整的核心网信令风暴防护体系,即应用前端精准流控模型随网络演进更新流控参数,确保流控配置的及时性和准确性;应用分级流控、终端重试引导以及协同基站的终端管控方案,从多维度平抑注册浪涌引发的信令冲击,有效提升网络信令风暴防护能力。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!