基于贝叶斯序贯博弈模型的智能电网信息物理安全分析

时间：2024-05-22

李军李韬

计算机、网络通信和控制技术作为近30年来信息技术产业发展的核心和动力,引起了人类社会生活的巨大变革.然而,人与自然万物,以及改造自然的机器之间,尚缺乏有效地交互协同的作用方式,需要统一的混合系统框架,通过对质量流、能量流、信息流的协调管控,推动计算机、网络通信和控制技术的协同变革和演进融合.在这一背景下,信息物理系统(Cyber-physical systems,CPS)[1-3]应运而生.信息物理系统这一概念是由美国科学家Gill于2006年在美国国家科学基金委员会上提出的[4],被认为有望成为继计算机、互联网之后世界信息技术的第三次浪潮,其核心是3Cs(Computation,communication,control)的融合.智能电网作为一种信息物理系统[5],将3Cs技术融合贯穿于发电、输电、配电和用电四大环节,用以提升电网的各项性能指标,包括稳定性、有效性、可靠性、安全性等.对于发电环节而言,由于风能、太阳能等可再生能源的接入,导致了电网系统的不确定性增大,影响了电网的稳定性.CPS可以协调多能源介质的生产、存储和使用,确保电网稳定运行,实现安全节能优化目标.在输电环节,CPS可以帮助构建输电线路智能化无人机巡检,精确导航与控制技术、长距离实时稳定通信技术和计算中心实时数据分析,确保线路巡检诊断精确可靠.在智能配电环节,融合了3Cs技术的智能电表通过与配电侧的互联,给用户提供实时电价,以实现负载优化调度.在用电环节,CPS及相关技术可以准确预测用户用电消费行为及需求,实时感知、计算并响应调控用电变化,实现全系统的智能优化和精准控制,极大地提高了电力的安全生产和消费的效率[6-7].

智能电网承诺提供更高的效率和可靠性,以及更节约的配电和输电的方法.这些提升方法依赖于新技术和电力网络中心建立的互联机制,同时也依赖于不同组件的合作和大量的数据分析.随着新技术和更容易获取的能源数据的使用,智能电网将受到多种攻击的威胁,安全性变得尤为重要.智能电网可分为网络基础设施和物理基础设施[8-9]两个主要组件.网络基础设施包括服务器、数据库、人机接口(Human machine interface,HMI)、远程终端设备(Remote terminal unite,RTU)、可编程逻辑控制器(Programmable logic controller,PLC)以及监测控制和数据采集(Supervisory control and data acquisition,SCADA)系统等.物理基础设施包括负责发电、输电、配电、用电的物理设备等.对应于智能电网的这两个主要组件,攻击者有网络攻击和物理攻击两种类型.网络攻击者通过攻击智能电网的网络系统,获得未经授权的特权来控制物理过程的功能.物理攻击者通过攻击智能电网的物理设备,导致电网在发电、输电、配电、用电等环节中断以及电力系统拓扑结构的改变等[10-11].当系统受到攻击时,若系统管理员(防护者)事先不确定攻击者的类型,则无法给出最优防护策略.针对这种问题,本文提出了一种贝叶斯序贯博弈模型,可以确定攻击者的类型,从而选择最优防护策略,为系统管理员及时提供决策分析,保持智能电网的安全运行.

目前对于智能电网的安全性研究大部分关注的是网络安全方面,包括智能电网的安全需求、目标、可能存在的漏洞、攻击和解决方案等[12-13].由于智能电网在网络方面容易受到攻击,导致系统运行不可靠,对消费者和公司都造成危害,所以智能电网的分布式通信、普适计算和传感技术都需要一个安全的网络框架.孙秋野等[14]指出,能源互联网作为一个融合信息系统与物理能源系统的综合复杂网络,控制优化相对复杂,且因与互联网的相似性,使得能源互联网信息物理安全将成为网络研究热点问题之一.Luo等[15]研究了虚假数据注入攻击下,大规模智能电网系统的网络安全问题,提出了一种基于观测器的算法,通过使用实时同步相量测量来检测和隔离网络攻击.Yan等[16]对智能电网的通信安全进行了研究,总结了智能电网通信过程中的网络安全需求和漏洞,并调查了当前网络安全解决方案.Hasan等[17]研究了资源受限的智能电网中的网络安全规划问题,为能源SCADA系统提出了一个基于中心的信任系统配置方案,利用中心性测量提升安全保护.Mo等[18]考虑了如何结合物理系统安全和网络安全建立一个科学的信息物理安全系统,确保智能电网安全运行.虽然单一网络攻击和单一物理攻击方面的安全性研究已经取得显著成绩,但是对于同时存在网络攻击和物理攻击的混合攻击情形,现有的研究还比较缺乏.

近年来使用博弈论分析智能电网安全的研究越来越多[19].Hewett等[20]在攻击者和安全管理者之间构建了双人非零和的完全信息动态博弈,通过逆向归纳法求出纳什均衡解.当系统遭遇攻击时,防护者根据纳什均衡解能够及时地做出准确的决策.Maharjan等[21]提出了一种公用事业公司和终端用户之间的斯塔克伯格博弈方法,分析了智能电网的需求响应管理,最大化事业公司的收入和每个用户的收益.Ma等[22]利用多动态博弈策略分析电力市场中的拥塞攻击.攻击者通过拥塞攻击减少携带测量信息的信道数量来操纵区域边际价格,从而获得盈利.防护者能够保证采用有限数量的信道就可以进行信息交付.Sanjab等[23]研究了智能电网中多个数据注入攻击者和一个电网防护者之间的博弈,利用分布式学习算法求解博弈的均衡解,最大化攻击者的收益,最小化防护者的损失.博弈论分析智能电网的安全,实际上就是研究攻击者和防护者之间的相互作用,通过求解博弈均衡解来预测个体的行为[24].袁勇等[25]研究了一类带有时间偏好的单边双类型不完全信息轮流出价议价模型,运用单阶段偏离法则分析了议价博弈的合并均衡与分离均衡,并证明了议价博弈将唯一地实现合并均衡.针对高级计量基础设施(Advanced metering infrastructure,AMI)网络中的分布式拒绝服务攻击,Wang等[26]将蜜罐技术(Honeypot technology)引入AMI网络中作为诱饵系统来检测和收集攻击信息,分析了攻击者和防御者之间的相互作用,并为双方推导出最佳策略.

以上针对智能电网安全性的研究,大都没有考虑同时存在网络攻击和物理攻击两种类型攻击者的情形.针对系统管理员(防护者)如何确定攻击者的类型,从而选择最优防护策略的安全问题,本文提出一种贝叶斯序贯博弈模型来确定攻击者的类型,从而选择最优防护策略,为系统管理员(防护者)及时地提供决策分析.首先,对事先不确定类型的攻击者和防护者构建静态贝叶斯博弈模型.通过海萨尼转换,使得防护者知道攻击者类型的概率分布,将不完全信息博弈转换成完全信息博弈进行分析.防护者以µ的概率知道攻击者类型是网络攻击,其中µ可以通过智能电网的网络组件和物理组件占整个电网系统的比值计算.经过贝叶斯博弈分析,可以根据攻击者类型为网络攻击的概率和贝叶斯纳什均衡解,确定攻击者的类型.其次,考虑了攻击者和防护者之间的序贯博弈模型,能够有效地帮助防护者进行决策分析.利用逆向归纳法分别对两种类型的攻击者和防护者之间的序贯博弈树进行分析,根据均衡路径选择最优策略.通过贝叶斯博弈和序贯博弈树分析,确定攻击者的类型,并且根据均衡路径可以得到攻击者的相对最优攻击策略和防护者的相对最优防护策略,为保证智能电网的安全运行提供参考.

本文结构安排如下:第1节介绍两种类型攻击者和防护者之间的静态贝叶斯博弈模型,通过海萨尼转换将不完全信息博弈转换成完全信息博弈,通过贝叶斯博弈模型的分析,确定攻击者的类型;第2节介绍序贯博弈的模型和求解均衡路径的数值算法;第3节给出两种类型攻击者和防护者之间的数值算法分析,根据求解的均衡路径得出攻击者的最优攻击策略和防护者的最优防护策略;第4节是对全文的总结和对未来研究的展望.

1 攻击者和防护者的静态贝叶斯博弈

用G表示一个博弈:如G有n个博弈方,每个博弈方的全部可选策略的集合称为“策略空间”,分别用S1,···,Sn表示.sij∈Si表示博弈方i的第j个策略,其中j可以取有限个值(有限策略博弈),也可以取无限个值(无限策略博弈);博弈方i的收益用Ui表示,Ui是各博弈方策略的多元函数.n个博弈方的标准式博弈G通常记为G={S1,···,Sn;U1,···,Un}[27].

1.1 博弈模型

当系统受到攻击时,不同类型的攻击者获得的收益不同,防护者对于攻击者的收益没有准确的认识,所以是不完全信息博弈.本文首先研究两种类型攻击者和防护者之间的双人非合作静态贝叶斯博弈.入侵检测系统对于智能电网的安全防护有着重要作用,当系统受到攻击时,可以有效地检测到攻击,从而系统防护者可以及时地选择防护策略.为了能够更好地防护智能电网的安全,电网的每个组件都应该配备一个入侵检测系统,并且入侵检测系统保持运行状态.从系统使用的角度来看,永远在线运行并不是一个有效的选择,因为智能电网的网络组件通常是资源受限的[28].静态贝叶斯博弈模型可以帮助系统防护者进行决策分析,提升入侵检测系统的检测效率.

用Mi表示攻击者,θ表示攻击者的类型,θ=1表示网络攻击,θ=0表示物理攻击,每个类型的策略包括{攻击,不攻击}.Mj表示系统防护者,它的策略包括{防护,不防护}.α表示入侵检测系统的检测率;β表示误报率;ω表示防护者的安全值;cic＞0表示网络攻击的成本;cip＞0表示物理攻击的成本;cd＞0表示防护者的成本,其中α,β∈[0,1].

假设1.防护者的安全值ω满足

在资源受限的网络中,防护者安全值是系统受保护的能源资产,防护成本可以根据系统采取防护策略的能量消耗来确定,攻击成本可以根据攻击者采取攻击策略的能量消耗来确定.若ω不满足假设1,那么攻击者就没有动机采取攻击策略,防护者也没有动机采取防护策略.当θ=1时,攻击者类型为网络攻击,攻击者和防护者的策略组合为(攻击,不防护)时,攻击者成功攻击了系统,系统防护者的损失为ω,即攻击者的收益为ω-cic,防护者的收益为-ω.策略组合为(攻击,防护)时,防护者的收益是检测到攻击的期望收益减去防护成本,即αω-(1-α)ω-cd=(2α-1)ω-cd,其中1-α表示入侵检测系统的漏检率.另外,攻击者的收益是防护者损失的收益减去攻击成本,即(1-2α)ω-cic.策略组合为(不攻击,防护)时,由于入侵检测系统的误报产生损失值-βω,所以防护者的收益为-βω-cd,攻击者的收益为0,如表1所示.其中收益组合的前半部分表示攻击者的收益,后半部分表示防护者的收益.当θ=0时,攻击者类型为物理攻击,同理可以求解出攻击者和防护者的收益情况,如表2所示.

1.2 贝叶斯纳什均衡分析

不同类型的攻击者和防护者之间相互作用,得出的均衡解可能不同.防护者对于攻击者类型的知识不能准确了解,属于不完全信息博弈.在1967年之前,信息不完全的情况,博弈论是无法解决的,因为当你还不知道对手为何物时,无法选择自己的最优策略.在1967年,海萨尼(Harsanyi)提出了海萨尼转换的方法[27],将不完全信息博弈转换成完全但不完美信息博弈,防护者知道攻击者两种类型的分布概率,从而进行分析.

表1 攻击者类型为网络攻击Table 1 The type of attacker is a cyber attack

攻击者的类型包括网络攻击(Cyber attack)和物理攻击(Physical attack),每个类型的策略包括{攻击(Attack),不攻击(No attack)}.防护者的策略包括{防护(Defend),不防护(No defend)},N是一个决定攻击类型的自然节点.根据表1和表2的收益矩阵可得出贝叶斯博弈的扩展式,如图1所示.防护者有概率µ知道攻击者的类型是网络攻击,并且博弈双方是理性的,攻击者希望获得最大的收益,防护者希望损失最小.

图1 贝叶斯博弈的扩展式Fig.1 The Bayesian game in an extensive form

定义1.占优策略[27].用si1和si2表示博弈方i的两个可行策略,如果对其他博弈方可能的策略组合s-i,博弈方i选择si1的收益大于选择si2的收益,即Ui1(si1,s-i)≥Ui2(si2,s-i),则称si1为相对于si2的占优策略.

定义2.贝叶斯纳什均衡[27].n人不完全信息静态博弈G={S1,···,Sn;θ1,···,θn;p1,···,pn;U1,···,Un}的纯策略贝叶斯纳什均衡是一个类型依存战略组合, 其中每个参与人i在给定自己的类型θi和其他参与人类型依存战略的情况下最大化自己的期望效用函数Ui. 若, 战略对于所有的组合是一个纯策略的贝叶斯纳什均衡.若博弈方i的策略空间为{si1,···,sik},那么概率分布pi=(pi1,···,pik)称为i的一个混合策略,其中pik=p(sik)是博弈方i选择策略sik的概率,0≤pij≤1,j=1,···,k,并且pi1+···+pik=1.如果对于所有的i的期望效用,, 那么混合战略组合p∗=是一个混合策略的贝叶斯纳什均衡.

定理1.纳什均衡的存在性[29].在n个博弈方参与的标准博弈G={S1,···,Sn;U1,···,Un}中,如果n是有限的,且每个博弈方的策略集合Si也是有限的,则该博弈至少存在一个纳什均衡,均衡可能包含混合策略.

用(X;Y)表示攻击者的纯策略,((X;Y),Z,µ)表示贝叶斯纳什均衡,其中X表示攻击者类型为网络攻击的策略,Y表示攻击者类型为物理攻击的策略,Z表示防护者策略,µ表示攻击者类型为网络攻击的概率.

两种类型的攻击者的纯策略包含了四种情况:(攻击;攻击)、(攻击;不攻击)、(不攻击;攻击)、(不攻击;不攻击).当攻击者类型不确定时,我们通过贝叶斯博弈的扩展式(图1),可以计算出攻击者纯策略组合下的防护者的期望收益,其中防护者采取防护策略的期望收益表示为E(d),采取不防护策略的期望收益表示为E(nd).攻击者类型为网络攻击时,采取攻击策略的期望收益为Ec(a),采取不攻击的期望收益为Ec(na).攻击者类型为物理攻击时,采取攻击策略的期望收益为Ep(a),采取不攻击的期望收益为Ep(na).当E(d)=E(nd)时,可以求出混合策略中攻击均衡策略的概率;当Ec(a)=Ec(na)和Ep(a)=Ep(na)时,可以求出混合策略中防护均衡策略的概率.对两种类型攻击者和防护者之间的双人非合作静态贝叶斯博弈,本文有如下定理.

定理2.若假设1成立,当攻击者的纯策略为(攻击;攻击)和(不攻击;不攻击)时,不存在纯策略的贝叶斯纳什均衡和混合策略的贝叶斯纳什均衡.

证明.

1)当攻击者的纯策略为(攻击;攻击)时,防护者采取防护策略的期望收益为

防护者采取不防护策略的期望收益为

此时,防护者的纯策略{防护,不防护}的期望收益都与µ无关.所以((攻击;攻击),防护)和((攻击;攻击),不防护)都不是纯策略的贝叶斯纳什均衡和混合策略的贝叶斯纳什均衡.

2)当攻击者的纯策略为(不攻击;不攻击)时,防护者采取防护策略的期望收益为

防护者采取不防护策略的期望收益为

此时,防护者的纯策略{防护,不防护}期望收益都与µ无关.并且E(d)＜E(nd),防护者采取的占优策略是不防护,然而攻击者采取相应的最优策略是(攻击;攻击).所以((不攻击;不攻击),不防护)不是纯策略的贝叶斯纳什均衡和混合策略的贝叶斯纳什均衡.□

定理3.若假设1成立,当µ＞(βω+cd)/((2α+β)ω)时,在cic＜(1-2α)ω＜cip的情况下,存在纯策略的贝叶斯纳什均衡,此时攻击者的类型为网络攻击;当µ ≤(βω+cd)/((2α+β)ω)时,存在混合策略的贝叶斯纳什均衡,此时攻击者的类型为网络攻击.

证明.

1)当攻击者的纯策略为(攻击;不攻击)时,防护者采取防护策略的期望收益为

防护者采取不防护策略的期望收益为

当µ＞(βω+cd)/((2α+β)ω)时,E(d)＞E(nd),防护者采取的占优策略是防护.假设cic＜(1-2α)ω＜cip,攻击者采取相应的最优策略是(攻击;不攻击).因此当µ＞(βω+cd)/((2α+β)ω)和cic＜(1-2α)ω＜cip时,((攻击;不攻击),防护,µ)是纯策略的贝叶斯纳什均衡,否则不存在.当µ≤(βω+cd)/((2α+β)ω)时,E(d)＜E(nd),防护者采取的占优策略是不防护.然而攻击者采取相应的最优策略是(攻击;攻击),所以((攻击;不攻击),不防护,µ)不是纯策略的贝叶斯纳什均衡.

2)在攻击者的纯策略为(攻击;不攻击)的情况下,当µ ≤(βω+cd)/((2α+β)ω)时,不存在纯策略的贝叶斯纳什均衡,由定理1可知,博弈存在混合策略的贝叶斯纳什均衡.假设攻击者的类型为网络攻击时,采取攻击策略的概率为p1,采取不攻击策略的概率为1-p1;攻击者的类型为物理攻击时,采取不攻击策略.防护者采取防护的概率q1,不防护的概率为1-q1.

防护者采取防护策略的期望收益为

防护者采取不防护策略的期望收益为

攻击者的类型为网络攻击,采取攻击的期望收益为

攻击者的类型为网络攻击,采取不攻击的期望收益为

当E(d)=E(nd)时,可以得出攻击者类型为网络攻击时,采取攻击均衡策略的概率为. 当 Ec(a)=Ec(na)时,可以得出防护者采取防护均衡策略的概率2αω.由此可知,当µ≤(βω+cd)/((2α+β)ω)时((以的概率攻击;不攻击),以的概率防护,µ)是混合策略的贝叶斯纳什均衡.□

定理4.若假设1成立,当µ＜(2αω-cd)/((2α+β)ω)时,在cip＜(1-2α)ω＜cic的情况下,存在纯策略的贝叶斯纳什均衡,此时攻击者的类型为物理攻击;当µ≥(2αω-cd)/((2α+β)ω)时,存在混合策略的贝叶斯纳什均衡,此时攻击者的类型为物理攻击.

证明.

1)当攻击者的纯策略为(不攻击;攻击)时,防护者采取防护策略的期望收益为

防护者采取不防护策略的期望收益为

当µ＜(2αω-cd)/((2α+β)ω)时,E(d)＞E(nd),防护者采取的占优策略是防护.假设cip＜(1-2α)ω＜cic,攻击者采取相应的最优策略是(不攻击;攻击).因此当µ ＜(2αω-cd)/((2α+β)ω)和cip＜(1-2α)ω＜cic时((不攻击;攻击),防护,µ)是纯策略的贝叶斯纳什均衡,否则不存在.当µ≥(2αω-cd)/((2α+β)ω)时,E(d)＜E(nd),防护者采取的占优策略是不防护.然而攻击者采取相应的最优策略是(攻击;攻击),所以((不攻击;攻击),不防护,µ)不是纯策略的贝叶斯纳什均衡.

2)在攻击者的纯策略为(不攻击;攻击)的情况下,当µ≥(2αω-cd)/((2α+β)ω)时,不存在纯策略的贝叶斯纳什均衡,由定理1可知,博弈存在混合策略的贝叶斯纳什均衡.假设攻击者类型为物理攻击,采取攻击策略的概率为p2,采取不攻击策略的概率为1-p2;攻击者类型为网络攻击时采取不攻击策略.防护者采取防护策略的概率q2,采取不防护策略的概率为1-q2.

防护者采取防护策略的期望收益为

防护者采取不防护策略的期望收益为

攻击者类型物理攻击时,采取攻击策略的期望收益为

攻击者类型物理攻击时,采取不攻击策略的期望收益为

当E(d)=E(nd)时,可以得出攻击者类型为物理攻击时,采取攻击均衡策略的概率为.当时,可以得出防护者采取防护均衡策略的概率.由此可知,当µ≥(2αω-cd)/((2α+β)ω)时,((不攻击;以的概率攻击),以的概率防护,µ)是混合策略的贝叶斯纳什衡.□

静态贝叶斯博弈模型广泛地应用于多攻击者类型的网络中,例如DOS攻击(Denial of service attacks),路由中断攻击(Routing disruption attacks).为了能够更好地防护智能电网的安全,入侵检测系统总是保持运行状态.从系统使用的角度来看,持续运行并不是一个最有效的选择,因为电网的网络组件通常是资源受限的.静态贝叶斯博弈模型可以根据贝叶斯纳什均衡解帮助系统防护者进行决策分析,提升入侵检测系统的检测效率.由定理3和定理4可知,本文根据攻击者类型为网络攻击的概率和贝叶斯纳什均衡解,可以确定攻击者的类型.对于攻击者类型不确定的问题,可以通过智能电网的网络组件占整个电网系统的比例来计算攻击者类型为网络攻击的概率.

2 序贯博弈模型和数值算法

2.1 序贯博弈模型

关于智能电网的网络安全和物理安全的研究,分别是网络攻击和防护者、物理攻击和防护者之间的一个双人博弈;当攻击者的类型确定时,博弈方对另外一方的特征、战略空间及支付函数有准确的知识,是一个完全信息的博弈;攻击者和防护者轮流选择策略,是一个连续的博弈;因此攻击者和防护者之间的博弈是一个双人完全信息下的序贯博弈[19].对于序贯博弈,通常使用博弈树的方法进行分析.树形图称为博弈的扩展式,表明所有博弈方可选择的所有可能策略,并给出博弈的所有可能的收益结果.攻击者和防护者之间依次轮流选择策略,当前状态的收益只依赖于上一个状态的收益,这反映了收益行为是一个马尔科夫过程(Markov process)[30].

用Uh(S,a)表示当前状态博弈方S的收益情况,那么当前收益是上一状态的收益Uh-1(S,a')加上行为函数收益A(S,a,d),计算公式为

其中,d表示博弈树的深度,a表示博弈方S的行为策略,由于攻击者和防护者是轮流采取策略,所以a'表示博弈方S的对手的策略.若行为函数收益中的a是攻击者的策略,当博弈方S为攻击者时,它会获得一个线性的增益影响;当博弈方S为防护者时,它会有指数级的损失影响.若a是防护者的策略,当博弈方S为攻击者时,它没有收益;当博弈方S为防护者时,它会有线性的增益影响,如表3所示.

表3 行为函数收益Table 3 The payoffof the behavioral function

下面计算策略a对博弈方产生的影响函数Impact(a),它由智能电网的保密性(Confidentiality)、完整性(Integrity)、可用性(Availability)和安全性(Safety)组成,分别用C(a),I(a),A(a),SF(a)表示,并且根据重要性赋予的权值分别为ωC,ωI,ωA,ωSF.其中Impact(a)定义如下:

2.2 数值算法

为了能够对确定类型的攻击者和防护者之间的序贯博弈进行分析,本文提出了一种数值算法,通过逆向归纳法对序贯博弈模型的博弈树进行分析.将博弈树的每个决策结点看成一个子博弈的初始结点,每个决策结点和它的后续分支构成一个子博弈.在每个子博弈中求出纳什均衡,这些纳什均衡的战略组合是子博弈精炼纳什均衡.如果一个博弈有几个子博弈,一个特定的纳什均衡决定了原博弈树上唯一的路径,这条路径称为均衡路径.为了求解子博弈精炼纳什均衡,通过逆向归纳法从最后一个子博弈开始,依次向前求解每个子博弈的纳什均衡.根据博弈树的均衡路径,可以得出博弈双方的最优策略,以下是数值算法的步骤:

算法1.数值算法

步骤1.设置初值:

步骤2.构建博弈树:

每个决策节点表示攻击者和防护者的轮次,每条分支表示攻击者和防护者的策略;博弈树的高度为d.

步骤3.收益值:

根据式(18)求出策略a的Impact(a);根据式(17)和表3可以求出博弈树每个决策节点的收益值,初始收益值都为(0,0),前者为攻击者的收益,后者为防护者的收益.

步骤4.迭代:

3 序贯博弈模型的数值算法分析

经过静态贝叶斯博弈模型分析后,攻击者的类型确定,接下来分别对两种类型的攻击者和防护者进行序贯博弈数值算法分析,通过算法求出均衡路径,根据均衡路径可以得出攻击者的最优攻击策略和防护者的最优防护策略.

3.1 两种类型的攻击者

随着新技术的应用和更容易获取的能源数据的使用,智能电网有可能受到多种漏洞和攻击的威胁.为了能够清晰地了解攻击者的策略,下面介绍三种网络攻击和三种物理攻击.

1)网络类型的攻击者:攻击智能电网的网络组件.

干扰攻击(Jamming):智能电网的通信系统较容易受到攻击,例如拒绝服务攻击.干扰攻击作为拒绝服务攻击的一种,干扰和阻塞了系统组件之间的信息交换、数据测量和控制输入,对数据的完整性造成了损害[31].

窃听攻击(Eavesdropping):对手可以通过监控网络流量来获取敏感信息,披露智能电网控制结构以及未来的价格信息,从而导致用户隐私泄露.这种窃听可以用来收集更多的信息,进行更多的犯罪.例如,攻击者可以收集和检查网络流量,从通信模式中推断出信息,甚至加密的通信也容易受到流量分析的攻击.

数据注入攻击(Data injection):攻击者向目标地区当前或者未来的价格中注入虚假信息,使得地区的电力需求变化而造成损失,以及将错误的电表信息发送给智能电网公司,造成公司的经济损失.数据注入攻击也会改变电力市场的状态估计值,通过电网拓扑的知识,可以看出在当今的监控和数据采集(SCADA)系统中,错误的数据注入攻击可以绕开不良数据检测[32].

2)物理类型的攻击者:攻击智能电网的物理组件.

恐怖袭击(Terrorist):第一起恐怖袭击事件发生在2014年的也门,袭击者发射火箭摧毁输电塔,造成也门全国停电和2400万人受伤[11].再如狙击手攻击美国加利福尼亚州输电变电站的电力系统变压器,改变电力系统的拓扑结构,导致了直接停电并引发连锁故障[33].

盗窃攻击(Steal):攻击者盗窃铜线和金属设备,损害了电网的完整性,造成大片区域的停电事故.例如,盗窃造成了美国西弗吉尼亚州3000人的停电事故[11].

自然灾害攻击(Natural disaster):自然灾害会损害智能电网的物理设备,造成大片区域的停电,显示了智能电网组件的物理暴露和不可靠性的影响.树木的过度生长和倒塌也会对电网输电线路造成攻击,例如过度生长的树木造成了美国俄亥俄州北部5000万人的大面积停电[34].

3.2 网络攻击和防护者的序贯博弈数值分析

为了保证智能电网安全、可扩展和可靠地运行,各国提出了一些框架和指导方针[35].美国国家标准与技术研究院提出,为了智能电网的安全,应满足三个安全需求:保密性(Confidentiality)、完整性(Integrity)和可用性(Availability).由于智能电网组件的不同性质,以及与物理世界的直接互动,安全性(Safety)要求也是至关重要的.美国2004年2月出版的《联邦信息和信息系统安全分类标准》(Federal information processing standard 199,FIPS 199)对每个安全需求都规定了低、中、高影响级.由于安全性的重要性,本文也规定了低、中、高影响级.对于智能电网的网络安全,数据的完整性是最重要的,其次是数据的可用性,最后是保密性和安全性.本文假设网络安全需求的权值分别为ωI=0.4,ωA=0.3,ωC=0.2,ωSF=0.1.网络攻击中的干扰攻击(Jamming)、窃听攻击(Eavesdropping)、数据注入攻击(Data injection)分别用acj,ace和acd表示,其中acno表示不攻击策略.智能电网的防护者也会采取相应的策略,例如密钥管理(Key management)、干扰防护 (Jamming defense),用d〈km,jd〉表示,其中dcno表示不防护策略.根据这些网络攻击对智能电网的影响,确定攻击策略的影响级,其中影响级低、中、高分别用l,m,h表示(l＜m＜h).根据式(18)可计算出行为策略a的影响函数,如表4所示.网络攻击者和防护者之间进行序贯博弈,通过数值算法对网络攻击的序贯博弈树进行分析,博弈双方轮流采取行动,通常是攻击者先采取行动.

假设攻击者第一阶段采取的策略为{ace,acno},第二阶段采取策略{acj,acd};防护者采取的策略为{d〈km,jd〉,dcno}.博弈树的收益结果根据式(17)和表3进行计算,表示为(攻击者收益,防护者收益),其中根节点的初始收益为(0,0),实心圆表示攻击者轮次,空心圆表示防护者轮次.网络攻击的序贯博弈树如图2所示.

首先从博弈树高度为2的最左侧子博弈开始,比较收益(1.6l+m+1.4h,-(0.3l+0.3m+0.4h)3-0.1l+1.1m)和(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m),此时是攻击者轮次,并且1.6l+m+1.4h＜1.3l+m+1.7h,所以攻击者的最优策略是acd,收益为(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m).同理可以求出博弈树高度为2的其余三个子博弈的最优策略和收益分别为acd和(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.7l-0.1m-0.2h),acd和(0.6l+0.9m+1.5h,-(0.2l+0.3m+0.5h)3+0.6l+1.2m+0.2h),acd和(0.6l+0.9m+1.5h,-(0.2l+0.3m+0.5h)3).

其次从博弈树高度为1的左侧子博弈分析,比较收益(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m)和(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.7l-0.1m-0.2h),此时是防护者的轮次,并且-(0.2l+0.3m+0.5h)3-0.1l+1.1m＞-(0.2l+0.3m+0.5h)3-0.7l-0.1m-0.2h,所以防护者采取防护策略d〈km,jd〉,收益为(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m).同理可求出博弈树高度为1的右侧子博弈最优策略和收益为d〈km,jd〉和 (0.6l+0.9m+1.5h,-(0.2l+0.3m+0.5h)3+0.6l+1.2m+0.2h).

最后对博弈树高度为0的子博弈进行分析,比较收益(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m)和(0.6l+0.9m+1.5h,-(0.2l+0.3m+0.5h)3+0.6l+1.2m+0.2h),此时是攻击者轮次,并且1.3l+m+1.7h＞0.6l+0.9m+1.5h,所以攻击者采取ace,收益为(1.3l+m+1.7h,-(0.2l+0.3m+0.5h)3-0.1l+1.1m).

经过分析,攻击者的类型为网络攻击时,博弈树的均衡路径如图2所示,攻击者的最优策略是ace和acd,防护者的最优策略是d〈km,jd〉.

3.3 物理攻击和防护者的序贯博弈数值分析

智能电网遭受物理攻击时,也会对网络造成影响,例如攻击智能电表会导致用户数据丢失,使得电网公司损失利益.所以影响函数Impact(a)也是由智能电网的保密性(Confidentiality)、完整性(Integrity)、可用性(Availability)、安全性(Safety)组成.对于智能电网的物理设备的安全,完整性(Integrity)和可用性(Availability)同时重要,其次是保密性(Confidentiality)、安全性(Safety).本文根据物理安全需求的重要性来分配权值,分别为ωI=0.4,ωA=0.4,ωC=0.1,ωSF=0.1.物理攻击中的恐怖袭击(Terrorist)、盗窃攻击(Steal)、自然灾害攻击(Natural disaster)分别用apt,aps和apn表示,其中apno表示不攻击策略.智能电网的防护者也会采取相应的策略,例如意外事故分析(Contingency analysis)、监控物理访问(Monitor physical access),用d〈ca,mp〉表示,其中dpno表示不防护策略.根据式(18)可计算出行为策略a的影响函数,如表5所示.

图2 网络攻击的序贯博弈树Fig.2 The sequential game tree for cyber attacks

假设攻击者第一阶段采取的策略为{aps,apno},第二阶段采取策略{apn,apt};防护者采取的策略为{d〈ca,mp〉,dpno}.博弈树的收益结果根据式(17)和表3进行计算,表示为(攻击者收益,防护者收益),其中根节点的初始收益为(0,0),实心圆表示攻击者轮次,空心圆表示防护者轮次.物理攻击的序贯博弈树如图3所示.通过数值算法对物理攻击的序贯博弈树进行分析,求出均衡路径.

首先从博弈树高度为2的最左侧子博弈开始,比较收益(1.1l+2.9m,-(0.1l+0.9m)3-0.6l+1.6m)和(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m),此时是攻击者的轮次,并且1.1l+0.2m+2.7h＞1.1l+2.9m,所以攻击者的最优策略是apt,收益为(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m).同理求出其余博弈树高度为2的子博弈最优策略和收益分别为apt和(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.8l-0.2m),apt和(0.3l+2.7h,-(0.1l+0.9h)3+0.2l+1.8m),apt和(0.3l+2.7h,-(0.1l+0.9h)3).

图3 物理攻击的序贯博弈树Fig.3 The sequential game tree for physical attacks

表4 行为策略a的影响函数(网络攻击)Table 4 The payoffof the behavioral function(cyber attack)

表5 行为策略a的影响函数(物理攻击)Table 5 The payoffof the behavioral function(physical attack)

其次对博弈树高度为1的左侧子博弈分析,比较收益(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m)和(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.8l-0.2m),此时是防护者轮次,并且-(0.1l+0.9h)3-0.6l+1.6m＞-(0.1l+0.9h)3-0.8l-0.2m,所以防护者采取的最优策略为d〈ca,mp〉,收益为(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m).同理求出博弈树高度为1的右侧子博弈的最优策略和收益为d〈ca,mp〉和 (0.3l+2.7h,-(0.1l+0.9h)3+0.2l+1.8m).

最后对博弈树高度为0的子博弈进行分析,比较收益(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m)和(0.3l+2.7h,-(0.1l+0.9h)3+0.2l+1.8m),此时是攻击者轮次,并且1.1l+0.2m+2.7h＞0.3l+2.7h,所以攻击者采取的最优策略为aps,收益为(1.1l+0.2m+2.7h,-(0.1l+0.9h)3-0.6l+1.6m).

经过分析,攻击者的类型为物理攻击时,博弈树的均衡路径如图3所示,攻击者的最优策略是aps和apt,防护者的最优策略是d〈ca,mp〉.

4 结束语

本文针对智能电网的防护者如何确定攻击者类型,进而选择最优防护策略的安全问题,提出了一种贝叶斯序贯博弈模型,为系统防护者及时提供决策分析.首先,通过静态贝叶斯博弈模型分析,根据贝叶斯纳什均衡解和攻击者类型为网络攻击的概率,确定攻击者的类型.其次,通过逆向归纳法对确定类型的攻击者和防护者之间的序贯博弈博弈树进行分析,根据均衡路径选择博弈双方的最优策略.通过对攻击者和防护者的静态贝叶斯博弈和序贯博弈树分析,解决了防护者不确定攻击者类型的安全问题,并且根据均衡路径得出了攻击者的最优攻击策略和防护者的最优防护策略,为保证智能电网的安全运行提供了参考.下一步值得进一步探讨的问题包括建立和分析攻击者和防护者之间的动态贝叶斯博弈模型,以及扩展序贯博弈模型中的行为函数收益公式等.