当前位置:首页 期刊杂志

融合改进强化学习的认知无线电抗干扰决策算法

时间:2024-05-04

朱 芮,马永涛,南亚飞,张云蕾

天津大学 微电子学院,天津 300072

1 引言

随着无线通信技术的发展,有限的无线电资源不能满足日益激增的业务需求,同时也存在部分频段利用率过低的情况。为了解决频谱利用的不均衡,认知无线电(cognitive radio,CR)[1]技术应运而生。CR系统被定义为智能无线通信[2]系统,指系统能感知无线电频谱环境,并且结合智能学习算法动态地调整传输参数,以达到合理占用授权用户频段的目的。针对频谱资源的有效利用问题,不仅在分配管理方面引起了研究热潮,而且出于对认知用户性能的保障,认知用户本身处于易受到干扰的无线电环境的问题也引起了相关重视。尤其在军事认知无线电中,面对可能的动态干扰,需要探索更加有效的抗干扰决策算法。

在频谱资源分配管理方面,对于典型的静态干扰问题,采用与智能算法结合的决策方案。可以通过进化算法和粒子群算法等优化算法[3]来寻找未被干扰的频段信息,通过神经网络算法和支持向量机算法等监督式学习算法[4]训练某种干扰场景下的数据,得到干扰的特征进而规避干扰频点。本文主要研究对环境认知的要求低,适应动态变化的性能强的模式自由的强化学习[5](reinforcement learning,RL)算法。将RL算法融合到中心式认知系统的资源分配和管理中,能够对认知系统的内部参数进行自适应调整[6],从而达到频谱资源充分利用的目的。文献[7-8]在结合5G通信技术的基础上,给出RL算法未来应用于认知无线电感知和决策的构想。面对认知系统中存在智能干扰问题,文献[9]用马尔可夫参数化模型求解干扰和能量收集的联合决策问题,并给出能量收集情况下合理的认知用户策略寻优算法。对有固定干扰策略的认知环境,文献[10]研究了以认知用户的吞吐量为参考标准的RL算法模型,分析了系统的功率分配性能。文献[11-12]中将RL融合到联合感知和决策的宽带自适应无线电系统中,以算法的收敛时间为反馈指标,提出了信道选择的优化决策模型。

考虑认知用户和干扰器之间的动态交互,联系到博弈论模型中的竞争关系。文献[13]利用博弈模型来解决CR干扰情况下功率控制问题,提高了CR决策性能。在博弈论的前景理论角度,文献[14]对认知用户和干扰之间的交互进行了系统的分析,通过设计效用函数找到博弈的纳什均衡点,进而给出提高吞吐量的策略选择。文献[15-16]中将多认知用户与干扰器的相互作用构建为零和博弈模型,借助RL算法对频谱质量和多信道选择策略进行了分析。以上文章介绍了融合RL算法的CR频谱分配问题和结合博弈论思想的CR系统容量分析,但其主要是解决系统功率分配或者用户信道选择单个问题。

本文针对认知用户面对的动态干扰问题,提出了一种联合功率分配和信道选择的决策算法,即存在智能干扰器的情况,在参考博弈思想的前提下构建效用函数,设计认知用户能量效率[17]为RL算法的评价函数,将改进的在策略RL算法应用到不需要信道转移概率信息的认知用户与干扰环境的交互模型中。第2章描述了认知用户与干扰器的CR交互的场景;第3章讨论了改进的在策略SARSA(state-actionreward-state-action)算法,并把无线电场景与改进算法合理地联系起来;第4章介绍了相关参数 设置、算法仿真以及系统性能分析;最后进行总结与展望。

2 认知系统模型

图1是单个授权用户系统中存在多个信道的场景。授权用户将其授权频段划分为信道增益不等的多个信道,明确指出某时隙内,无论是认知用户还是干扰器都只允许接入多个信道中的一个,图中虚线代表可能选择的信道,实线表示真正选择的信道。假设信道感知部分已知,认知用户能够实时地监测信道情况,主动地对授权用户的存在进行规避,当感知到授权用户的存在时,立刻释放当前占用信道。智能干扰器只对认知用户进行干扰,因此当授权用户存在时,认知用户和干扰器都不占用信道。

本文主要研究单个认知用户与单个干扰器的情况。将两者的交互过程构建为强化学习模型,认知用户以自主地选择其发射功率和信道为目的,来保证其性能相对最优。如图1所示,当认知用户2不存在时,即单个认知用户1与单个干扰器的交互。然后拓展场景到多用户的中心式CR系统与单个干扰器模型[11]中,由一个认知中心管理不同认知用户的发射功率和信道的分配,并假设此时干扰器能够同时干扰多个信道。

认知用户作为中心进行考虑时,将认知用户感知到的无线电环境作为状态信息,将认知用户选择的发射功率和所选信道标号作为动作信息。智能干扰器同样可选择自己的发射功率和占用信道来对认知用户的传输造成干扰,但其作为认知用户的状态信息存在。在两者交互过程中,假设认知用户和干扰器同时做出策略选择,两者只能以彼此的上一历史信息为学习参考进行动作选择[13]。

CR系统中通用的性能衡量参数主要有信干噪比(signal to interference plus noise ratio,SINR)、吞吐量、中断概率以及能量损耗等。借鉴基于博弈的无线电资源分配管理思想[18],认知用户以干扰器的动作选择为依据,综合发射功率和信道选择要求给出认知用户的SINR定义形式:

式中,p表示发射功率,h表示信道增益,ε表示高斯白噪声功率,i表示信道标号,s和j下标分别代表其属于认知用户或干扰器。S表示认知环境信息,a表示认知用户的参数选择,β表示授权用户的存在信息,I(·)是指示函数,I(is,ij)代表认知用户与干扰器选中同一信道。在发射功率的选择上,发射功率越大,接收端将会得到更高的SINR,但会消耗更多的能量。同时考虑到认知用户与干扰器的交互过程中,认知用户为了规避可能的干扰选择跳频的情况,给出能量消耗的表达:

e表示单位发射能量损耗,c表示跳频能量损耗,代表认知用户是否跳转信道。

传统算法仅以满足最低通信质量或者可达到的传输速率的最优化为单一目标,本文在可达速率的基础上,加入能量消耗的考虑,从通信质量和通信条件两方面来设计效用函数,更具有能效均衡[19]意义。以下定义系统能效的比率形式:

式中,W表示信道带宽。将计算能效的函数表示为RL中的瞬时奖励函数,通过两者动态的交互,认知用户能够实时地改变策略选择,进而改善频谱效用。

3 融合强化学习的认知抗干扰算法

强化学习算法作为一种模式自由的在线机器学习算法,不需要状态转移概率作为先验信息,在智能体与环境的交互过程中旨在通过试错来学习,使得选择的策略获得最大的平均累计奖赏值。传统RL算法中以状态动作值函数Q(S,a)为标准衡量算法的性能,Q函数本质是状态与动作之间的映射关系,代表不同状态下不同动作选择的一个策略参考。Q值函数更新规则表示如下:

式中,α是学习因子,表示算法学习速率,γ为折损因子。式(6)是状态值函数,表示对当前状态的一种动作选择:总是选择最大Q函数值的作为V(S)。

最初RL应用于迷宫中路径寻优[20],不同的RL方法在不同的场景下具有各自的优势和劣势。由于认知用户在接近实际的CR环境中,不能够获得完整的环境信息,因而融合RL算法于认知系统中。在未知信道转移概率的情况下,将认知用户与动态干扰之间的交互构建为RL算法模型,可凭借观察到的状态信息和对应的奖励反馈信息对自身参数进行动态的策略选择,从一定程度上减少了认知决策对环境信息的要求。本文根据认知场景考虑了从属于时序差分[21](temporal difference,TD)强化学习算法的SARSA算法和TD(λ)算法。

结合RL算法的单个认知用户与单个干扰器交互模型中,将认知用户的动作表示为a=[p,i],其中p∈Ps,i∈Φ,a∈Α(Α:Ps×Φ);智能干扰器以同样方式选择自己的策略为d=[p,i],p∈Pj,i∈Φ,d∈Λ(Λ:Pj×Φ);将信道的情况与干扰器的策略选择作为认知用户的状态信息S=[β,d],β∈B,d∈Λ,S∈Ω(Ω:B×Λ)。若空闲信道数量为M,将信道的增益集合表示为固定的常量形式H={Δ∙m|0<m<M},对应的瞬时奖励值用认知用户的能效式(4)表示。在多认知用户多信道的功率分配系统模型中,假设干扰器同时能够干扰多个信道,系统模型的参数设置与单认知用户类似。假设干扰器同时能够干扰J个信道,状态空间近似为S'=(S1×S2×∙∙∙×SJ)。认知用户的策略选择由认知中心作为与环境交互的智能体,动作空间据认知用户个数W变化近似为Α'=(Α1×Α2×∙∙∙×Αw)。在认知中心的分配下,将单个用户的能效分别计算,系统的总能效记为多个用户的能效之和。

CR系统中的干扰具有不确定性和不稳定性,不能把当前的信息当作全部特征信息做认知决策和判断,需要一段时间的信息收集。但传统SARSA算法仅利用当前因素,不考虑其他未来因素的影响,具有局部性,不能保证整个过程的全局最优。TD(λ)学习算法[22]是对原始TD算法的改进,对不同的时间差分情况以参数λ给出一定的权重表达。综合借鉴SARSA算法和TD(λ)算法的优势,把场景适应性、当前的影响与未来步骤可能对当前的影响融合在一起,在牺牲少许复杂度的情况下,提出多步SARSA算法来有效提高收敛速度和性能。

本文据TD(λ)学习算法以权重的形式采取不同的步骤反馈情况,参考Watkins观点[23]的某时刻的校正K步截止奖励形式和文献[24]中K步的TD(λ)加权平均值的奖励形式,给出结合SARSA算法的某时刻的K步奖励定义:

式中,rt表示当前的瞬时奖励值,rt+i表示未来i步的瞬时奖励值,λγ部分表示对应于不同的步骤权重影响。为了简便记录给出如下式子:

因此可重新改写K步截止奖励的形式如下:

将式(10)代入式(5)中,给出改进的多步SARSA学习的Q函数更新规则:

改进的SARSA算法将选择的动作真正应用到算法的迭代当中,在更新时选择的下一状态和动作都需要执行,因此成为在线的学习算法。式(11)表示状态动作对的Q值更新规则,对比于式(5),这个Q值的更新就综合了未来K步的影响。

此外,传统的动作选择算法思想是在策略的基础上结合随机思想,将局部最优解接近整体最优解。如下给出贪心策略的定义:

其中,pr表示随机生成的概率;ε表示探索与利用的均衡阈值参数,参数越小算法越倾向利用经验对策略选择,否则算法倾向于选择一个随机的动作。

选择固定参数会使得算法不能随着迭代的进行有效地均衡探索与利用,本文对固定参数的贪心算法进行改进,以交互次数的自然对数的倒数为均衡参数ε,来增强算法的学习灵活性。在算法的初始阶段交互次数小,对环境信息没有足够的了解,对当前的状态需要更多地探索不同动作会带来的结果,充实不同状态下动作选择的Q值,此时设定的均衡参数较大,符合以大概率来探索可能的解的需求。在算法的后续阶段,当收集到部分环境信息后,对不同状态下的动作选择有了初步的掌握,此时设定的均衡参数逐渐变小趋于0.1,能保证以较大的概率充分利用已获得的历史经验的同时,以较小的概率对环境状态的随机动作选择做出探索。

算法初始时随机假定一个干扰动作,在交互过程中,认知用户以感知到的信道信息和干扰的前一动作信息为当前状态信息,以改进贪心算法选择动作,结合奖励值rk,λ对Q值函数内容更新。当授权用户存在时β=0,认知用户和干扰器都不进行动作选择,记录此次的奖励值r=0。如下以认知用户为主体,以前一次干扰策略和信道信息为状态,给出算法核心步骤:

(1)初始化。初始数组Q、E、E'元素为0,对于初始环境状态S=S0,默认以相等概率(|A|表示动作空间的大小)随机选取初始状态的动作a=a0,并执行该动作。

(2)循环。设定算法执行的最大循环次数N:

①执行动作后,以认知用户对信道的实时监测性能观察到下一环境状态情况St+1,进而用改进贪心算法选择其动作at+1。每次选择动作时,随机生成一个概率值,并比较概率值与交互次数的自然对数的倒数值的大小,利用式(12)选择动作。

②用式(4)计算当前状态-动作选择的能效即奖励r,进行实时的记录;并由式(8)、式(9)计算et和et'存放于E、E'数组中。

③采用式(11)更新Q(S,a),随着算法进行其值逐渐变化,表示对当前S-a选择的评价更新。

④将下一状态和动作对当前的状态和动作更新S=St+1,a=at+1,并判断当前的执行次数是否到达N,未到达则开始新一轮迭代,否则算法结束。

4 系统仿真与性能分析

利用MATLAB仿真软件,根据相关参考文献数据设定认知决策系统模型中参数。将认知用户和干扰的发射等级设置为3级Ps/j={1 dBm,3 dBm,6 dBm}。可用信道的个数设置为M=4,Φ={1,2,3,4},单位信道增益设置为Δ=0.2,信道带宽记为单位带宽B=1 MHz。设置单位的发射功率能耗e=0.02,设置认知用户跳频的能耗c=0.02。噪声功率设置为-60 dBm,折损因子δ=0.7,参数λ=0.85,授权用户的存在用β=0/1表示。

4.1 收敛性

为了体现改进的SARSA学习算法对比于传统算法的收敛性能,在相同的随机选择状态场景下,以每次迭代的Q函数平均偏差为收敛参考标准。设定折损因子δ=0.7,权重参数λ=0.8,学习速率α根据迭代次数倒数来设计,迭代次数根据算法的状态和动作空间合理选择N=10 000。针对K步骤的确定,K的增加会导致算法复杂度的增加,仅在较低的复杂度情况下,讨论了K=2,5,10不同步数的算法对比情况。

图2曲线为算法执行100次后取其统计平均得到近似结果,能够看出多步的学习算法比传统的算法在初始阶段收敛速率快。若以平均偏差0.05为界,改进算法约比原始算法收敛效果提高一倍,但后期趋于稳定。这是由于传统算法在积累到一定的迭代次数后也能够对环境信息进行学习,改进的算法在初始依靠未来步骤影响能够较快地探索较优策略选择。对比于不同的步数选择上,考虑到计算复杂度与迭代次数足够情况下,算法的效果都能较好收敛,在以后的仿真中固定步骤K=5。

Fig.2 Comparison of improved algorithm and original convergent图2 改进算法与原始收敛比较

4.2 抗干扰性能

构建认知用户与干扰器之间的交互过程,考虑到多步的改进算法对初始部分的收敛情况有提高,设置前部分的迭代次数用多步改进算法,后部分的迭代用原始算法。算法最终的结果以整个过程中迭代的累计平均奖励的归一化形式表示:

式中,N随着迭代次数的增加而增加。累计平均奖励以概率的形式表示算法选择的动作的平均效果,其值越大代表算法选择的策略对干扰存在场景越有效。另一有效的策略选择评价准则定义为成功次数:将评价能效的瞬时r函数值在每次的交互过程中记录下来,在给定性能阈值的条件下,大于阈值的效用记为1,小于阈值的效用记为0。阈值的选取依据得到的实时仿真数据,选择中位数作为通用标准阈值。

动态干扰定义为在认知用户对认知环境做出动作选择后,具有信道感知能力的智能干扰器能在下一状态对当前可能的用户占用的信道进行干扰,为了更加贴近实际,设置干扰器以一定的感知误差概率pe=0.1进行干扰。随机干扰场景下设置干扰器以随机概率的形式生成干扰策略,不依赖于其他条件。本文对比了三种不同的策略选择,包括智能策略、固定策略和随机策略。智能策略表示按照改进的算法或传统算法进行动作选择,固定策略以选择信道增益最大信道为标准选择动作,随机策略则是在动作选择上服从均匀分布。

随机干扰场景下认知用户无法得到干扰策略的任何信息。图3仅表示某一次随机干扰存在情况下的仿真结果,对比了不同策略的累计平均奖励值的变化曲线。因为固定策略和随机策略选择动作的条件固定,不能够动态地随环境的变化而智能转变,所以初始阶段都会出现一段时间内的性能不稳定,且随着迭代次数的增加性能不会有所提高。但智能策略通过强化学习对环境进行有效的策略尝试和信息学习,以Q值函数评价标准,依然能够选择较优的信道和功率策略,使系统性能有明显的提高。

Fig.3 Performance comparison of algorithm and other strategies in one stochastic interference图3 某一次随机干扰下算法与不同策略性能对比

Fig.4 Performance comparison of algorithm and other strategies in dynamic interference图4 动态干扰下算法与不同策略性能对比

由于初始的状态和动作选择不同,可能会导致不同的状态动作选择轨迹。为了体现性能的稳定性,图4是动态干扰场景下算法50次的统计平均曲线。结果显示所提出算法可以使得累计平均能效收敛到0.755,传统学习算法的累计平均能效收敛到0.626左右,固定策略的累计平均能效平稳于0.511,随机选择策略累计平均能效稳定在0.396。由于固定策略和随机策略是不会随环境改变的,因此决策效果收敛快且后期不会有所改进。智能算法在初期通过对环境大范围地探索可能解,存在一个学习过程对应于曲线上升部分,后期以改进贪心思想更多地利用累计信息决策,使得算法效果逐渐收敛。改进算法的平均能效性能比传统算法提高约20%,比固定策略大概提高47.8%,比随机策略提高90.6%左右,说明改进SARSA算法能够对动态的认知环境变化做出自适应的策略调整,为简单的认知抗干扰问题提供有效的决策方案。

图5为随机干扰场景下不同策略的50次累计平均奖励值的变化曲线。对比于动态干扰的效果,由于动态干扰策略相对随机干扰存在一定的经验规律,因此本场景的整体算法决策效果会比动态干扰场景的略差。结果表明改进的学习算法较传统算法依然具有9%的性能提高,频谱的能效比给出的固定策略提高25.5%,较随机策略选择性能提高61.1%左右。

Fig.5 Performance comparison of algorithm and other strategies in stochastic interference图5 随机干扰下算法与不同策略性能对比

图6表示随着算法的进行认知用户与干扰器交互过程中成功的交互次数,与图5的效果相对应。在单次的实验结果中,由于认知用户在尝试不同的状态动作选择时首先经过一个探索的过程,算法初期阶段的成功次数为0;经过交互次数的增加,成功次数曲线图是阶梯式增加的。图6是保证效果稳定性的50次平均结果,阶梯增加的效果不明显,但成功次数整体上升的趋势是不变的。

Fig.6 Relatively successful action selection in stochastic interference图6 随机干扰下相对成功的动作选择

考虑本文参数设定,假定由一个认知中心管理两个认知用户,干扰器能同时干扰两个信道,系统的总能效为两个用户的能效之和性。由于认知中心和干扰器的设定,导致强化学习算法的状态空间和动作空间成平方倍增加。为了遍历所有可能的状态动作组合找到最优,在仿真的参数设置中需要合理地提高整个算法的迭代次数至50 000。仿真结果如图7所示,改进算法的整体性能对比随机策略约提高47.7%左右,说明所提出的算法在该环境中选择的功率和信道策略同样比随机选择策略有效。

Fig.7 Algorithm comparison of random state multi-user situation图7 随机状态下多用户情况算法对比

5 结束语

本文首先基于传统强化学习算法提出了改进的SARSA算法,并用仿真结果证明了其收敛性能的提高。然后在合理利用认知环境信息的情况下,分析了认知用户在干扰存在场景中的学习决策,将改进的SARSA算法融合进认知决策当中,提出了一种抗干扰决策算法。通过仿真环境与认知用户的交互过程,以认知用户的能效为性能参数,证明了不同策略下提出算法在该场景中的合理有效性,对未来复杂的CR场景认知进行了初步的探索。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!