时间:2024-05-04
钟云杰,张金丽,张潮阳,严晓康,沈晓辉
(1.新凤鸣集团股份有限公司,浙江 桐乡 314513;2.浙江五疆科技发展有限公司,浙江 桐乡 314513)
为了满足各类场景的应用需求,3GPP提出了5G通信的3大应用场景,即高可靠低时延通信(uRLLC)、增强移动宽带(eMBB)、大规模机器类通信(mMTC)[1]。工业互联网场景对工业生产的信息传输可靠性要求较高,5G uRLLC业务的应用可以在超低时延要求下,实现高可靠的工业生产数据传输,可以满足工业互联网场景的应用要求[2]。然而,工业互联网场景下5G uRLLC资源调度问题始终影响着业务通信质量,需要采取合理的资源调度策略,提高时频资源的利用效率,从而充分保障数据传输性能。
上行传输场景的资源调度问题集中在uRLLC与eMBB混合业务的资源调度问题,此时基站范围内同时存在着m个uRLLC用户(Nu)与n个eMBB用户(Nb),前者具有零星、随机发送给业务的特征,发送业务状态定义为0=休眠、1=激活,则uRLLC用户的状态集为:
NU={stateU1,stateU2,…,stateUm},stateUi∈{0,1}
(1)
其中,stateUi=0表示uRLLC用户i处于休眠状态,不需要分配资源;stateUi=1表示uRLLC用户i处于激活状态。
当总频率资源块数一定时,首先面向uRLLC用户分配少部分资源,即私有资源,其余资源同时供2种用户使用,通过中断概率对传输可靠性进行约束。则资源调度问题可转化为最大化系统与速率为目标的优化问题,约束条件共有4项,分别为uRLLC业务传输速率阈值约束、eMBB业务传输速率阈值约束、共享资源数量约束、共享资源中用户数量约束,数学模型如下:
s.t.C1:RUi≥RUmin∀stateUi=1
C2:RBj≥RBmin∀j
C3:F-x≥Fb
C4:「(Nuact+Nb)*Fb/F-x⎤≥Nuserf≥「(Nuact+Nb)Fu/F-x⎤
(2)
其中,C1—C4对应上述约束条件;RUi、RBj分别为uRLLC用户与eMBB用户的传输速率;RUmin、RBmin分别为uRLLC用户与eMBB用户的最小传输速率;F为总资源;x为私有资源数量;Fb为eMBB业务传输的资源块数;Nuact为uRLLC用户激活数量。
在下行链路场景中,业务终端随机分配到蜂窝网络中,由N个小区组成,基站处于网络中心,每个小区的终端数为K,有M个资源块RB,且M (3) 整个系统的容量和为: (4) (5) 对于上行传输场景的5G uRLLC资源调度问题,本研究设计了一种基于Q学习算法的动态资源调度算法。在上行传输场景中,将基站设定为智能体学习资源分配策略,基站在学习时,可获取的状态S为: S={S1,S2,…,Sm,Sm+1,…,Sm+n-1,Sm+n} (6) 其中,Sm为用户m各项参数的集合,包括位置信息、用户状态信息、用户发射功率信息与信道状态信息。 基站作为智能体,其动作空间应划分出私有资源分配与共享资源分配2种,私有资源分配行为定义为1,共享资源分配行为定义为0,因此基站可以执行的某一动作a为: a={kindf1,kindf2,…,kindfl,…,kindfF}, kindfl∈{0,1} (7) 其中,kindfl=0表示资源块l为私有资源;kindfl=1表示资源块l为共享资源。 根据构建的数学模型,优化目标设定为最大化系统和速率,因此可以依据系统和速率进行奖励函数的设定,此外还需要考虑系统的资源分配需要充分保障数据传输的可靠性,即保障所有用户均可以成功传输,则此时可以满足C1、C2 2个约束条件,则奖励函数如下: (8) 其中,γUi、γBj分别为uRLLC用户与eMBB用户的信干燥比。 状态转移矩阵是指描述状态改变的概率矩阵,马尔科夫模型的求解通常需要采用Model-free的方法,Q学习算法正符合这一要求[3]。 基于Q学习算法的动态资源调度算法是以基站为中心面向不同业务进行资源分配的动态资源调度算法,在对模型训练时,采用贝尔曼方程设计Q值更新策略,通过对下一个状态的Q值推出当前状态的Q值,以状态间的Q值比计算出增量,从而实现对Q值的不断更新。在设计的算法中,Q值的更新前提为新Q值大于当前Q值,设定的具体更新策略为: Q(st,αt)=(1-α)Q(st,αt)+α[rt(st,αt)+μmaxQ(st+1,αt+1)] (9) 其中,α为学习率,α∈[0,1]学习率的值决定了Q函数的更新速度;μ为折扣因子,μ∈[0,1],其值为0时,基站进行学习时更侧重即时奖励,其值为1时,基站进行学习时更侧重未来回报。当基站每更新一次Q值时,便需要利用ε贪婪策略进行下次学习动作的更新。该策略的具体流程如下:设定常数ε,取值范围为[0,1],当Q学习算法需要选取动作时,常数ε随机生成x∈[0,1],随机生成的数x小于常数ε时,会在动作空间中随机选取下一动作,而大于时则在现有动作中选取最大Q值的动作作为下一动作。本研究设计的基于Q学习算法的动态资源调度算法具体流程如图1所示。 图1 基于Q学习算法的动态资源调度算法 对于下行链路场景的5G uRLLC资源调度问题,本研究设计了一种基于终端业务调度时延要求的DPF算法,该算法在对终端资源调度的优先级顺序进行判定时,主要依据调度时延要求、实时信道条件与获取到的平均资源数量,则调度优先级的判定公式如下: (9) 具体算法流程如下。 (1)将终端速率R0作为初始化速率。 (3)所有终端都可以获得RB调度,同时下行传输功率进行均分处理,求得不同终端的预计可达传输速率:R_exp(a,b,t0)。 (4)对所有终端的优先级进行更新,并按照降序方式进行排列,将小区M个资源块按照顺序分配到前M个终端。 t=t0时隙的信道资源调度结束后,进行功率分配,当完成本轮的资源调度与功率分配后,接着开始下一轮的资源调度,重新从流程(1)开始。 为了验证本研究提出的工业互联网场景下5G uRLLC资源调度方案的有效性,本节分别对2种场景的资源调度算法进行仿真验证,仿真参数设定如表1所示。 表1 主要参数 针对上行传输场景,仿真了用户数量变化时,不同资源分配方案对传输速率的影响,eMBB、uRLLC的用户数量分别设定为5、10,在仿真条件下,系统迭代收敛代数为84次,因此设定最大迭代次数K为100。经验证,随着uRLLC用户数量不断增加,设计的资源调度算法对系统与速率提升效果越好,对比资源复用方案与资源预分配方案,分别平均提升了38.98%与48.74%。同时,在uRLLC平均传输速率方面,本研究算法也有明显优势,平均传输速率可达114.62 bps。 针对下行链路场景,仿真了小区终端数量变化对系统可靠性与传输速率的影响。在仿真条件下,设计的调度算法可满足不同等级终端的调度优先级要求,且当小区终端数量提高时,可靠性越高,系统吞吐量越小,越可以保证调度公平性,即可以保证所有终端均可以获取到信道资源调度,可以满足资源调度要求。 工业互联网对资源调度提出了高可靠低时延的要求,5G uRLLC业务可以满足其资源调度要求,本研究工业互联网场景下5G uRLLC资源调度方案,上行传输场景采用基于Q学习算法的动态资源调度算法,下行链路场景采用基于终端业务调度时延要求的DPF算法,从而实现全场景下的合理资源调度。2 工业互联网场景下5G uRLLC资源调度研究
2.1 上行传输场景的5G uRLLC资源调度
2.2 下行链路场景的5G uRLLC资源调度
3 仿真验证与分析
4 结语
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!