时间:2024-07-28
刘 畅,李 杰,李 娟,李亿俍
(北京理工大学机电学院,北京 100081)
随着近年来无人武器系统的发展,越来越多的无人装备在战争中频繁出现。在纳卡冲突中,作战双方的无人装备承担了侦察、攻击、干扰、诱骗多种任务,甚至出现了双方无人装备对抗的场面[1-3]。同时,无人装备还在以更加迅猛的势头不断发展。以飞航领域为例,从早期的无人机[4]到巡飞弹[5],再到最新的“蜂群”作战[6]可以看出,飞行器的使用已经向智能化、集群化的方向发展(如图1 所示),这期间所经历的技术变革时间也在逐渐缩短。
图1 国外集群项目示例Fig. 1 Illustration of foreign swarm projects
作为无人装备的一个重要发展方向,集群智能是一个涉及多学科交叉的前沿问题,也是当前研究的热点问题。目前,集群武器装备的实现仍面临很多问题,其中集群行为涌现机理以及对大规模集群的控制方法是要解决的首要问题[7]。
对于集群行为涌现机理而言,慎思型集群和反应式集群[7]均可完成分布式自主集群行为。其中,慎思型集群任务效率高,但对信息的依赖程度高;反应型集群任务效率低,但对信息的依赖程度低。
在实际系统中,上述两种构型的混合可以获得良好的作战效能[8]。当前,慎思型集群的相关研究已经相当充分,并有了比较深入的应用,如多任务分配、协同路径规划等,实现了很多复杂编队、联盟呼叫等集群行为[9-11]。然而,反应式集群则仍停留在理论层面。
构建反应式集群的最大难点在于探索集群行为涌现的机理。由于信息的不完整和随机性,导致个体在进行决策时无法向涌现的方向“前进”。这方面的研究始于对大自然中群体性生物的研究,特别是昆虫,如蚁群、蜂群、鱼群、鸟群等。研究者发现,大量的看似有规律的集群行为往往不需要或仅需要简单的信息交互就能完成,如蚁群合作搬运大型物体、蜂群建巢、鱼群躲避大鱼攻击等[7-8]。相比于直接信息交互(如广播、射频通信等),基于共识主动性的间接信息交互是导致大规模集群出现涌现现象的主要原因。此处,共识主动性描述了个体通过自身的行动改变环境,而改变的环境能够被集群中的个体发现并影响其个体行为[8]的现象,如图2 所示。
图2 共识主动性原理示意图Fig. 2 Schematic diagram of consensus initiative
近几年,有关集群涌现的理论研究和实验性验证正在逐渐增加,其中比较有代表性的包括依靠个体简单二维震动向光源移动(如图3 所示)[12]、基于简单信息和个体规则的组群/避碰/躲避等动作的最大化未来状态(Future State Maximization)框架[13]以及基于无人机规则的作战任务执行框架[14]。虽然上述研究成果仅从原理上说明了反应式集群的可行性,但是其展示出了以下优点:良好的环境适应性;数目可任意扩展;较低的人机交互难度等。
图3 基于个体震颤的集群趋光过程Fig. 3 Phototaxis process based on individual tremor
本文在上述几种反应式集群框架的基础上,结合现有视觉信息处理技术,构建了基于个体行为规则(和个体能力与控制关联)和集群行为原型(和作战任务相关联)的反应式集群框架。此外,对简单的区域搜索、饱和攻击进行了嵌入式级的实现,并对影响效率的关键因素进行了深入分析,为构建智能集群装备进行了基础理论的探索。
对于构建反应式智能集群的实现而言,需要解决的关键问题有:个体行为和集群行为之间的关联;个体之间的信息交互方式;集群决策方法。
借鉴多智能体理论中对自组织集群的构想,反应式集群的基本框架如图4 所示。其中,A为集群中的智能体,E为环境,S为宏观状态,f是状态转移公式,h是抽象方法,g是行为规则。微观层级包含个体、个体感知到的环境,宏观层级则由微观层级或部分微观层级组成。图4 描述了这样一个过程:微观层级的改变(按照f进行状态转移)会造成宏观层级的改变,且宏观层级的改变之间没有直接的联系(仅和h相关)。下面将对该模型进行数学化描述。
图4 反应式集群的基本框架Fig. 4 Framework of reactive swarm
状态的转移是基于个体完成的,确定状态转移方程主要有两个目的:①确定行为特点;②确定决策的输出。以巡飞弹为例,个体的转弯半径、飞行速度、飞行高度、探测距离、攻击命中精度都可以纳入到状态转移的方程中。以二维平面运动为例,建立3 自由度运动模型,运动学方程可简化为
式中,在机体坐标系下,tv为前向速度,lv为侧向速度;在导航坐标系下,xF为横轴受力,yF为纵轴受力;θ为航向角。
基于这类行为特征,控制模型使用常见的纵向总能量控制和横侧向的L1 控制,基本控制结构如图5 所示。基于这一考虑,由航点引申出的速度方向、大小均可作为个体决策的输出量。理由如下:作为一个典型的双环控制结构,外环控制量响应周期长,对巡飞弹安全影响不大,适合作为个体决策的输出量。
图5 适用于巡飞弹的双环控制结构Fig. 5 Dual-loop control structure for aircraft
在确定了以外环控制量为决策输出量后,就可以构建个体行为规则。基于个体的能力以及实际的工作过程,可以设计出个体的行为规则。以巡飞弹集群的工作过程为例:首先假设个体能够感知到一定范围内的其他个体的角度信息和速度信息,此时最基础的个体行为规则可以设计为速度方向一致、聚集、避免碰撞3 条。这3 条最简单的规则来源于对生物界大规模集群的观察[15]。我们以速度方向为个体行为规则的输出,那么针对第i个个体3 条规则的详细描述如下。
速度一致规则
聚集规则
避免碰撞规则
式中,dk是个体i到邻域个体k的距离。
最终这些规则都是以期望的速度矢量作为输出,这样综合使用上述3 条规则便可以得到个体的决策模型
不难发现,这3 条规则中并没有包含任何与集群行为相关的信息,只是规定了当能够感知到其他个体时的自己的速度方向决策规则。
式中,φm为第m种规则的权重,且 ∑φm=1。
应用上述的方法,可以实现一些最简单的集群行为。例如,聚成一团向某一方向移动且相互之间没有碰撞、以簇为单位躲避障动态/静态的障碍物。
图6 展示了100 个个体的集群行为,其中蓝色箭头代表了个体的速度方向,红色曲线表明了集群形状重心的变化。可以看到所述反应式集群框架有效地维持了集群的形状。
图6 集群成团随机移动Fig. 6 Moving randomly as a swarm
进一步,文献[15]中的结果,调整权值的大小可以将自然界中的一些集群行为对应到数值仿真中,如表1 所示。我们以躲避动态障碍为例,进一步分析模型及关键参数的作用。此时,会增加一个远离障碍的规则4,其方法与式(2)~(4)类似。
表1 不同集群的参数设置Table 1 Parameter settings of different kinds of swarm
首先,集群中的个体在初始时刻会有一个随机分配的移动方向和速度,并同时能够观察到领域内的个体速度方向。此时,式(6)将信息进行加权处理。当1φ为1,其余为0 时,个体将以趋向观察的速度矢量和方向移动(形成速度一致的群);反之,则按照各自的初始速度方向移动(无法形成群)。由此可见,规则2 和规则3 保证了集群的基本形状,即不远离也不碰撞。
然后,当遇到障碍物时,规则4 发生作用。此时,个体在远离障碍物的同时,还要保证规则1~3 的作用,表现出了集体躲避的效果。此时,个体的探测范围将对集群后续的行为起到至关重要的作用。如果探测范围足够大,个体能够看到更多的其他个体,则集群会恢复至远离的状态;反之,由于躲避而分散的个体将形成新的集群,继续向目标前进。集群躲避障碍物过程如图7 所示。
图7 集群躲避障碍物过程Fig. 7 Process of swarm avoiding obstacles
至此,通过可以总结出反应式集群具有以下优秀特征:
(1)集群规模限制较少。由于个体之间不存在频繁的主动通信,因此个体数量不会受到动态数据链的制约。
(2)同构个体能够自主分化。受到环境和个体自身能力的影响,集群能够自动分化出新的、小的集群。
(3)个体规则保证了任务执行的下限。即使遇到最恶劣的环境,即信息完全封闭时,个体规则仍能保证基础任务的执行。
基于上述特性,我们认为将这一框架推广到装备领域具有光明的前景。首先,规模无限制以及对通信的不依赖可以使得集群装备在战场上的生存能力和环境适应能力大大提升;其次,同构分化的能力可以降低对装备的操作依赖程度并提供了同时进行多种任务的可能性;最后,个体规则的存在使得一些作战中特殊的使命,如自毁、掩护、安全对抗等能够得到执行。
当然,距离反应式集群的实用化还存在一个巨大的技术难点:如何基于作战任务进行驱动。换句话说,就是如何利用上述特性控制一个反应式集群,使之能够高效地完成作战任务。我们通过添加集群行为原型可以解决这一问题。
首先,进行简单的作战想定:20 个个体对1 km2区域进行搜索;找到隐藏在区域内的5 个目标并进行攻击;每个目标遭到2 次以上的打击后消失,剩余的个体继续在区域内实施封锁压制。
为了简化问题,还是以式(1)~(6)来建立基础的个体规则。然后建立集群行为原型,且每个行为原型都对应一种作战任务。以最简单的原型为例:对固定区域进行搜索,等价于最大化个体航迹的覆盖率;对某一点的聚集,等价于对某一目标的饱和攻击。将这两种行为原型的权值添加到式(6)中,得
式中,ω是行为原型的权值,l是行为原型的种类,在示例中为1 和2,且ω∑ =1。作用过程和个体规则中的φ类似,不同的ω可以组合出各种和搜索、攻击相关的任务,如搜索覆盖率、搜索队形、聚集方式、攻击判断等。具体来讲,比如对于集群协同攻击任务而言,在发现目标前,蜂群可以在搜索行为与聚集行为的加权共同作用下,以小编队形式进行分组区域搜索;当某一个体发现目标后,范围内其余个体聚集规则的权值增大,将趋于快速飞向发现目标的个体,实现协同攻击。个体决策流程如图8 所示。
图8 个体决策过程Fig. 8 Individual decision-making process
不难发现,集群行为原型将个体、环境通过预先规定的任务联系到一起。至此,基于任务驱动的反应式集群框架已经搭建完毕。
接下来,就是确定任务驱动反应式集群框架中的权值,也就是式(7)中的ω和φ。与第1 节中确定φ的方式不同,我们需要将任务带入到权值过程,才能让集群按照期望的方向涌现集群行为。例如,希望集群能够涌现出覆盖目标区域的行为,我们需要以搜索覆盖率最大化为目标进行训练,并得到相适应的权值组合。
如何组合多个权值(即示例中的2 个ω值和3 个φ值),这一问题在实现过程中是一个NP 完全问题。同时,这一问题还是动态的、随机的:个体、集群面对的环境随机性比较大,任务充满对抗。例如,我们既希望集群能够在最短的时间内完成对目标区域的覆盖,又希望在发现目标时能够形成协同攻击。前者要求个体尽量分散,而后者则希望集群在搜索中能够保持一定的队形,方便攻击。因此,造成集群中个体所面对的环境差异很大,这就对权值的适应性提出了较高的要求;另外,为了高效率完成集群任务,权值对行为原型目的的实现要有比较高的准确性。
面对这样的问题,启发式算法脱颖而出。启发式算法是相对于最优化算法提出的,其目标是基于经验构造算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题全部实例的可行解[16-18]。由于随机性和环境不确定性的存在,一般的最优算法无法给出满意的权值设计,因此启发式算法是目前找到行为原型权值的理想方法。由于启发式算法种类很多,本文以遗传算法为例简单介绍针对示例问题的权值确定过程。
与一般的问题类似,首先确定优化变量。这一步很简单,所有行为原型的权重和每一个行为原型中的个体规则对应的权值就是优化变量。
然后是编码过程。本文采用5 位二进制编码,将所有权重组合起来形成一串编码,如图9所示。
图9 编码过程Fig. 9 Encoding process
交叉过程则类似于两点交叉,在行为原型权重和个体规则权重之间进行交叉,有目的地扩大任务对进化的影响。
变异与一般的变异操作相同,种群中的每个个体根据概率决定是否进行变异操作,需要进行变异的个体根据变异比例的参数随机选出需要变异的基因位。
最后是选择过程。在这过程中,最重要的环节是适应度函数的构建,也是将任务和个体规则相关联的过程,以对区域进行搜索的任务为例:设定任务区域的总面积为Lx×L y=Ωarea,在仿真结束时,巡飞弹集群对区域的搜索覆盖总面积为Ωcoverage,则以区域搜索为任务目标的适应度函数为
适应度值fitness越大,表示巡飞弹集群的行为表现越好,并以此作为选择遗传结果的标准。进而采用最优保持选择的策略进行选择过程,即将种群中所有个体按适应度值进行排序,选择适应度值较高的一部分个体进入下一代。这样做可以保证快速收敛,最终得到一组权重值。该组权重值连接了个体的输入和输出,如图10 所示。至此,我们就完成了全部的反应式集群框架,并将之处理成加权求和的算式,可以很方便地在各种计算平台上进行实现。
图10 个体决策选择过程Fig. 10 Individual decision-making process
虽然式(7)解释了个体决策过程,然而对于装备的研制而言,至少还需要加入集群中个体的控制规律以及感知手段。为了进一步提高仿真的仿真度,我们基于开源的MPE(Multiple Particle Environment)环境,构建了巡飞弹集群行为仿真环境MAE(Multiple Agent Environment),基本组成框图如图11 所示。
图11 MAE 仿真环境基本构成Fig. 11 Basic composition of MAE simulation environment
其中,决策算法的实现是基于嵌入式系统和C++环境完成的;MPE 环境中质点运动方程被改成描述飞行器平面运动的“质点+平面转动”刚体运动方程,增加了飞行器的双环控制回路;通过对信息传递建模,可以对环境感知进行模拟。
(1)仅依赖视觉的感知输入:个体依靠距离和角度模拟是否能够发现其他个体。基本的判断条件如图12 所示。该方法类似于视网膜投影,个体仅能获得离散的相对方位(θ)上的其是否存在他个体这一条信息。这么做的目的是最大程度上削弱个体对通信的需求,从而提升框架的适应性。
图12 个体获取信息的示意图Fig. 12 Schematic diagram of information obtain
(2)优化确定权重。为了使得权值兼顾适应性和执行效率,大量的离线训必不可少,也就是需要设计场景提供数据,以满足遗传算法的要求。这里以随机初始位置、随机初始速度、随机区域内目标位置等变量构建场景,并进行训练。
(3)边界规则。与个体行为规则不同,边界规则是优先级最高的规则,它规定了飞行器触碰到边界时该如何决策。这个决策和集群行为无关,简单的镜面反射或随机反射均可。
设置测试场景参数如下:区域范围 4 km×4 km、节点数50 个、通信判断范围500 m、探测范围200 m×300 m、目标识别概率80%、固定目标5 个。通过1000 次5000 步训练,得到的权重为[0.46 0.54 | 0.44 0.2 0.36]。仿真关键节点如图13 所示。
图13 仿真过程典型时刻图Fig. 13 Simulation process of typical time
在图中,以黑色坦克表示目标,彩色飞机代表不同行为状态下的蜂群个体。不同颜色对应不同行为,红色对应锁定目标行为,蓝色对应列队行为,黄色对应搜索行为,绿色对应跟随行为。从图13-1 中可以看到,仿真开始,集群中的个体以随机的位置和方向从起始点出发。图13-2 中可以看到,随着仿真时间的前进,部分个体已经组成了一列进行搜索,逐渐形成了4~6 列,每列大致有7~8 枚巡飞弹。这样既保证能够快速地完成搜索,又保证了当看到目标后能够最快形成协同攻击。从图13-3 中看到,已经有巡飞弹发现了目标,并进行盘旋,等待攻击的时机。图13-4 中展示出,所有的目标都被分配了巡飞弹并进行监视,其余的巡飞弹继续侦查并形成了新的队列。由于信息获取距离的限制,组成的队列规模比开始时减小了很多,约3~4 架。从集群飞行的过程中可以看出,在巡飞弹间距离过近时,避碰规则会起到较明显的作用,飞机会避免继续靠近;反之,在机间距离过远时,聚集规则会起到明显作用,使信息获取范围内飞机更加紧凑;当机群飞行方向混乱时,速度逐渐趋同的过程尤为明显。可以显著看出速度一直受规则的影响。从结果来看,反应式集群框架已经起到了预想的作用,总结如下:
(1)实现了自底向上的集群自组织。与传统的集群行为涌现方式不同,不存在任务分配(无论是集中式还是分布式)的过程,集群中的个体仅依靠自身的决策算法和自身探测到的信息完成决策过程,并完成了设定的任务目标。
(2)反应式集群适应性较强。如果将结果和慎思式的集群进行对比,当通信条件下降或个体发生故障时,本方法的适应性高于慎思式的集群,如图14 所示。其中,红线是慎思式集群(蛇形搜索)的搜索效率下降程度,绿线是本方法的搜索效率下降程度。可以看出,随着失效个体的增加,慎思式集群搜索效率下降越来越明显,而反应式集群则抑制了这一影响。
图14 20%、40%和80%个体失效状态下,搜索性能下降程度对比Fig. 14 Comparison of search performance degradation under 20%, 40% and 80% individual failure states
(3)实现了同构集群的自主分化。作为集群智能的一个重要指标,自主分化意味着集群能够同时完成多项任务。在本方法下,分化是根据探测范围、初始状态、目标位置等因素完成的,也就是说这种分化并不是设计好的,而是根据环境因素自动完成的。当调整个体探测范围后,集群在搜索时将形成不同的集群形状,如图13 所示。列队搜索、聚集盘旋、再列队搜索、再盘旋过程,所形成的队列大小、盘旋的终止等功能,均是在式(7)的作用下完成的。
基于上述仿真与分析,进一步验证了反应式集群的可行性和优势:不依赖全局信息就可以完成组群,降低了对数据链的要求;数量不再是制约集群的因素,这使得大规模使用成为了可能;同构个体仍可完成多种任务,降低了生产集群个体的成本。当然,反应式集群在任务执行效率上还存在一定的问题。无论是搜索覆盖率,还是针对目标的打击分配成功率,本方法都没有给出能和任务分配类似的结果。过毁伤和欠毁伤将是后期研究主要面临的问题,这也是可以预见的,毕竟全局信息的缺失势必会导致这一结果的发生。
如开篇所提,本文所述仅仅是对反应式集群在弹药领域应用的一种原理性的探索和尝试。同样,也仅在决策算法这一层面论述了其可行性。然而,距离该类装备的实现还非常遥远,这就涉及气动设计领域、控制领域、探测领域、计算机领域等多种技术的共同发展。课题组将沿着这一思路,进一步细化所涉及到的技术,从添加弹药控制模型、不依赖通信、组队搜索、饱和攻击等方面深入开展研究,最终为该类装备的实现奠定良好的理论基础和技术储备。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!