时间:2024-07-28
姚 鹏,邱立艳
(中国海洋大学工程学院,青岛 266100)
随着人类对海洋的开发利用不断深入,各类水下事故也频繁发生,自主式水下机器人(Autonomous Underwater Vehicle,AUV)是一种无需操作者操控就能自行完成各类海洋任务的智能机器人[1-2],利用AUV 搜索海域内的事故目标具有重要意义。海洋环境中的事故目标通常分为静态目标(如海底沉船等)和动态目标(如体积较小的可随浪流移动的目标),本文针对 AUV动态目标搜索问题展开研究。海洋动态目标会受浪流影响而移动,因此其所在海域的目标概率图是实时更新的,且考虑各种复杂的环境因素,一般需要基于目标概率图和 AUV 本身所搭载的侧扫声呐[3]探测模型对任务海域进行启发式搜索。
目前,研究中大多将侧扫声呐的探测范围看成标准的圆形区域或者单个栅格区域。李娟等[3]直接用非线性高斯噪声模拟海洋复杂因素对侧扫声呐探测概率的影响,未进一步处理且会影响AUV 航位演算的精确性,甚至使AUV 航位推算失效。文献[4]根据声呐方程建立了基于多声呐探测性能评估的传感器概率感知模型,进而结合水声环境以及探测系统参数定量确定水下机器人系统对区域内各处目标的探测能力。另外,Paull等[5]针对特殊的海底环境,将部分复杂因素的影响考虑在 AUV 的搜索过程中,但海洋环境下的一些特殊情况,如目标特性、声透射角度、地形起伏等仍被忽略。
在针对海洋动态目标的航迹规划方面,Paull等[5]构建了受部分复杂环境因素影响的侧扫声呐探测概率模型,基于信息增益实现 AUV 对高价值区域的搜索,然后通过定义分支熵指标使得未知区域能够被 AUV 成功探测,最后通过多目标优化方法得到最佳搜索航迹。Hu 等[6]对目标概率的运动信息和运动距离信息进行了综合考虑,构建目标搜索的代价函数,结合Voronoi 图的特性,通过使机器人的运动朝着代价函数的梯度减小方向,完成对目标的搜索任务。Cao 等[7]采用基于最小二乘法的多项式拟合实时预测动态目标在短期内可能到达的位置,并通过协商分配方法为每艘 AUV 分配预期待搜索目标点,而后使用深度强化学习算法快速规划 AUV 到每个目标点的近似最优航迹。Wang 等[8]提出一种基于物体几何特征的漂移动力学模型,同时考虑了物体形状和随机运动特征的影响,提出一种漂移预测模型,提高了海面目标漂移轨迹计算的精度,可用于各种形状目标的漂移轨迹预测和海上搜救决策系统。Xiao 等[9]基于贝叶斯迭代准则将目标概率图实时更新,进而定义了能够同时兼顾所有机器人代价平衡度和总的任务代价的优化指标。Bourgault 等[10]通过海上风浪信息的统计数据构建任务海域的目标概率函数,基于Markov 运动转移概率实时预测目标概率图并据此进行搜索航迹规划。另外,Yue等[11]提出将强化学习应用在未知环境下的目标搜索中,并以此技术用于在海上搜寻移动的船只。而针对复杂几何、非均匀分布以及搜索过程中的目标瞬时漂移等复杂情况,Stefan 等[12]结合最优搜索理论和遍历理论概念,提出一种改进的动态光谱多尺度覆盖方法,提高了搜索的成功率。
此外,基于启发式算法[13-18]对动态目标的搜索是当前的研究热点,Zhu 等[13]针对动态海洋目标,将动态目标视为一系列的离散点,结合改进的自组织映射神经网络和一种新的速度合成方法,提出一种集成式多 AUV 动态任务分配和航迹规划算法,在洋流变化、目标移动的动态环境中可规划出每个AUV 访问对应目标的最短航迹。Sara 等[14]采用了蚁群算法进行智能体的轨迹规划以保证在最短的时间找到运动目标。Wei 等[15]提出了一种专门的海区搜索地图,其中设计目标概率地图来处理动态目标引起的不确定性并将其作为信息素映射用于改进的多蚁群算法,但由于该方法的离散性,产生的轨迹是直接分割的,所以在实际应用中会存在局限性。Joses 等[16]将线性搜索和离散近视搜索理论用于定位海洋环境下的动态目标。Cao 等[17]通过生物启发神经动力学对任务海域进行建模,通过神经元的活性输出值使得 AUV 完成对相关目标的搜索。类似地,Ni等[18]提出一种基于生物神经网络的多智能体搜索捕获算法,适用于对未知环境中的动态目标的有效搜索。另外,Yao 等[19]结合高斯混合模型提出一种并行式模型预测控制的目标搜索方法,可满足航迹规划过程中的多种约束。
综上所述,针对动态目标的搜索,目前的研究方法丰富多样,但往往未将更真实的声呐探测模型考虑在内。模型预测控制是一种经典有效的AUV 航迹规划方法,但任务海域的复杂特性可能会使 AUV 在搜索过程中长时间陷入局部区域,搜索效率较低。因此,针对海洋动态目标的搜索问题,应进一步考虑任务海域中各类实际环境因素对侧扫声呐探测概率的影响以提高规划航迹的可行性,另外需对当前的航迹规划算法做出进一步改进,以提升AUV 的搜索任务收益。
本文结合海洋复杂环境因素以及目标特征构建了符合实际情况的侧扫声呐探测概率模型以及简单的AUV 模型;基于侧扫声呐探测概率模型,利用Chapman-Kolmogorov 方程和贝叶斯公式实时预测并更新探测事件发生后的动态目标概率图;为改善传统模型预测控制(Model Predictive Control, MPC)方法的搜索效率较低的问题,引入长时域思想,提出长时域模型预测控制(Futuredependent Model Predictive Control, FMPC)策略,应用于AUV 的搜索航迹规划;进行了实验仿真。
本文的主要研究内容是AUV 的搜索航迹规划策略而非底层控制问题,且假设AUV 定深航行,因此可将AUV 简化成受一定运动约束的二自由度质点模型
式中,(x,y) 表示 AUV 的位置,v表示AUV 的航行速度,ψ表示偏航角,a为加速度,ω为转弯角速度。
为确保AUV 能够正常航行,航行过程中AUV应满足下面的性能约束
式中,vmin,vmax分别是AUV 的最小航行速度和最大航行速度约束,amin,amax分别是AUV 在航行过程中的最小加速度和最大加速度约束,ωmin,ωmax表示 AUV 的最小转弯角速度与最大转弯角速度约束。
AUV 通过其本身搭载的侧扫声呐向当前位置的左右两侧下方发射扇形波束声脉冲信号来探测确定是否有目标存在,如图1 所示,其中蓝色区域即为扇形波束声脉冲。
北约海底研究中心(Nato Undersea Research Center)所提供的声呐相关性能以及评估模型[20]表明,侧扫声呐的探测概率模型受到目标特征、海洋环境因素等影响,因此本文结合目标特征和海洋环境因素等,采用Sigmoid 函数来定义侧扫声呐的探测概率模型
式中,xtm表示目标,z t=D为针对目标所发生的探测事件,d是目标与声呐之间的侧向水平距离,参数α,β1,β2,dmin,dmax的 取值同时与声呐自身的特性和所处海洋环境(如海水温度、盐度、海洋中的砂土成分等因素)有关。例如,某侧扫声呐在某海洋环境中的相关参数取为:α=0.95,β1=5.0,β2=1.0,dmin=2 m ,dmax= 28 m ,其 对应的探测概率曲线如图2 所示。
图2 探测概率曲线Fig. 2 Detection probability curve
如图2 所示,当侧向距离d位于0 到dmin之间时,侧扫声呐的探测概率为 0,这是由于当侧向距离过小时,AUV 机体本身会对探测区域造成遮挡,因而不会有探测概率;当侧向距离大于dmin时,探测概率会迅速上升并在一定距离内保持该概率;当侧向距离大于dmax时,探测概率会随距离的增大而迅速减小为0。
此外,侧扫声呐的测量特性也会随探测角度的不同而不同。对于非对称目标(每个栅格内存在的目标形态一般为非对称的),侧扫声呐从不同的角度发射探测信号时所探测到的目标形态是不一样的(如图3 所示)。
图3 不同探测角度的探测模型Fig. 3 Detection model from different angles
结合图3 以及式(3),定义侧扫声呐对目标的二次探测概率qtol为
式中,1q和q2分别表示AUV 以角度1θ和角度2θ第一次探测该目标时,通过式(3)所计算出来的探测概率。通过对qtol的不断更新并结合规划算法得到AUV 的航迹。需注意,考虑到水下弱通信特性,本文假设其他 AUV 对目标的探测事件不会实时影响当前AUV 的二次探测概率计算公式。
另外,本文考虑了海底地形对 AUV 搜索航迹的影响。海底起伏地形会对侧扫声呐信号造成遮挡,可通过判断目标所在位置与 AUV 当前位置的连线是否相交于该条连线上的地形来确定声呐信号是否被遮挡。如图4 所示,计算某栅格(黑色栅格)的实际地形高程数据是否大于此栅格在连线上的高度映射值,若前者大于后者,则信号被遮挡,探测概率即为0,否则探测概率仍可通过式(4)计算得到。
图4 声呐信号遮挡示意图Fig. 4 Diagram of the occlusion of sonar signals
举例来讲,如图5 所示,假设AUV 某时所在位置为x0,航行深度(恒定)为H0。某栅格位置为xa,AUV 到该栅格之间还存在x(i)个栅格。分别计算这些栅格在连线l上的高度映射值H(i),并与其实际高程数据h(i)相比较,从而确定探测xa处栅格侧扫声呐的概率模型
图5 侧扫声呐探测某栅格的模型Fig. 5 Model of a grid detected by side-scan sonar
采用目标概率图来表示任务海域的先验信息。将整个任务海域栅格化处理得M个栅格,同时已知在第m(m= 1,…,M)个栅格内的目标先验概率为p(x0m|z0),其中,x0m是初始时刻的栅格位置,z0是初始时刻所发生的探测事件。根据式(5)可得在t时第i艘AUV 对该海域内任一栅格m的探测概率q a(z t|xtm)。对于任务海域中的动态目标,其目标概率图也是随浪流潮汐等动态变化的。虽然在短时间内的变化幅度相比于任务海域的范围较小,但仍需时刻更新目标概率信息。目标随浪流移动时的运动速率vt和运动方向θt是相互独立的,用Beta 分布和高斯分布分别描述它们的概率分布,则目标的运动概率可表示为两者的联合概率分布[10]式中,vt∈ [0,vtmax]是目标随浪流移动速度且服从Beta 分布,目标的移动方向θt服从均值为μθ,方差为σθ2的高斯分布,μv=at vtmax/(at+bt)是待搜索目标移动的平均速度,其中a t,bt和c都是Beta分布中所涉及到的参数。
然后基于Chapman-Kolmogorov 方程即可预测得到t时刻的目标概率图
式中,vt,θt的值将由栅格n到栅格m的向量决定。
此外,在任一采样时刻,通过贝叶斯公式迭代更新侧扫声呐探测后的目标概率图信息
式中,通过λ对概率进行归一化处理。
本节基于目前比较成熟的MPC 框架来规划AUV 的搜索航迹。传统的MPC 通过优化搜索收益指标可获得AUV 的最优控制输入,因此优化当前第t步之后的未来N步控制输入可获得AUV 未来N步的状态量。然后,AUV 基于上述控制量只移动一步,如此迭代更新直至整个搜索任务完成。
但传统的MPC 策略的时域长度N往往是有限的,这种“短视性”的搜索策略也更加容易使AUV 在搜索过程中陷入局部区域,从而导致较低的搜索效率。为改善上述问题,本文在计算未来N步收益的基础上又引入N步之后的大范围预期收益。如图6 所示,以t+N时刻AUV 所在位置为起点,N代表扩充的时域长度,基于AUV的最小转弯半径rmin或最大转弯角速率ωmax、最大运行速度vmax等性能约束定义预期可搜索的区域,未来预期收益即为AUV 对该区域完成覆盖搜索所获得的单次搜索收益。
图6 长时域模型预测控制示意图Fig. 6 Schematic diagram of future-dependent model predictive control
然后,将更新后的目标概率图p(xtm|z1:t)作为新的目标概率图,可根据侧扫声呐的探测概率模型以及上述未来大范围预期收益GN计算总搜索收益指标
通过AUV 在搜索过程中所获最大收益Gmax与最小收益Gmin对上述指标进行归一化处理,即
当多艘AUV 执行搜索任务时,本文采用集中式策略。最终,动态目标搜索问题就等同于在一定约束条件下求解以下目标函数
式中,Dmin代表AUV 间的安全距离,Ut:t+N表示N步最优控制输入,Nu表示AUV 数量。
本节在2000 m × 2000 m的任务海域内进行搜索实验分析与验证,将整片海域处理成50 × 50的离散化栅格。任务海域的初始目标概率图如图7所示,t= 200 min时,目标概率图变为如图8 所示状态。可以看出,相比于初始目标概率图,t= 200min 时的目标概率图整体向右移动了120 m。另外,实验所涉及的参数如表1 所示,侧扫声呐的相关参数采取图2 中的参数示例。
图7 初始目标概率图Fig. 7 Initial target probability map
图8 t=200 min 时的目标概率图Fig. 8 Target probability map at t=200 min
表1 实验参数Table 1 Experiment parameters
传统的 MPC 因时域长度有限,容易使得AUV 在搜索过程中陷入局部区域,影响最终的搜索效率。本节分别采用MPC 和FMPC 策略引导AUV 进行目标搜索,将所得实验结果进行了对比,证明了FMPC 相较于传统的MPC 在任务时间受限情况下具有更好的探测效率。图9 和图10分别展示了在图7 场景下(场景1),采用MPC和FMPC 方法引导3 艘AUV 执行搜索任务时产生的航迹以及任务结束后的剩余目标概率图。
如图10 所示,FMPC 会引导AUV 对任务海域中的每一片高价值区域进行覆盖搜索,相比于图7 的初始目标概率图,采用FMPC 策略时,当指定任务时间结束后,其剩余目标概率图中已经不存在颜色较深的区域(目标存在概率较高的区域),而采用传统的MPC 策略时,任务海域中右下角仍然有深色区域未被成功覆盖搜索到,如图9(b)所示。
图9 场景1 下的MPC 航迹规划效果Fig. 9 Trajectory planning result by MPC in scenario 1
图10 场景1 下的FMPC 航迹规划效果Fig. 10 Trajectory planning result by FMPC in scenario 1
图11 展示了两种方法下3 艘AUV 的累计探测收益,从第20 min 开始,FMPC 下的AUV 收益就开始明显高于MPC 下的搜索收益,且最终FMPC 可引导AUV 搜索达到理想收益的60%以上,而采用MPC 方法时,AUV 仅能获得45%左右的累计探测收益。
图11 场景1 下的累计探测收益对比Fig. 11 Comparison of cumulative detection reward in scenario 1
为进一步验证MPC 和FMPC 的效果,在另一个场景(如图12 所示)下,改变AUV 起点再次进行实验。
图12 场景2 的初始目标概率图Fig. 12 Initial target probability map in scenario 2
图13 和14 分别展示了两种方法下的 AUV搜索航迹以及任务结束后的剩余目标概率图。可以看出,在任务时间受限情况下,采用MPC 方法易使 AUV 陷入局部区域。图13 中,AUV 的搜索路线基本集中在任务海域左侧目标存在概率较大的区域,但右上角目标存在概率较大的部分区域并没有被成功地搜索到(剩余目标概率图中仍存在深色区域),因此会降低最终的累计探测收益。通过图14 可以看出,FMPC 方法则可以引导AUV 有效地搜索到任务场景中的所有具有较高目标存在概率的海域,从而使得任务结束后的剩余目标概率图基本呈现浅色,这是因为该方法扩充了时域长度,更加具有全局视野。
图13 场景2 下的MPC 航迹规划效果Fig. 13 Trajectory planning result by MPC in scenario 2
图14 场景2 下的FMPC 航迹规划效果Fig. 14 Trajectory planning result by FMPC in scenario 2
图15 为该场景下,利用两种方法在指定时间内引导AUV 执行搜索任务最终所获得的累计探测收益,很明显,FMPC 方法获得的最终收益约为理想收益的65%,而MPC 仅能获得理想收益的42%左右。
图15 场景2 下两种方法的累计探测收益对比Fig. 15 Comparison of cumulative detection reward in scenario 2
另外,为验证FMPC 方法的鲁棒性,本文在具有不同目标概率分布信息的任务海域下进行了50 组实验,并随机设置AUV 的起点。图16 为每种场景下分别采用两种方法所得的累计探测收益。可以看出,无论场景和AUV 起点如何变化,FMPC 方法相比于MPC 方法都能够引导AUV 更具有全局视野地展开搜索工作,从而获得较高的搜索收益(效率)。
图16 50 组实验中的累计探测收益Fig. 16 Cumulative detection reward in 50 experiments
假设AUV 在距离海底10 m 的恒定高度航行,本节采用指数函数生成海底横向和纵向起伏地形并赋予一定的高程数据(均低于 AUV 的航行高度),如图17 和图18 所示。
图17 纵向起伏地形Fig. 17 Longitudinal terrain
图18 横向起伏地形Fig. 18 Lateral terrain
图19 和图20 分别展示了在纵向和横向起伏地形环境下3 艘AUV 的航迹。图19 中,AUV 会从起点出发首先搜索纵向起伏地形左侧的区域,这是因为起伏地势的遮挡会使侧扫声呐对其右侧区域的探测收益为 0,故当采用基于最大收益指标的优化方法规划航迹时,AUV 会优先搜索左侧收益较高的区域。图20 中,由于横向起伏地势的遮挡,AUV 的搜索航迹也被局限。
图19 纵向起伏地势下的AUV 的航迹规划效果Fig. 19 Trajectory planning result of AUVs in longitudinal undulating terrain
图20 横向起伏地势下的AUV 的航迹规划效果Fig. 20 Trajectory planning result of AUVs in lateral undulating terrain
本文针对海洋动态目标的搜索问题展开了相关研究。
(1)对AUV 所搭载的侧扫声呐进行建模,建模过程中考虑到真实的海洋环境以及目标与AUV 的侧向距离等因素,引入了Sigmoid 函数来定义侧扫声呐的探测概率;结合侧扫声呐模型以及目标特征,进一步定义AUV 的二次探测概率;考虑了海底起伏地形对侧扫声呐探测信号的遮挡,更加符合探测的真实情况。
(2)以Beta 分布和高斯分布描述目标的运动概率,并通过Chapman-Kolmogorov 方程以及贝叶斯准则实时预测并更新目标概率图。
(3)引入长时域预期收益对传统的模型预测控制方法进行改进,结合侧扫声呐探测概率模型,引导AUV 能够在指定的任务时间内扩大搜索范围,提高最终的搜索收益。
(4)实验仿真验证了结合复杂声呐模型的FMPC 方法相比于传统MPC 方法的高效性,以及海底地形对航迹规划的影响。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!