基于视觉导航与强化学习的可重复使用火箭垂直降落控制策略研究

时间：2024-05-04

尹超

摘要：随着商业航天在我国的快速发展，星链计划体现的经济和国防作用越来越明显，可重复使用火箭垂直降落方式是商业航天中决定商业成功的关键因素之一。考虑到商业火箭在重复使用过程中具备抗干扰和低成本的特点，文章提出了采用纯视觉与强化学习融合的方法。文章通过多角度视觉传感融合实现火箭定位并强化学习所规划的航路，确保火箭在可控飞行能力范围以内精准垂直降落在指定着陆区域。针对火箭垂直降落路径规划与控制精度的难点，文章提出了基于火箭动力学特性和飞行数据的动力学参数辨识方法，为提高火箭垂直降落运动轨迹预估精度提供有效手段。

关键词：视觉导航；强化学习；系统辨识；控制策略

中图分类号：TP273文献标志码：A0引言商业航天的星链所产生的经济性和国防价值越来越受到世界各国的重视。美国太空探索公司（SpaceX）的星链在当前俄乌战争中所产生的效果得到了验证。SpaceX公司的垂直起飞垂直降落技术是低成本、快速、可重复使用火箭的重要技术之一，在猎鹰系列火箭中成功应用。2016年4月8日，SpaceX公司猎鹰9号火箭第一级降落在无人船上；2017年6月25日，按预设航路降落在太平洋某处的浮动平台上。2021年3月11日，SpaceX公司将五手助推器降落在无人船上。上述事例表明，可重复使用、低成本和高精度是垂直起飞垂直降落技术的重要特征。

对标垂直起飞垂直降落技术的低成本和高精度的技术要求，本文提出采用纯视觉导航定位的方法，通过在火箭周向合理布置多颗摄像头，确保火箭在接近着陆区域时在各种姿态下都有至少3颗摄像头同时观察到着陆区域的标志，以实现纯视觉导航定位。同时，本文提出通过强化学习的方法规划出更加符合火箭飞行性并在飞行范围内的着陆航路，以提高火箭垂直着陆的成功率［1］。

1数学建模火箭受到重力、气动力和气动力距的共同作用。同时，火箭受到外界环境变化，例如风干扰等，产生各种不确定性。本文以设定的火箭着陆点为地理坐标系的原点，以“东北天”方向定义地理坐标系的X，Y，Z轴。

M×dv/dt=F=P+R+mg （1）

其中，m为火箭重量，单位kg；v为火箭速度矢量，单位m/s；F为火箭所受到的合力，包括火箭发动机推力、火箭收到的气动力、重力等，单位为N。

dH/dt=M=Mp+Mr （2）

其中，H为动量距；M为火箭受到的合力距，包括推力产生的力矩、气动力产生的力矩，单位为N·m。

2视觉导航为了实现垂直降落，火箭在下滑过程中逐渐由俯冲调整姿态到平飞并具有一定正向攻角，以降低下降速率。当进入着陆区域附近时，火箭需进一步调整姿态，使得火箭逐步调整为箭头朝上的降落姿态，以利于垂直降落。因此，为了覆盖上述运动过程，摄像头的垂向视场设定为广角100度，同时周向间隔40度布置1颗摄像头，共计9颗，每颗周向视场设定为广角80度。由此，在火箭降落全过程中至少3颗摄像头可观测到着陆区域视场［2］。由此，通过图像拼接可构建火箭以第一俯视视角的360度环视对地全景视场，可确保在垂直降落过程中的任何时刻均可观察到着陆区域内至少3个标志，以构建PnP视觉导航定位算法。PnP视觉导航定位求解属于给定点的位姿估计。利用着陆区域内的n个空间相对位置已知的点作为控制点，由构建的全景观察视场实时采集图像，并根据摄像头的内外参数求解。摄像头内参数采用四参数模型，根据三角几何原理得到摄像头在世界坐标系中的位姿以及空间点在参考坐标系的位置。

3强化学习航路规控火箭垂直降落至指定区域的航路规划与控制的目的在于：根据火箭当前位置、姿态等实时状态，合理规划出一条能够满足火箭当前所具备飞行能力的垂直着陆航路。所规划的航路包含垂直着陆轨迹（速度方向）和姿态跟随变化过程［3］。

航路规划的控制点选择为位置、速度和加速度相匹配的方法。航路规划的控制点位置采取火箭当前位置分别与火箭对着陆区域特征点灯光的视觉定位的连线，按照与火箭当前位置由近及远、从高到低均匀排列设置控制点位置。控制点的终点位于预设着陆点的正上方，高度在20 m左右。控制点的速度方向在连线方向的基礎上朝着着陆点方向调整，同时控制点的加速度方向朝着垂直方向调整，当控制点位于着陆点上方时，加速度方向垂直向下且加速度逐渐调整为0。在控制点初步确定后，采取B样条曲线拟合的方式，实现航路规划，即规划的航路由B样条基函数的组合获得。由此获得了一条根据火箭当前位置、姿态、速度等飞行状态以及着陆区域等信息的规划标称航路。

强化学习的航路规划框架包括火箭的动力学和运动学模型、火箭的发动机推力模型、火箭的导航模型、火箭的飞行控制规律模型，作为强化学习奖励函数的航路规划的优化规则，作为强化学习策略网络的航路规划策略以及强化学习航路规划的样本数据集和测试数据集。通过强化学习后的航路规划策略，将被加载至火箭机载系统，作为火箭自主垂直着陆的实时航路规划策略［4］。

本文采用低成本和无源的视觉导航定位方法。火箭的导航模型输出火箭当前的相对于火箭着陆区域的位置、姿态等信息。火箭的飞行控制规律模型是根据火箭当前的飞行状态和规划的航路点，计算出火箭姿态控制发动机所需偏转的角度。

作为强化学习奖励函数的航路规划的优化规则是由能量、着陆精度、着陆姿态、着陆速度和加速度共同组成的最优化准则。能量最优化选择为在火箭当前所具有的动能和势能总和的前提下着陆控制所需能量做到最小化。着陆精度最优化原则为火箭着陆位置在预定的着陆区域以内，距离着陆中心点位置越近越好，同时着陆的轨迹尽可能不超过火箭当前所处的象限区域。着陆姿态的最优化原则为火箭着陆过程中的姿态一直处于可控范围，着陆末段姿态尽可能保持垂直姿态。着陆速度和加速度的最优化原则为着陆过程中火箭的速度和加速度逐渐减小且处于可控范围，同时在着陆末段逐渐减小为0，确保正常着陆。因此，强化学习的奖励函数输入为火箭的飞行状态，包括位置、姿态、速度、加速度；输出为航路规划的奖励数值，奖励数值越大，表明航路规划越有效［5］。

作為强化学习策略网络的航路规划策略是根据输入的火箭当前状态（位置、姿态、速度和加速度等）和着陆区域位置信息，在标称控制点基础上，通过深度网络计算控制点序列及其火箭姿控发动机偏转控制角度序列。强化学习航路规划的样本集是通过火箭飞行的实测数据和飞行模拟仿真的数据相结合的数据集［6］。

4基于火箭飞行动力学特性的系统参数辨识基于火箭飞行动力学特性的系统参数辨识方法如下所示。（1）建立火箭飞行动力学和运动学的状态方程。系统辨识的状态量选择为火箭飞行的位移、速度、加速度、姿态角、姿态角速度、姿态角加速度以及火箭飞行所受合力与合力矩。（2）建立系统辨识的观测方程。系统辨识的观测量选择火箭飞行的位移、速度、加速度、姿态角、姿态角速度、姿态角加速度。（3）确定系统辨识的待估参数。系统辨识的待估参数为火箭飞行动力学参数。（4）构建系统辨识的灵敏度方程。将火箭飞行动力学和运动学的状态方程和观测方程分别对待估参数求导数，得到系统辨识的灵敏度方程。（5）采用牛顿拉夫逊迭代算法，迭代计算出待估计参数的数值。

5研究验证控制策略样机通过使用某型可重复使用火箭的性能数据，得到火箭的数学模型。控制策略样机通过飞行仿真构建样本集进行强化学习。控制策略样机经过强化学习的控制策略网络可在各种飞行状态下输出航路规划的控制点序列和姿态发动机偏转控制角度序列。控制策略样机通过飞行模拟火箭的最后垂直着陆阶段，使用经过强化学习后的航路规划和控制策略。通过规划航路的性能分析，经强化学习的规划航路可有效提升着陆精度和使得火箭垂直着陆的速度、加速度更接近于0，达到更好的效果。

6结语针对可重复使用火箭的垂直降落控制策略问题，本文首先采用了视觉导航定位的方法为火箭垂直着陆提供低成本且可靠的无源定位方法；再通过强化学习的方式提升了垂直着陆精度和有效提高抗干扰能力，具有一定的工程应用前景。

参考文献

［1］LUIGI B，CLAUDIO M.自动化设备和机器人的轨迹规划［M］.段晋军，梁兆东，赵鑫，等，译.北京：电子工业出版社，2016.

［2］徐德，谭民，李原.机器人视觉测量与控制［M］.北京：国防工业出版社，2011.

［3］何林坤，张冉，龚庆海.基于强化学习的可回收运载火箭着陆制导［J］.空天防御，2021（4）：21-26.

［4］DONALD E S，ARTHUR F B，EDWARD M G，et al.Automatic Ground Collision Avoidance System Design，Integration， & Flight Test［J］.IEEE A&E System Magazine，2011（12）：87-91.

［5］EDWARD M G，RUSSELL M T，SHAWN C W，et al.Automatic Ground Collision Avoidance System Design for Pre-Block 40 F-16 Configurations. Asia-Pacific International Symposium on Aerospace Technology［J］.2012（9）：32-36.

［6］VAN H H，GUEZ A，SILVER D.Deep Reinforcement Learning with Double Q-learning［J］.Computer Science，2015（6）：16-20.

（编辑王永超）

Research on vertical landing control strategy of reusable rocket based on visual

navigation and reinforcement learningYin Chao

（Shanghai Aviation Electric Co.， Ltd.， Shanghai 200030， China）Abstract： With the rapid development of commercial aerospace in China， the economic and national defense role of the Star Chain program is becoming increasingly evident. The vertical landing method of reusable rockets is one of the key factors determining commercial success in commercial aerospace. Considering that commercial rockets have the characteristics of anti-interference and low cost in the process of repeated use， this paper proposes a fusion method of pure vision and reinforcement learning. Rocket positioning is achieved through multi-angle visual sensor fusion， and learning the planned route is enhanced to ensure that the rocket accurately and vertically lands in the designated landing area within the controllable flight capability range. Aiming at the difficulties in the planning and control accuracy of rocket vertical landing path， a dynamic parameter identification method based on rocket dynamic characteristics and flight data is proposed， which provides an effective means to improve the prediction accuracy of rocket vertical landing trajectory.

Key words： visual navigation; intensive learning; system identification; control strategy