当前位置:首页 期刊杂志

基于航空图像的目标检测算法Trans_YOLOv5

时间:2024-05-04

文 青,伍 欣,敖 斌,李 宽,殷建平

(东莞理工学院 网络空间安全学院,广东 东莞 523808)

0 引 言

航空图像目标检测在军事侦查、海洋船舶管理、灾害检测和无人驾驶等领域应用广泛,对航空图像目标检测的研究具有重要的现实意义。但是,航空图像数据集有其自身特点,如高空拍摄导致图片清晰度欠佳,地面背景复杂干扰物众多,目标尺寸不一且分布不均等。因此,对航空图像目标检测的研究有较强的研究价值和挑战性。

随着人工智能技术的不断发展,深度学习在图像分类分割、目标检测等方面应用广泛,取得了比传统机器学习方法更优的性能。深度学习目标检测方法可分为双阶段目标检测和单阶段目标检测两大类。其中,双阶段目标检测先提取候选图像区域,再基于候选区域进行分类和检测,是个由粗到细的过程,以R-CNN[1],Fast R-CNN[2],Faster R-CNN[3],Mask R-CNN[4]等算法为代表;而单阶段目标检测算法,省去提取候选区域的过程,直接对图像进行检测获取结果,以YOLO[5]系列及SSD[6]系列算法为代表。对比而言,双阶段目标检测算法检测精度较高,但检测速度较慢,在实时检测场景应用受限;单阶段目标检测算法检测速度较快,但检测精度较低,需要针对应用场景进行模型定制和优化。

和自然图像目标检测场景相比,航空图像目标检测存在如下难题[7]:(1)目标尺寸相差较大且小目标密集,如图1(a)所示:(2)目标旋转角度随机,如图1(b)所示。因此,航空目标图像检测需要重点解决旋转目标检测和小目标聚集检测两大问题。

图1 航空图像示例

在旋转目标检测方面,自然图像目标检测中一般使用水平矩形框标注(中心点横纵坐标,目标的长宽,共4个数据),但在航空图像目标检测中,目标呈现不同方向的排列,需额外增加一个角度标注θ来表示旋转角度,称为旋转框标注(5个数据),如图2所示。针对角度标签信息,学者在Faster R-CNN的基础上改进并提出了R2CNN[8],RRPN[9],SCRDet[10]等旋转目标算法。

图2 水平框标注与旋转框标注

对比双阶段检测算法,单阶段检测算法具有检测速度快的优势,而YOLOv5[11]作为其中的代表性算法,检测速度快且检测精度较高,因此选择YOLOv5算法检测航空图像。由于航空图像小目标密集、目标方向任意的检测难题,在使用YOLOv5检测航空图像时存在小目标漏检、目标方向检测不够正确、总体检测精度不高等问题。针对上述问题,该文重点从小目标检测和目标角度精确估计两个角度切入,提升YOLOv5模型在航空图像目标检测上的效果,使用旋转矩形框对带有角度的目标物体进行精确定位。展开来说,在YOLOv5的基础上集成Swin Transformer[12]以提升小目标检测效果;进一步将注意力机制集成到YOLOv5框架中关注定位感兴趣区域;将CSL[13]应用于YOLOv5,将角度估计从回归问题转化成为分类问题,以更精确地判定目标角度。同时,使用数据增强、多尺度测试以及结果集成等一系列操作提高综合检测效果。在基于航空图像目标检测竞赛(Learning to Understand Aerial Images,ICCV 2021)[14]的DOTAv2.0数据集上的实验结果验证了所提方法的有效性,所提Trans_YOLOv5的检测结果达到60.98%mAP,与官网公布的最优竞赛结果相比提高2.01百分点。

1 方法实现

1.1 YOLOv5总体结构

在YOLOv5系列算法中,根据模型规模及参数总数差异,可分为YOLOv5S,YOLOv5M,YOLOv5L,YOLOv5X不同规模系列模型,其中,YOLOv5S模型/参数规模最小,YOLOv5X模型/参数规模最大。随着模型/参数规模的增大,检测速度变慢,但检测效果更佳。考虑到航空图像目标检测场景需求,该文以YOLOv5M展开阐述,下文所提到的YOLOv5指的都是YOLOv5M,但所提方法和技术适用于YOLOv5全系列算法。

YOLOv5的网络结构主要是由Backbone、Head两个部分组成。Backbone用于特征提取,使用的网络为CSPDarknet53,其中的主要组成模块是Focus,CBS,SPP等。其中,Focus结构采用的是切片操作,是一种非常简单而有效的特征提取方法;CBS指的是卷积层、BN层以及SiLU激活函数的组成结构;SPP是空间金字塔池化,将任意大小的特征图转化成固定大小的特征向量。Head部分采用卷积操作,使用经典的FPN加PAN设计,使用自顶向下和自下而上的特征提取方式,并通过不同拼接组合操作将特征图分成4个分支,以此获取不同的下采样大小的特征图,加强网络特征融合能力。

1.2 Trans_YOLOv5整体结构

Trans_YOLOv5的整体框架如图3所示,图中虚线框内是Backbone,其余部分是Head部分,相比传统YOLOv5,所提Trans_YOLOv5的改进如下:

(1)在Head部分卷积之后添加Coordinate Attention(CA)[15]注意力模块(图3标注①处),更好提取感兴趣区域;

(2)将Head部分预测层中的CSP模块替换成Swin Transformer模块(图3标注②处),提升小目标检测效果。

Trans_YOLOv5算法是一种针对航空图像检测的优化算法,其引入注意力机制、Swin Transformer等技术,在一定程度上可以克服航空图像检测中的一些难题,例如小目标密集、背景复杂等问题。

图3 Trans-YOLOv5整体网络框架

Trans_YOLOv5的输出结果如图3右侧模块所示。具体举例,当输入1 024*1 024大小的航空图像时,分别经过3到6次的下采样,在预测层得到的特征图大小分别为256*256,128*128,64*64,32*32。预测层输出的特征图大小可通过公式1计算得出。

H=(C+L)*P

(1)

其中,C代表使用的数据集类别,L代表目标标签个数,P代表预测层个数。

1.3 数据预处理与CSL算法

该文使用Mosaic,Mixup[16]对数据进行增强预处理,并将原本的角度标签使用圆形平滑标签(Circular Smooth Label,CSL)来替代,将角度检测从回归问题变更为分类问题,以提升航空图像目标角度检测的精度。

具体来说,传统旋转目标检测一般将角度标签的处理看作一个位置信息的回归问题,这样处理除了精度欠佳,还易产生边界问题。边界问题指的是在边界的角度上比如-89度和90度损失回归计算时相差很大,实际上的目标位置相差很小。而CSL中使角度的处理从原本的回归问题转化成分类问题。CSL中将180度的角度范围看成是一个180类别的分类。设置窗口函数为高斯函数,环形平滑标签(CSL)将原本的一个角度标签送入高斯函数转化成180个标签,CSL原理如图4所示。

CSL标签的转化如式2所示。其中g(x)为高斯窗口函数,参数r为窗口半径,窗口半径为形象化表达,在式3中r代表函数曲线在x轴的中心,x为目标标签中的角度,θ代表当前边界框的角度。高斯函数的计算如式3所示,其中a代表高斯函数曲线的高度。在本次实验中选择基于Trans_YOLOv5算法最优的CSL检测参数,其中高斯函数的参数分别设置:θ为180,b为0,r为2,a为1。

图4 CSL原理

(2)

(3)

1.4 Swin Transformer

Swin Transformer在计算机视觉的密集检测任务中达到了较好的效果,因此,该文尝试将Swin Transformer Block嵌入YOLOv5的整体网络结构中,可以通过自注意力机制加强特征提取,提升航空图像中密集小目标的检测效果。

Swin Transformer Block的整体结构如图5所示,其中LN是正则化操作模块,W-MSA是自注意力计算操作,SW-MSA是加入了窗口移位操作的自注意力计算操作,MLP是基本的多层感知机。图5右侧模块计算流程如下:数据输入进入LN层正则化,在SW-MSA层内将数据划分成7*7的窗口,并使数据的W和H是7的倍数;在SW-MSA模块内进行移动窗口的自注意力计算,并进行自注意力编码操作;将原始输入数据和SW-MSA的输出结果相加,再通过一个LN层与MLP层,同样进行一次相加操作得到Swin Transformer Block的结果。

图5 Swin Transformer模块整体结构

整体来说,使用Swin Transformer替代CSP模块后,Trans-YOLOv5对于密集的小目标检测效果更优,这是因为Swin Transformer模块能够更好地捕捉全局语义信息[17],关联目标之间的交互信息,更好检测密集小目标。

1.5 CA注意力

在YOLOv5中加入注意力模块可以更好地消除背景噪音[18]。CA注意力是一种将位置信息嵌入通道注意力的移动网络注意力机制。CA注意力将通道注意力分解为两个一维特征编码过程,分别沿两个空间方向聚合特征,一个方向捕捉位置信息,另一个方向保留通道中的远程依赖关系,从而使生成的特征图对于位置信息敏感以及有方向感知。

CA注意力模块整体结构如图6所示。将CA注意力模块集成到YOLOv5的主干网络用于检测航空图像,可以更好地解决航空图像中背景复杂的问题,提高全局表征能力,使网络模型更加关注于待检测的目标对象。

2 实验验证

2.1 数据集介绍

当前的航空图像数据集中,DOTA[14]是地球观测和遥感领域最大的带注释对象数据集,目前DOTA有3个版本的数据集,包括DOTAv1.0,DOTAv1.5和DOTAv2.0。其中,ICCV2021(IEEE International Conference on Computer Vision)基于 DOTAv2.0数据集举行了大型航空图像检测竞赛。与DOTAv1.0和DOTAv1.5数据集相比,DOTAv2.0数据集的目标类别更多,小目标数量更多,检测任务更为困难。

图6 CA模块整体结构

DOTAv2.0数据集收集于Google地球、GF-2卫星和航拍图像等,共有18个常见类型(分别是飞机、船舶、储罐、棒球场、网球场、篮球场、地面田径场、港口、桥梁、大型车辆、小型车辆、直升机、环岛、足球场、游泳池、集装箱起重机、机场和直升机停机坪)、11 268张图像和1 793 658个目标实例。

图7 长边定义法标签格式转换

2.2 实验设置介绍

实验环境的设置如表1所示。训练过程使用YOLOv5官方提供的预训练权重,训练设置的轮数为150,学习率初始值设置为0.01,按照余弦退火方式进行缩减,并使用基础数据增强、Mosaic以及Mixup进行数据增强。

在测试过程中,不使用数据增强,NMS IoU交并比阈值设置为0.1,置信度阈值设置为0.05。使用多尺度测试时,将数据集图片分别缩放成[0.5,1.0,1.5]倍大小。

表1 实验环境

2.3 评测指标

该文采用ICCV2021大型航空图像检测竞赛的评价标准即平均精度均值(mean Average Precision,mAP)作为算法评价准则。单个类别使用平均精度(Average Precision,AP)作为评价性能的指标。

交并比(IoU)是预测框与真实框的交集和并集的比值。预测框和真实框重叠的区域是交集,而两者覆盖的总区域就是并集。True Positives(TP)指的是预测正确的正样本个数,True Negatives(TN)指的是预测正确的负样本个数,False Positives(FP)指的是预测错误的负样本个数,False Negatives(FN)指的是预测错误的正样本个数。精确率(Precision)是在识别出来的图片中TP所占的比率,如式4。召回率(Recall)是所有正样本中被正确识别的比例,如式5。

P-R曲线是一种用于衡量分类器性能的曲线,它以召回率为横坐标,以精确率为纵坐标,通过改变分类器的阈值来绘制。

(4)

(5)

AP是P-R曲线下的面积,通常来说,分类器越好,AP值越高。在多类目标检测场景中,每类都能计算出对应的AP值,多个类别AP值的平均就是平均准确度均值mAP。mAP衡量的是模型在所有类别上的检测表现,是目标检测中的重要指标,mAP取值在0到1之间,数值越高表示模型的表现越好。本文按照比赛规则训练模型,并通过在DOTA的官网提交测试集结果获取每个类别的和AP和最终的mAP。

2.4 实验结果

首先将YOLOv5算法修改成适应于旋转框形式,并以此为性能基准,进行若干组消融实验,分别验证CSL算法、CA注意力模块、Swin Transformer模块融合的有效性,结果如表2所示。从表2的结果中可以看到,加入CA注意力以及Swin Transformer模块之后,结果都有1百分点左右的提升。实验结果同时表明,所提Tran-YOLOv5网络结构取得了最优的检测效果。

其次,为验证YOLOv5算法集成Swin Transformer对密集小目标检测的效果,开展对比实验,结果如表3所示。可见,将Swin Transformer模块引入YOLOv5结构后,改进模型对小目标的检测效果有了明显的提升,小型车辆和船舶检测效果明显提升。

表2 不同模块组合实验结果对比

表3 小目标检测结果对比

最后,为验证所提Trans-YOLOv5在航空图像目标检测上的整体效果,在DOTAv2.0数据集上与RetinaNet OBB[19],Mask R-CNN[4],Cascade Mask R-CNN[20]等方法进行对比,对比结果如表4所示。从实验结果中可以看到,所提Trans_YOLOv5算法在DOTAv2.0数据集上相比其他检测算法取得了更优的检测性能,最终mAP检测结果为60.98%,比ECCV2021大型航空图像检测竞赛最佳结果[21]高2.01百分点。

表4 不同算法结果对比

3 结束语

针对航空密集小目标检测和目标角度精确估计两个问题,该文在YOLOv5的基础上集成Swin Transformer以提升小目标检测效果;并将注意力机制集成到YOLOv5框架中解决航空图像背景复杂的问题;同时,将CSL应用于YOLOv5,将角度估计从回归问题转化成为分类问题,以更精确地判定目标角度。在DOTAv2.0数据集上取得了目前最优的检测效果。后续研究将关注在训练类别数据不平衡方面,以更好训练模型提升检测效果。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!