融合双注意力的深度神经网络在无人机目标检测中的应用

时间：2024-05-04

占哲琦，陈鹏，桑永胜，彭德中

（1.四川大学计算机学院，成都 610065；2.西华大学计算机与软件工程学院，成都 610039）

0 引言

随着无人机技术的迅速发展，无人机不仅在战争中扮演着越来越重要的角色，也给人们生活带来诸多便利。但与此同时，无人机的普及也对原有国家防空体系与航空安全构成了更大的挑战。例如无人机飞入禁飞区引发的安全问题，无人机影响机场航班起飞之类的新闻也是频频出现。因此亟需一个智能的无人机检测系统，以保障军事以及人民的生活安全。

运动目标的检测是计算机视觉研究中的热点和难点，在军事领域、智能交通、安全监控、图像检索、人机交互等方面有着广阔的应用前景。它旨在一个静态图像或动态视频中检测出人们感兴趣的目标对象。无人机具有高机动性、高分辨率、隐蔽性好、操作灵活等优势，主要应用于昼夜空中侦察、战场监视、战场毁伤评估和军事测绘领域。实时准确地检测出视野中的无人机，给出对应的精确坐标和种类，能够极大地加强制空领域的安全。

1 相关工作

1.1 目标检测

近年来，深度学习在目标检测任务中展现出了巨大的潜力。由于卷积神经网络[1]在图像分类上的巨大成功，文献[2]提出了R-CNN 模型，使用了神经网络提取的特征代替了人工设计的特征，以此提高模型特征的泛化能力，然后结合选择性搜索和预训练的支持向量机，得到最终的检测结果。由于该算法框架整体可以分为目标区域生成和目标区域分类与目标框的校准，该算法与后续改进算法都被称为两阶段算法。文献[3]在文献[2]的基础上提出了兴趣区域池化层（Region of Interest pooling layer），通过这一操作直接获取选择性搜索结果对应的特征，提高了卷积获得的特征的复用性；并且使用神经网络取代了预训练分类器和回归器，大大提高了速度。文献[4]提出了YOLO 算法，将原图分为若干个格子，随后为每一个格子预测若干个目标包围框、置信度和分类概率。该算法通过预测大量密集的目标框来覆盖目标物体，以达到直接生成结果的目的。文献[5]结合了YOLO 和RPN 网络提出了SSD 算法，引入了Anchor 的概念，使用全卷积网络来预测预设框的变化量，降低了坐标的拟合难度，使得单阶段算法的性能达到了两阶段算法的水准。

1.2 注意力机制

在深度学习的研究中，注意力机制一直是许多研究者关注的重点。注意力机制，最早是借鉴了人眼对于外界的观察方式，当人去观察一幅图像时，会将焦点放到需要重点关注的区域，而不去关注其他的无用信息。而在深度学习中注意力机制就是将关注点集中在局部的信息上，从特征中选择对任务目标更为重要的部分。近几年尤其是在NLP 中，注意力机制被广泛使用。文献[6]将注意力机制运用到了文本翻译的工作中，使用对齐模型作为分配每一个输入特征对与输出单词的参数的权重，其中对齐模型可参数化为一个前馈神经网络。文献[7]提出了层级注意力网络，分别对输入文档的句子和单词使用了不同级别的注意力，这样使得模型能够在不同层次获得到不同级别的文本信息。文献[8]则提出了Transformer 模型，使用注意力机制代替实现了循环神经网络对序列输入的建模，取得了非常有效的成果。此外在计算机视觉的任务，研究者也进行了许多的注意力机制的应用与研究。文献[9]将注意力机制运用到了图像分类中，通过注意力模块提高了深层特征的感受野，突出了更有利于分类的特征，在数据集上得到了更优秀的结果。文献[10]将注意力机制运用到了图像分割的工作中，通过注意力机制去融合不同尺度的图像特征作为输入，使得最终效果有了显著的提升。文献[11]则在细粒度图像分类的研究中使用了注意力机制，让模型聚焦到目标最具有区分度部位上，达到同类物体精细分类的效果。

2 算法模型

单阶段算法因计算速度快，非常适合需要实时的监控场景，但是由于单阶段的算法缺少目标区域生成的过程，直接对整张图片进行特征提取和目标框的回归，容易受到复杂背景的影响导致性能下降。例如在无人机检测的过程中，容易出现误检和错检。针对这一问题，本文基于YOLOv3 网络，提出融合双注意力的单阶段目标检测算法用于无人机目标检测，通过通道注意力和空间注意力两个方面对卷积网络提取的特征进行选择，降低了复杂背景对检测结果的影响。算法在自建的无人机数据集上进行实验验证。实验证明，本文提出的网络模型比起其他单阶段的检测算法有着更好的效果，算法流程图如图1 所示。

图1 模型结构图

2.1 特征提取

本文使用DarkNet53[12]对图像数据进行特征提取。该网络融入了残差连接，解决了梯度爆炸和梯度弥散的问题，使得网络深度相较之前的网络有了很大的提升，因而能够提取到更深层次的特征。同时网络在卷积层之后加入了BatchNorm 层[13]，减少了每层网络输入的分布变化，加快了网络的收敛。

该网络中可以分为两种模块，一种是结合了残差连接的两层卷积：

该网络通过上述两种模块的重复组合，构造了一个用于图像特征提取的深层网络。

2.2 多尺度预测

众所周知的是，在深度学习中，底层网络提取出的特征缺乏语义信息，难以对特征进行准确分类，但是特征图较大，目标的位置准确；高层网络提取出的特征语义信息丰富，方便对目标进行分类，但是特征图较小，目标的位置很粗糙。文献[14]为了解决这一问题，提出了特征金字塔网络（Feature Pyramid Network）网络，通过上采样的操作将高层与底层的特征融合，同时获得了准确的位置与丰富的语义信息。本文算法中也采用了相似的思想，将用于检测输出的特征与高层特征融合，获得了更丰富的语义信息，并且规定高层特征检测大物体，低层特征用于检测小物体，减少了位置粗糙带来的坐标变差的影响。

2.3 注意力模块

本文为了改善单阶段算法缺乏区域建议阶段导致的检测效果不佳的问题，通过融合通道注意力与空间注意力，抑制无效特征，使得提取的特征更准确。该模块可以分为两个阶段：注意力生成阶段与融合阶段。

注意力生成阶段主要负责通过提取出的高层特征计算通道注意力和空间注意力。对于通道注意力，使用均值池化操作和全连接层进行计算和特征降维。对于空间注意力则使用卷积层和sigmoid 操作获得。

式中：AttnC代表生成的通道注意力，AttnS代表生成的空间注意力，Fend代表特征提取器提取出的最后一层特征。AvgPool用于将特征图的尺度变为1×1，以的到通道上的特征；FCsqueezed将特征压缩到一个较小的维度，用于后续扩展到不同通道长度，与对应特征融合；Sigmoid操作将最后特征的值变为0 到1 之间，生成空间力。

注意力融合阶段主要目的是使用获得的注意力对用于预测的特征进行指导，获得更有效的信息。

式中：FAC代表融合了通道注意力的特征，FAS代表融合了空间注意力的特征，FFinal代表最终生成的特征，Ftodo代表用于融合注意力的特征。FCexpand用于将通道注意力扩展到融合特征对应的通道长度，Sigmoid操作将最后特征的值变为0 到1 之间，生成最终的通道注意力；concat操作用于将两个融合不同注意力的特征结合起来，通过卷积操作生成最终用于检测的特征。

2.4 回归输出

获得最后的特征信息FFinal之后，通过卷积层获得直接输出一部分通过Softmax 函数和Sigmoid 函数获得最后的类别分数和置信度，使用交叉熵计算偏差的损失。另一部分用于计算坐标与框的大小，通过L1 损失函数计算偏差的损失。输出具体如下：

式中：FFinal代表用于回归输出的特征，prob代表目标类别的概率，obj代表目标的置信度，boxcenter代表目标框的x，y 坐标的偏移量，大小为0～1 之间，offset代表目标框的对应的位置，boxscale代表目标框的长宽，anchor代表目标框预设的大小。

3 实验分析

3.1 实验数据

本文研究所用数据集为自行收集构建。该数据集包含13803 篇张图片，主要内容为无人机和干扰物体。其中无人机包含六个种类，分别为五种不同大小不同形状的四旋翼无人机和一种直升机。干扰物体主要为各种颜色与大小的气球。数据集的具体数据分布情况与部分图片展示如下。

表1 无人机数据集

表2 单目标UAV 图像样本分布

表3 多目标UAV 图像样本分布

图2 UAV数据集示例

3.2 预处理

卷积操作仅仅具有平移不变性，因此深度卷积神经网络对于目标物体的色彩与几何变化非常敏感。因此本文对训练用的图像数据进行了随机增广，用于改善算法的性能。主要操作包括：

（1）颜色随机调整，包括对比度、饱和度、亮度和灰度。

（2）图像的相关操作，包括裁剪、缩放和翻转。

每个批次的数据在输入网络训练之前，都会随机地进行上述操作。

3.3 实验参数设置

实验中，本文方法使用DarkNet53 作为特征提取网络。模型使用SGD 算法训练80 个轮次，初始学习率为10-4在第60 轮时，学习率下降为10-5；动量为0.9，权值衰减数值为5-4，NMS 阈值为0.45，注意力通道维度为128。实验使用multi-scale training 技术，输入不同大小图片训练模型。

3.4 对比实验

本文用3 种主流方法与论文方法进行实验对比，并且使用了三种流行的特征提取器，对比方法在无人机数据集上的效果，减少了特征提取网络对最终结果的影响。三种目标检测方法分别为：

（1）SSD（Single Shot Detector）。该方法是一个经典的单阶段算法，使用了多层特征检测的技术获得了与两阶段算法相媲美的结果。

（2）Faster R-CNN。该方法是两阶段算法中的典型，后续许多SOTA 算法都是基于该方法的改进。

（3）YOLOv3。YOLO 系列的改进方法，融合了近几年主流的计算机视觉技术，是的单阶段算法取得了新的高度，本文算法也是基于该网络进行的改进。

三种特征提取器分别为：

（1）VGG16。该网络由AlexNet 改进而来，采用连续的几个3×3 的卷积核代替其中的较大卷积核。

（2）ResNet50。该网络引入了残差结构，解决了深度网络中梯度弥散和梯度爆炸的问题，从而得以获取更深层次的特征。

（3）DarkNet53。该网络与 ResNet 类似，但是拥有着更高的GPU 利用率，更为高效。

3.5 实验结果分析

本文对比多种模型进行实验，以模型在训练集上训练，测试集上测试。以MAP（Mean Average Precision）作为评价标准。MAP 由所有类别上的平均精确度计算得到，计算公式为：

其中N(TruePositive)C表示对于类别C 的真正样本的数量，N(TotalObject)C表示类别为C 的所有物体的数量，N(TotalImages)C表示训练集的大小，最终MAP 则是所有类别上的平均精度的均值。

具体实验结果如表4 所示。

表4 对比实验结果

由表4 的实验结果可以发现，从算法上来讲，SSD512 与 YOLOv3 效果接近，均高于 Faster R-CNN 算法。因为在无人机检测的过程，无人机与无人机之间大小差距非常大，SSD 使用了多尺度的特征图，用于检测不同大小的物体；YOLOv3 使用了特征金字塔，融合了高层特征与底层特征，并且在不同大小的特征图上分别检测不同大小的物体；而Faster R-CNN 算法并没有采用类似的方法处理比例不同的目标。而SSD512的结果与YOLOv3 一致，说明同为单阶段的目标检测算法，在基本思路都是通过回归的方法使得预设的anchor 拟合目标物体的情况下，两者的表现更多的是受到特征提取器的影响；在特征提取器的一致的情况下，算法效果并没有很大的区别。从特征提取器的角度来看，虽然 VGG16 的参数量大于ResNet50 和DarkNet，但是效果并不如后者优秀，说明深度的网络更有利于提取到鲁棒的特征。最后本文提出的算法，在其余条件一致的情况下，通过增加注意力生成与注意力融合模块，在数据集上获得了1.3 的MAP 指标提升，证明本文提出的算法相比原算法效果有着明显的提升。

4 结语

本文针对无人机检测这一个任务，构建了无人机数据集用于模型的训练和评价，并针对单阶段的算法缺少目标区域生成的过程，容易受到复杂背景的影响导致性能下降的问题，提出了融合双注意力机制的目标检测算法。算法通过特征提取器提取出的特征生成出通道注意力和空间注意力，之后将注意力与不同尺度的特征进行融合，用于回归计算最终的输出。在无人机数据集上的对比实验表明，本文的方法能够提取到更丰富的特征，有效地提高了无人机检测的效果。