面向无人驾驶的井下行人检测方法

时间：2024-07-28

刘备战，赵洪辉，周李兵

(1.陕西陕煤榆北煤业公司，陕西榆林 719000；2.中煤科工集团常州研究院有限公司，江苏常州 213015；3.天地(常州)自动化股份有限公司，江苏常州 213015)

0 引言

煤矿井下巷道错综复杂且工作环境恶劣，将无人驾驶技术引入煤矿开采，实现矿用车辆自动化，有利于提高煤矿井下安全系数。行人检测是煤矿井下无人驾驶的关键技术，许多学者对此展开了研究。J. S. Dickens等[1]采用多信息融合技术，结合3D传感器和红外成像传感器实现了井下矿用车辆的行人检测。董观利等[2]先对图像提取高斯模型前景，再对前景进行分类，可快速识别行人位置及越界方向。李伟山等[3]以深度学习通用目标检测框架Faster RCNN(Faster Region-based Convolutional Neural Networks)为基础，对候选区域网络结构进行改进，采用3种不同尺度的卷积核来计算候选区域，提高了煤矿井下行人检测的鲁棒性。李现国等[4]对基于SSD(Single Shot MultiBox Detector)网络的行人检测方法进行改进：设计了一种基于DenseNet网络的轻量级卷积神经网络作为SSD网络的基础网络，以满足井下视频行人检测实时性需求；同时设计了基于ResNet网络的辅助网络，提高了行人检测准确性。魏力等[5]采用通道注意力机制，在增强图像中人员前景特征信息的同时抑制背景信息，提高了在低分辨率、遮挡等影响下的目标判别能力。然而，受煤矿井下光照不均匀、背景复杂、红外线干扰、光线昏暗和图像中目标小且密集等影响，应用上述方法时检测精度不理想。本文提出了一种面向无人驾驶的井下行人检测方法。该方法通过融合可见光传感器、红外传感器和深度传感器获得的图像，可提高井下行人检测精度；在ResNet的基础上加入Dense连接来优化RetinaNet网络，优化后的Dense-RetinaNet对小目标的检测能力更加突出。

1 数据采集

为获得足够多的煤矿井下环境数据，采用包含可见光传感器、深度传感器和红外传感器的Kinect摄像机(图1)。将Kinect摄像机中3个传感器安装在井下防爆无轨胶轮车车头，如图2所示。

图1 Kinect摄像机Fig.1 Kinect camera

图2 传感器安装位置Fig.2 Sensors installation position

煤矿井下采集的原始数据以视频方式保存，视频数据处理流程如图3所示。首先，将采集的视频经过OpenCV逐帧提取可视度良好的图像帧来获得单张图像。其中，可见光图像分辨率为1 920×1 080，红外图像和深度图像分辨率为400×600。可见光图像和红外图像的通道数为3；深度图像格式为RGB-D，共4个通道，其中前3个通道为图像色彩信息，最后1个通道为图像深度信息。然后，对单张图像进行数据增强(包括直方图均衡[6]、双边滤波、反转、旋转、缩放和平移)。最后，选用LabelImg软件对图像进行手动标注标签，标注的信息包括目标边界、目标类别和目标中心坐标(每张图像中包括的行人数量为1～10)。

图3 视频数据处理流程Fig.3 Video data processing process

经处理后的煤矿井下行人图像部分实例如图4所示。可看出可见光图像色彩丰富，成像距离长，但物体轮廓较模糊；深度图像中物体轮廓凸出，但成像距离短，长距离成像稀疏；红外图像能够过滤其他光线干扰，但同样有成像距离短的缺点。

2 目标检测网络

2.1 分步多特征融合

为充分利用多个传感器联合来加强图像中信息，基于Dense块进行分步多特征融合，如图5所示。首先，将红外图像和可见光图像通过卷积之后送入各自数据流的Dense块中提取特征，并在每一个特征层上执行拼接操作。红外图像和可见光图像经过Dense块处理后，输出特征图大小分别为13×13×1 024，26×26×512，52×52×256。然后，分别将这3种特征图在其对应的尺度上进行特征融合，形成红外图像和可见光图像特征融合金字塔。同时，深度图像经过3个卷积层后，对每一个卷积层结果提取深度信息，形成深度金字塔。最后，将深度金字塔和融合金字塔中大小对应的特征层进行拼接，形成融合特征。融合特征经过一个1×1的卷积层后输入到Dense-RetinaNet中。

图5 分步多特征融合原理Fig.5 Principle of step by step multi-characteristic fusion

2.2 Dense-RetinaNet

RetinaNet网络由残差网络ResNet、特征金字塔和分类定位模块3个部分组成[7]。ResNet作为特征提取器，可使网络极大限度地保持图像特征在传递过程中不会丢失。特征金字塔可从提取到的特征中计算出多尺度的候选区域[8]，形成信息更具体、表达更强的特征图。分类定位模块是在特征金字塔中每一个特征层上定位和分类，以保证获得多尺度检测结果。

井下环境获得的图像所包含干扰更加复杂，为解决由光照等因素引起的井下图像中小目标不明显问题，本文对RetinaNet进行改进，在ResNet的基础上加入Dense连接[9]，形成一种具有层级相连结构的Dense-RetinaNet，有助于在特征前向流动过程中使更多细节被保存，同时在反向传播过程中计算梯度时信息会被更加充分利用。改进的ResNet结构如图6所示。改进的ResNet中包含5个Dense残差块，每个Dense残差块中有4个特征层，特征层之间进行局部特征连接，各残差块之间进行全局特征连接。通过对局部特征和全局特征的连接，使得特征能够充分被传递，让网络可从图像中提取更丰富的特征，并且可抵抗梯度消失问题。

图6 改进的ResNet结构Fig.6 Improved ResNet structure

2.3 损失函数

Dense-RetinaNet在分类上采用RetinaNet原有的Focal Loss损失函数。不同于标准的交叉熵损失函数，Focal Loss为了平衡正负样本数量[10]，特别加入了一个平衡因子ε(ε>0)。

交叉熵损失函数为

(1)

式中：l为真实样本数据；p为l=1的概率。

加入平衡因子后的Focal Loss损失函数为

Lf=-(1-Lc)εlog2Lc

(2)

定位损失函数Lloc为

Lloc=αLsize+βLpos+γLcof

(3)

(4)

(5)

(6)

3 实验及结果分析

网络训练平台为NVIDIA AGX Xavier Developer Kit，内存为32 GB，操作系统为Ubuntu 18.04 LTS，采用PyTorch开源框架。网络训练分为预训练和调参2个阶段。在PASCAL VOC2007+2012[12]数据集上预训练网络。将训练好的部分网络参数冻结，在调参阶段采用Adam优化器，设置动量参数为0.9，均方根参数为0.999，学习率为0.001，批处理大小为32，迭代次数为3 000。

为验证分步多特征融合的有效性，分别将可见光图像和可见光图像+红外图像+深度图像输入Dense-RetinaNet，检测结果见表1。可看出经过分步多特征融合的图像有利于网络在暗光和遮挡情况下提高mAP(mean Average Precision，平均精度均值)，分别较单一可见光图像时提高了14.02%和4.03%；但进行分步多特征融合时网络要处理更多数据，会增加运行时间。

表1 不同输入图像下检测结果对比Table 1 Comparison of detection results under different input images

为验证Dense-RetinaNet的有效性，分别采用Dense-RetinaNet和RetinaNet对煤矿井下行人图像进行检测，结果如图7所示。可看出Dense-RetinaNet比RetinaNet有更好的小目标和多目标检测能力。

图7 煤矿井下行人检测结果Fig.7 Underground mine pedestrian detection results

RetinaNet和Dense-RetinaNet检测结果对比见表2。可看出Dense-RetinaNet相较于RetinaNet在多目标检测精度上提高了1.22%，小目标检测精度上提高了6.49%。

表2 RetinaNet和Dense-RetinaNet检测结果对比Table 2 Comparison of detection results between RetinaNet and Dense-RetinaNet

4 结语

针对煤矿井下环境中光照复杂、目标尺度小等问题，提出了一种面向无人驾驶的井下行人检测方法。该方法通过分步多特征融合方式将可见光传感器、红外传感器和深度传感器采集的图像进行特征融合，获得了更加丰富的图像特征；在RetinaNet的基础上，将Dense连接引入ResNet，形成一种具有层级相连结构的Dense-RetinaNet网络，能够从输入的多传感器融合图像中提取深层特征，增强了对小目标的检测能力。实验结果表明，多传感融合图像相较于单一图像可获得更加丰富的目标特征，有利于提高目标检测精度；Dense-RetinaNet相较于RetinaNet在多目标和小目标检测精度上均有所提高。