基于Edge Boxes和深度学习的非限制条件下人脸检测

时间：2024-05-04

刘英剑张起贵

摘要：针对光线、旋转、遮挡、平移等因素对人脸检测结果产生的干扰，提出一种基于Edge Boxes和深度学习相结合的人脸检测算法。首先采用Edge Boxes算法提取出可能存在人脸的边界框，提取边界框中的图像并调整至合适的大小，作为卷积神经网络的输入，然后利用卷积神经网络对提取出的图像进行特征提取和分类，最后利用非极大抑制算法排除多余人脸检测框，得到人脸的准确位置。该算法应用于LFW和Yale B人脸数据库的检測率分别达到98.7%和98.5%，识别单张人脸的时间均小于0.5 s。实验结果表明，该算法在检测率和检测速率方面较传统算法都有了很大的提高，对于遮挡、光照、旋转等干扰具有更强的鲁棒性。

关键词：人脸检测；特征提取；深度学习； Edge Boxes；卷积神经网络；非极大抑制算法

中图分类号： TN911.73?34； TP391 文献标识码： A 文章编号： 1004?373X（2018）13?0029?05

Abstract： A face detection algorithm based on Edge Boxes and deep learning is proposed to eliminate the interference from light， rotation， occlusion， translation and other factors to the face detection results. The Edge Boxes algorithm is used to extract the bounding box maybe existing in human face， in which the image is adjusted to the appropriate size， and deemed as the input of the convolution neural network. Extraction and classification of the features in the extracted image are carried out by means of convolution neural network. The non?maximal suppression algorithm is used to exclude the excess face detection boxes to get the exact location of the face. The detection rate of the proposed algorithm can reach up to 98.7% and 98.5% respectively for LFW and Yale B face databases， and the identification time for single face is less than 0.5 s. The experimental results show that the detection rate and detection speed of the algorithm are much higher than those of the traditional algorithms， and it has stronger robustness against interference from occlusion， illumination and rotation.

Keywords： face detection； feature extraction； deep learning； Edge Boxes； convolution neural network； non?maximal suppression algorithm

0 引言

人脸检测是指给定任意图像，采用一定的算法对其进行搜索，判断其中是否含有人脸，如果是则计算出人脸的位置信息。人脸检测是计算机视觉中的基础性问题，是人脸识别的基础，在现实生活中广泛应用于视频监控、人机交互、智能汽车等方面[1]。

研究表明，深度卷积神经网络能够很好地表示高阶抽象概念的复杂函数。对于神经网络而言，深度指的是网络学习得到的函数中非线性运算组合水平的数量，深度模型表达能力更强、更有效率。将深度卷积神经网络用于人脸检测是一种基于特征的方法，与传统的人工特征提取相比，它的优点是通过逐层卷积层降维进行特征提取，通过全连接层形成更抽象、更有效的特征表示。然后经过多层非线性映射，使网络可以从大量的训练样本中自动学习形成适合人脸检测的特征提取器和分类器。该方法不仅降低了对训练样本的要求，而且网络层数越多，学习到的特征比传统人工特征提取得到的特征更具全局性和代表性。

本文基于深度卷积神经网络的这一特性，将其用于人脸检测，提出一种新的人脸检测思路，避免了复杂的特征提取，利用局部感受野、共享权重和混合的方法加快网络的训练速度和处理速度，在LFW，Yale B人脸库上表明，与传统算法LBP[2]，HOG[3]，PCA[4]，SVM[5]相比，本文算法所提取的人脸特征判别性更强，提升了人脸检测的准确率，能够更有效地表征非限制条件下人脸图像的特征信息，并且进行更准确的预测。

2.3 非极大抑制算法[10]

通过以上步骤已经基本上把人脸所在的区域找到，但是会从一张图片中找出多个可能是人脸的矩形框，采用非极大值抑制算法消除多余（交叉重复）的窗口，计算出合适的人脸位置信息。

3 人脸检测过程

首先采用Edge Boxes算法提取可能出现物体位置的边界框，然后截取出边界框中的图像并且调整图像的大小为32×32，以此作为训练好的深度卷积神经网络的输入，利用深度卷积神经网络对边界框中的图像进行特征提取和分类，判断边界框中的图像是否存在人脸。最后采用非极大抑制算法进行边界检测，计算人脸的合适位置。人脸检测过程如图3所示，算法步骤如下：

1）使用Edge Boxes算法檢测出可能出现物体的窗口。

2）提取窗口中的图像，并且将图像统一缩放至32×32，以此作为卷积神经网络的输入。

3）对提取出的图像进行特征提取和分类，判断提取出的图像是否是人脸。

4）利用非极大抑制算法，针对一张人脸排除多余的人脸窗口，计算出合适的人脸位置信息。

4 实验结果与分析

为了验证本文算法的性能，本文在Extend Yale B，LFW和FDDB 3个人脸数据库上进行人脸检测实验。首先在LFW上与经典的人脸检测算法进行对比实验，测试本文算法的检测率、误检率、漏检率及检测速度；其次在Extend Yale B上测试不同光照条件下的检测率；最后在自然场景下测试该算法的实用性。测试环境为Intel Corei5处理器，NVIDIA GEFORCE GT640M显卡和4 GB内存的计算机系统，测试平台为Matlab 2016b。

4.1 LFW人脸库下人脸检测对比

对比实验结果的柱状图如图4所示。不同算法的性能对比如表2所示。由表2可知，本文算法与Adaboost[11]算法、利用LBP特征进行人脸检测的算法和传统CNN算法相比，检测率和误检率远远优于这两种算法，检测速度达到了0.5 f/s，基本满足实时检测的需求。

4.2 光照实验

根据光照强度的不同，采用Yale B人脸数据库作为测试数据库。Yale B人脸数据库分为5个集合，集合1为正面光照下的图像，集合2和集合3分别包括轻度至中度光照变化的图像，集合4和集合5分别包括剧烈至重度剧烈光照下的图像。从中分别选取轻度、中度、剧烈光照下各100张图片进行测试，测试结果如表3所示。由表3可知，随着光照条件剧烈恶化，其他4种方法的检测率下降得都很快，本文算法仍能保持90%的检测率。

4.3 自然场景检测实验

在实际应用中，自然场景下多人脸检测的应用更为广泛，本文中的测试图片选自FDDB[12]人脸数据库，图像中包括旋转、光照、遮挡三种情况，检测结果如图5所示。从实验结果可以看出，本文使用的算法在不同光照、人脸角度、部分遮挡的情况下具有良好的性能，在真实的自然场景中具有较好的检测效果。

5 结语

本文提出一种基于深度卷积神经网络和Edge Boxes相结合的人脸检测方法。采用深度学习代替手工的特征提取，提高了检测率。用Edge Boxes代替传统滑动窗口的算法，提高了检测速率。在Extend Yale B，LFW和FDDB人脸数据库上的实验表明，该算法相比传统人脸检测算法，大大提高了检测率和检测速度，克服了其他算法在光照、旋转等条件下检测率低的缺陷，验证了本文算法对光照和遮挡等因素的鲁棒性。接下来的工作是对网络参数进行优化，进一步加快模型的训练速度。

参考文献

[1] GUNASEKAR S， GHOSH J， BOVIK A C. Face detection on distorted images augmented by perceptual quality?aware features [J]. IEEE transactions on information forensics & security， 2014， 9（12）： 2119?2131.

[2] WOLF L， HASSNER T， TAIGMAN Y. Effective unconstrained face recognition by combining multiple descriptors and learned background statistics [J]. IEEE transactions on pattern analysis & machine intelligence， 2011， 33（10）： 1978?1990.

[3] WANG X， HAN T X， YAN S. An HOG?LBP human detector with partial occlusion handling [C]// Proceedings of 2009 IEEE International Conference on Computer Vision. Kyoto： IEEE， 2009： 32?39.

[4] MOON H， PHILLIPS P J. Computational and performance aspects of PCA?based face?recognition algorithms [J]. Perception， 2001， 30（3）： 303?321.

[5] HARIPRASAD E N， JAYASREE M. Face detection using SURF descriptor and SVM [J]. International journal of computer applications， 2015， 129（4）： 41?46.

[6] GLOROT X， BORDES A， BENGIO Y. Deep sparse rectifier neural networks [J]. Journal of machine learning research， 2012， 15： 315?323.

[7] SYAFEEZA A R， KHALIL?HANI M， LIEW S S， et al. Convolutional neural network for face recognition with pose and illumination variation [J]. International journal of engineering & technology， 2014， 6（1）： 498?519.

[8] ZENG R， WU J， SHAO Z， et al. Quaternion softmax classifier [J]. Electronics letters， 2014， 50（25）： 1929?1931.

[9] SRIVASTAVA N， HINTON G， KRIZHEVSKY A， et al. Dropout： a simple way to prevent neural networks from overfitting [J]. Journal of machine learning research， 2014， 15（1）： 1929?1958.

[10] ROTHE R， GUILLAUMIN M， GOOL L V. Non?maximum suppression for object detection by passing messages between windows [C]// 2015 Asian Conference on Computer Vision. [S.l.]： IEEE， 2015： 290?306.

[11] LI Lijuan. Face detection algorithm based on general sample Adaboost [J]. Microcomputer information， 2010， 35（1）： 187?191.

[12] JAIN V， LEARNED?MILLER E. FDDB： a benchmark for face detection in unconstrained settings [R/OL]. [2010?12?07]. https：//people.cs.umass.edu/～elm/papers/fddb.pdf.