基于YOLO5Face的口罩人脸检测

时间：2024-05-04

樊钦睿，李丹

（四川大学锦城学院，四川成都，611731）

0 引言

随着计算机性能的快速发展，机器学习迎来了它的黄金时期，而人脸检测作为很多任务的前驱任务，一直是一个热门研究领域，这些年来，各种算法突飞猛进的快速发展，我们在人脸检测领域已经取得了巨大进步。在深度学习中，人脸检测是一项非常重要的计算机视觉任务，特别是卷积神经网络（CNN）。人脸检测作为许多任务的第一步，包括人脸识别、验证、跟踪、对齐、表情分析等，都吸引了学术界和工业界的许多研究。多年来，机器学习中人脸检测的性能和准确性有了显著地提高。有关人脸检测的调查，请参考基准结果[3-4]。在人脸检测领域中，很多学者和机构提出了许多来自不同角度的方法，研究方向包括了CNN网络的设计、损失函数、数据增强和训练方法等。

虽然在普通人脸检测上，我们已经取得了巨大进步，但现在存在的问题是，佩戴口罩出行成了大势所趋，而口罩不可避免地会带来某些较难解决的噪声[2]。检测带有口罩遮挡的人脸是一项具有挑战性的任务，主要有以下两个原因：（1）缺少大规模的口罩人脸数据集的支持。（2）口罩在人脸上遮挡范围较大，使很多人脸区域的特征丢失，现有的很多人脸检测器达不到理想的效果。

YOLO5face独特的检测机制与很多使用特定人脸检测器的设计不同，YOLO5Face是一个基于YOLOv5对象检测的人脸检测器，它将人脸检测视为一般目标检测任务[1]。基于YOLO5Face在WiderFace数据集上的实验结果表明，此方向具有高度可行性，且在有遮挡人脸，如：戴口罩、戴墨镜等情况下具有优势。

我们这次使用了一个戴口罩人脸的数据集，其为Markface。在这个数据集内一共有863张人脸图片。且大部分图片中有一个或多个戴口罩的人脸，这些人脸是用人工方式进行标记的。如HAAR、HOG、LBP、SIFT、DPM、ACF等，有关机器视觉特征提取请参考[8-9]。在同一张图片中的人脸有大有小，有正确佩戴口罩和不正确佩戴口罩，其中的情况很接近现实情况，具有较高实际价值。而在图片的标注处理过程中，确保了每个图像至少包含一个人脸，虽然此数据集的数据量较少但符合真实情况，很适用于小型模型训练。

在YOLO5Face的处理方法中，YOLO5Face与TinaFace[5]都相同的将人脸检测任务作为了一般的目标检测任务。换句话说，我们把人脸视为一个普通物体。与通常的人脸检测器不同，我们不需要特别标注人脸特征。正如在TinaFace[5]中所说，人脸所具有的属性，如姿势、比例、遮挡、照明、模糊等，在其他的一般性的物体上也存在。面部中特有的属性，像表情，化妆也可以看作是物体的变形和颜色。基于YOlOv5目标检测器的人脸检测器正是遵循这种理念设计出的。由于我们考虑到不同的应用场景，此模型具有不同大小的检测器。目的是为不同的应用程序提供一个从复杂到简单的模型组合，以便取得在嵌入式或移动设备上性能和准确度的权衡。

而基于YOLOv5Face的这种人脸检测理念，我们在以戴口罩的人脸检测为目标时，把人脸被口罩遮视为一般物体被遮挡，这为我们的操作提供了便利性，我们不需要额外重新发明一个戴口罩的人脸检测器，因为YOLO5Face可以很好地满足我们的要求，并且具有很好的性能和准确度。

1 相关工作

1.1 目标检测

由于CNN在许多机器学习任务中表现突出，YOLO5 Face是由CNN主导的。目前主流的检测器有two-stage和one-stage这两种物体检测器。two-stage目标检测器的性能非常好，但延迟时间较长，速度较慢，这与我们追求的效率目标有所冲突。为了克服这一问题，与传统的YOLO模型一样，我们使用了one-stage目标检测器，它经过单次检测即可直接得到最终的检测结果，因此one-stage目标检测器具有更快的速度，这能帮助我们更好地找到性能与速度的平衡。

1.2 人脸检测

我们把人脸检测视为了一般的目标检测。在最流行、最具挑战性的人脸检测基准WiderFace人脸数据集[1]发布后，人脸检测中的极端问题迅速被关注，包括比例、姿势、遮挡、表情、化妆、光照、模糊等。为了解决这些问题，许多解决方法被提出，例如划分比例，忽略背景，更改锚的大小等。

值得注意的是，有些人脸检测器标注了人脸特征，而另外一些只是把人脸检测作为了一般目标检测，在一般目标检测器上做了调整和修改便用作了人脸检测。用RetinaFace [3]做例子，它使用了 landmark regression来帮助监督人脸检测，而TinaFace[5]没有关注多余特征，它是一个一般目标检测器。

1.3 YOLO

YOLO首次出现在2015年，是一种不同于当下流行的 two-stage方法。它将对象检测视为一个回归问题，而不是一个分类问题[7]。它使用单个神经网络来完成检测对象的所有阶段，这能大大提高模型速度。从结果来看，它不仅取得了非常好的检测性能，而且实现了能够实时处理的速度。此外，它具有良好的泛化能力，可以很容易地训练来检测不同的对象。

在接下来的五年里，YOLO算法已经升级到第五个版本，加入了很多来自目标检测社区的创新想法。在前三个版本中，YOLOv3是一个里程碑，它通过引入了多尺度特性（FPN）[7]、更好的主干网络（暗网53），并用二元交叉熵损失函数取代了Softmax，在性能和速度上都有了重大改进。

而与前几代版本不同，YOLOv5由另一个的研究团队发布。在算法上YOLOv5没有很多创新。且YOLOv5团队并没有发表改进论文。这使它陷入了是否应该被称为YOLOv5的争议中。然而不可否认的，它显著缩小了模型大小、提高了运算速度且有与YOLOv4[3]相似的性能，以及在Python（Pytorch）上的完整实现，因此它受到了目标检测社区的欢迎。

YOLOv5具有一个很小的内核，这使它在较小人脸检测和大规模的人脸检测上上更具优势。为了提高模型性能，我们使用了YOLOV5的预训练模型，应用在了Markface数据集上。

2 实验结果

2.1 数据集

Markface数据集是较为常规的口罩人脸检测数据集，它包含853张图像。其规模、姿势、遮挡、表情、照明，特别口罩佩戴情况接近现实，非常具有现实价值。我们把整个数据集按70%/10%/20%的比率分为训练/验证/测试。标签由佩戴口罩（with_mask），未佩戴口罩（without_mask）和口罩佩戴不正确（mask_weared_incorrect）组成。

2.2 实施情况

我们使用YOLOv5作为基础，并实现了YOLO5Face在PyTorch中描述的所有修改[1]。我们在Markface数据集上使用了多种预训练模型，从大尺寸模型（YOLOv5l、YOLOv5l6）到中型模型（YOLOv5m、YOLOv5m6），到小型模型（YOLOv5s、YOLOv5s6）。

人脸标签被分为了三部分：（with_mask），（without_mask），（mask_weared_incorrect）。

我们在训练的过程发现，在前10个epoch训练中精度提升明显，由于Markface数据集规模不大，且模型较小，在50个epoch后损失函数“box”,“obj”,“cls”已经开始收敛,在100epoch后精度已经在了稳定较高水准。此时在验证集上表现已经很不错了（如图1-2所示）。

图1

图2

Precision：精度（找对的正类/所有找到的正类）：

Recall：召回率（找对的正类/所有本应该被找对的正类）：

3 医院口罩检测系统

口罩是否正确佩戴直接影响了口罩的实际作用，特别是在医院这种高度需要佩戴口罩的场所中，检查人群是否佩戴口罩，是否正确佩戴口罩尤为重要，如果能及时预警能更好地阻止病毒传播。此模型在这方面的应用也很具有现实价值。我们在Markface数据集上关于佩戴口罩的情况下还划分了是否正确佩戴口罩，且在测试集上表现较为优秀，能在大多数情况下准确的快速检测。在之后我准备的预测集上也是如此。结果如图3所示。注：粉色框：佩戴口罩（with_mask）；红色框：未佩戴口罩（without_mask）和橙色框：口罩佩戴不正确（mask_weared_incorrect）。

图3

医院人口密集且流动性大，实际情况较为复杂，这种情况下使用人工检测场景内的人员是否佩戴口罩较为困难且成本高。此模型能很好的应对此场景，并且相对于人工检测，成本和可行性都大为提高，如图4所示，无论是正脸/侧脸，离采集点近的较大人脸/边缘的较小人脸此模型都能应对。

图4

医院在不同场景有不同情况的检测需求，如在医院大门体温-口罩通行检测时，只需要在此模型的基础上增添现有的体温检测系统即可实现自动化通行，提高人群通行速度，避免拥堵的同时也可以减少病毒感染可能性，并且降低了人工成本。而在等候大厅等密闭场景，只需要增加一个监测点，即可提醒等候人群佩戴且正确佩戴口罩。

4 结论

总的来说，戴口罩的人脸检测在机器学习领域中是一个绕不开的难题，而我们使用的YOLO5Face作为基础的口罩人脸检测在Markface数据集上取得了不错的效果，在本文中，我们介绍了Markface数据集用于戴口罩的人脸检测的具体实施步骤。我们发现Markface数据集对于现有的人脸探测器来说非常具有挑战性。这可能意味着这个数据集可以促进有效人脸探测器的开发。

如图5所示，此模型在就算在“maksssksksss209.jpg”中的那种环境较为复杂，人脸较为密集的情况下也能有较好的检测效果，如果模型只用于识别是否佩戴口罩，而不需要划分清楚口罩的佩戴情况，那么此模型已经优于了大部分常规的人脸检测器。此外，你还可以通过此模型预测面部表情，口罩类型和遮挡程度等，这在许多现实应用中也具有实际意义。

图5

初步来看，此模型在戴口罩的人脸检测方向是极具可行性的，它具有不错的准确性和极佳的性能优势，在对比过程中我们发现，此模型在MarkFace数据集上的表现甚至优于很多网络更为复杂的模型，它很小的性能消耗和小规模的模型尺寸使它在嵌入式设备和移动设备上具有巨大优势。而减少模型复杂度和提高准确度是大势所趋，这也将是我们未来的研究方向之一。