多融合的入侵检测系统在电站安防应用

时间：2024-08-31

郭义明，郁启华，邵书成

（1.国家能源集团广西电力有限公司,广西南宁，530000；2.国能智深控制技术有限公司，北京，100000）

0 引言

随着数字化和电站无人值守模式的推广[1]，各级变电站大量的采用无人值守的方式或使用新技术辅助值守。用于替代传统人工值守的模式。电站日常工作除了对电站的运行参数进行监控统计以外，为了安全变电站会采用大量的视频监控。在关键重要的位置部署监控摄像头能够提高电站运营的安全性。

视屏监控系统通过硬盘刻录机将电站所有监控点的摄像头连接起来，能将镜头画面实时展示或者存于刻录机随时调用。目前最新的监控摄像头已经具有一些智能检测功能，例如人脸识别，移动检测等。但是这些检测大多是通用型的算法精度不够理想，并且很多电站的摄像监控并没有这些功能。

近年来人工智能技术的发展受到了广泛关注,并在各领域发挥着举足轻重的作用。深度学习在图像识别分类任务中能够大大提升检测的速度和精度，在一些公开数据集上识别率甚至超过人类。但是基于深度学习的算法模型是需要消耗更大的计算资源[2]，并且这些模型针对特定数据集经过微调。如果直接应用深度学习的模型检测电站中的多路监控，每路视频的每秒都有30多帧，同时计算多路多帧图像需要非常大的算力服务器才能够实现。

因此本文针对现有多种检测算法设计一套适合电站运维的监控系统，以满足目前电站的运维中入侵检测报警、人脸识别、目标跟踪等业务。

1 系统的总体架构及功能设计

入侵检测系统主要由移动检测模块、目标检测模块、人脸识别模块、目标跟踪模块4大部分组成，系统的总体架构图如图1所示。

图1 目标检测方法流程图

1.1 移动检测模块

移动检测模块能够很好的过滤掉一些静止画图像，视频监控实时的刻录当前画面的图像，但检测业务如果不过滤掉这些静止画面的图像，将会有大量的冗余数据送入到后续的检测模块中，这样会增加算法的压力。这里设计一个移动检测模块作用是过滤掉一些非运动静止画面。本文使用的是帧间差分方法[3]判断当前画面是否有变动，流程如图2所示。帧间差分算法具有复杂度低、实时性好、实现简单、受光照影响不明显、动态变化的场景中效果的优点。

图2 帧间差分方法流程图

1.2 目标检测模块

目标检测模块使用深度学习算法识别移动检测模块侦测到的图像，判断图像中是否有人或者入侵的小动物等。如果检测到的目标是人，则进行后续的人脸识别判断，判断识别到的人是否为电站的工作人员。若检测到是非人的目标，则进行小动物入侵检测预警，给出目标物体在镜头中的位置坐标。目标检测模块的算法流程图如图3所示。

图3 目标检测方法流程图

1.3 人脸识别模块

人脸识别算法由人脸检测，人脸特征对齐和人脸特征库匹配三部分组成，其中人脸检测算法检测当前检测到人的图像中是否能够检测出来人脸，如果能检测出人脸则裁剪当前人脸目标。人脸特征对齐是将人脸部的眼、口、鼻位置进行镜头校正。人脸特征库匹配算法提取经过特征对齐的人脸的特征向量，将这向量和先前注册好的人脸特征库进行匹配输出最大特征值的人员人脸预测。

1.4 目标跟踪模块

目标检测跟踪模块是为了在检测到目标以后使用跟踪代替识别。识别算法消耗大量的计算资源，监控摄像头不断的传入图像可能运算不过来。因此一旦检测到目标后采用算法资源消耗更加小的跟踪取代检测能够快速有效的实时检测目标的动向。

2 系统技术实现

2.1 技术平台

系统服务器配备3个1080TIGPU计算卡，2个E260志强CPU，32G内存和2T的硬盘。服务器系统使用的是linux的ubuntu16.04版本，数据库使用Mysql5。Web服务使用的django2.0、uwsgi和nginx的组合。系统的配置可以根据不同电站的监控数量决定，一般1个8G显存的GPU最大负载30路监控。系统主要由web端、服务器端组成，可以采用B/S或者C/S。

2.2 技术要点

（1）移动检测的设计实现。本文使用相邻两帧图像的差值来判断当前图像是否存在运动变化。终端摄像头获取连续的两帧图像分别为：。计算两相邻图像的差值。设置阈值点为T，逐个点按照公式1进行二值化处理得到二值化图像。

（2）目标检测算法使用的是人工智能技术中的深度学习方法。具体的是采用工业上应用比较广泛的YOLOV3网络[4]模型。移动检测到数字图像是由于维度的矩阵组成，通常h为图像高度，w为图像的宽度，n为图像的通道数。深度卷积神经网络利用多层卷积核对图像矩阵进行卷积操作，减少图像的尺寸，提升特征维度。随着卷积不断增加最终获取到高纬度的图像特征表示，卷积示意图如图4所示。

图4 图像卷积操作示意图

深读学习使用大量标记的样本进行这种卷积操作训练，利用这种深度层次网路结果进行提取特征。当训练的精度达到我们预计的效果后，保存网络结构中各层级的特征权重。推理的预测的时候，网络会将自动提取图像矩阵的特征给出预测结果。

1)人脸检测。当目标检测到有人的时候会进行人脸检测，人脸检测使用的MTCNN算法[5]，该算法主要由P-Net、R-Net、O-Net三个部分组成。P-Net是的基本构造是一个全卷积网络，对图像进行初步的特征提取与标定边框，并进行bounding-box回归[6]调整窗口和非极大阈值过滤[7]。R-Net是使用一个相对于P-Net更加复杂的网络结构来对可能是人脸的区域窗口进行进一步的选择和调整，从而达到高精度过滤和人脸区域优化的效果。O-Net相对于R-Net来说多了一个卷积层。O-Net的效果与R-Net的区别在于这一层结构会通过更多的监督来识别面部的区域。而且会对人的面部特征进行回归，最终输出人脸面部的特征点。

2)人脸匹配算法。进行人脸检测后得到人脸的特征图，根据这些特征图提取人脸特征向量。将待识别的人脸特征与数据库中的所有的人脸特征进行比对，特征距离最近的便是同一个人的人脸。特征距离度量的时候，使用巴士距离度量两个人脸特征之间的概率分布相似性。

3)目标跟踪算法。不论是人脸还是其他的目标物体，在检测到以后都会图像中标记出这些目标。但如果频繁标记每一帧图像，在视频路数多的时候肯定会出现相应不及时视频卡顿的情况。电站实际运维情况下视频的路数比较多，因此本文设计在检测到目标以后根据这个目标的坐标结合跟踪算法优化检测后续的时间。本文使用Kernel Correlation Filter相关滤波算法[9]进行跟踪检测。

2.3 效果展示

广西贵港百花山风机厂发电站原先的视频监控系统只具备视频采集功能。一共有89路视频监控，并且界面上不能够展示全部监控路数。其中32路视频监控是在山上的风机关键位置，因此一旦发生小动物入侵或者人员私自闯入，监控并不具备报警功能，只能被动的后续调用。采用了这套多融合入侵检测系统能够在视频画面发生变化时候，对当前的画面进行智能识别，并且将识别的结果弹出界面用于报警。部分监控界面展示效果如图5所示。

图5 入侵检测效系统果图