当前位置:首页 期刊杂志

基于卷积神经网络的稀疏目标场景下智能视频人数统计方法

时间:2024-05-04

焦会英

摘要

行人检测是智能交通视频分析的基础技术之一,也是计算机视觉中的关键技术本文基于卷积神经网络的Faster R-CNN框架,采用多层网絡构建深度卷积神经网络,实现复杂环境下的行人检测。基于深度学习的目标检测算法从海量数据中自动学习特征,此外,还采用了基于openev的高斯前景检测方法,将其与深度神经网络检测方法融合,从而整合了运动信息与静态检测的结果,降低了漏检率,提高了检测准确度,相比传统的目标检测算法有更好的检测效果。最后,本文给出了稀疏人群场景下的行人人数评估方法,以减少当前帧视频人数检测的误检率,提高检测精度。

【关键词】神经网络 深度学习 机器学习 行人检测 行人计数

1 引言

近几年来,卷积神经网络(CNN)和目标检测框架的成功应用大大提高了目标检测的性能。目标检测最先进的检测框架例如R-CNN以及其后继改进框架Fast R-CNN,FasterR-CNN都是从区域检测窗口中提取深度卷积特征,再将检测区域分为不同的类别。这些基于深度学习的卷积神经网络检测方法,通过大量的数据训练,在目标分类和目标检测领域表现出了非常优秀的检测准确率和鲁棒性。但其检测算法更适用于静态图片行人检测,在视频检测领域仍然存在一定的缺陷。由于视频信息的时序性要求目标的出现概率和位置在时间上是连续的,即随着时间的推移所检测出的目标位置和在固定位置上检测出的目标的概率不会有突然变化。如果将卷积神经网络静态图片的检测框架直接应用于视频检测问题,由于每帧的检测结果相互独立,无法关联行人的运动信息,将导致相邻帧之间的行人计数结果容易出现较大偏差。

本文主要研究针对稀疏人群监控场景下的行人计数算法。主要贡献有以下几点:

(1)提出了融合深度神经网络和运动信息的行人检测方法,提升了稀疏目标场景下的行人检测准确率。在技术细节上,我们采用非极大值抑制方法融合静态图像检测结果和运动前景标定的行人检测框结果,并通过实验设置检测框的大小边界,减除冗余标定检测框,提高了稀疏目标场景下行人检测的准确率。

(2)提出稀疏目标运动场景下的行人计数评估方法,提高检测系统的准确率和鲁棒性。

2 相关工作

传统的目标检测方法,一般采用人工提取的图像特征,包括SIFT、HOG、LBP等特征。在此基础上,考虑到单一模型无法解决遮挡和复杂背景等问题,Felzenszwalb等人提出DPM(Deformable part-based models)模型,它运用整体和部分的多模型系统解决遮挡等问题,在深度卷积神经网络问世之前,该算法在目标检测领域一直处于核心地位。

深度学习模型采用多层神经网络,从大规模数据深度挖掘图像的特征,并将这些特征表示出来应用在各种计算模型之中。W.Ouyang等人提出联合深度学习(UDN)的概念,将行人检测的几个重要的部分进行了联合学习,在处理海量视频图像方面取得了很好的效果。

2.1 Faster R-CNN框架检测

针对现有行人目标检测的方法,我们采用Faster R-CNN框架,将一直以来分离的regionproposal和CNN分类融合到了一起,使用端到端的网络进行目标检测,并且对框架进行模型选择和微调,简单网络目标检测速度达到17fps,复杂网络达到5fps。通过实验比较,我们采用中型网络进行目标检测,其检测速度接近于简单网络的检测速度,检测准确率却能基本达到复杂网络的效果。图1展示了采用中型复杂网络对静态行人图片的检测结果。

然而,采用基于Faster-RCNN的中型复杂网络无法关联视频图像的时序和运动信息,前一帧中标定的行人目标检测框,在下一帧中同一目标的检测结果有可能会丢失。从而,整体视频的检测结果存在一定的突变性和不稳定性。

2.2 混合高斯背景建模检测

通过混合高斯模型,得到视频图像中目标的运动信息,对运动目标进行前景图像提取,采用形态学处理,定位前景连通区域的边界像素,得到标记目标前景连通区域的矩形框,如图2所示。

高斯混合背景检测方法的优点是可以利用相邻视频帧的时序和运动信息检测出视频中的运动目标:缺点是对于静止的目标检测存在很大的局限性,并且对于运动联通区域无法进行行人识别,对相邻运动目标的计数存在误差。且无法识别图像中的阴影区域,造成统计误差。因此,本文融合基于Faster R-CNN的检测方法和基于高斯混合模型的运动信息检测方法,得出更高效的视频目标检测算法。

3 主要成果论述

3.1 融合神经网络和运动信息的检测方法

本文提出的融合运动信息与神经网络静态检测的行人视频计数算法,主要运用混合高斯背景建模和Faster R-CNN深度网络对视频图像进行处理。其主要思想是:以深度神经网络从视频图像中检测出的行人区域R为基准,将混合高斯背景建模提取的前景运动区域D与R融合,生成更为准确的最终检测结果,如图3所示。该算法的细节在3.2和3.3节进行介绍。

3.2 标定框计数优化

使用混合高斯前景检测算法和深度神经网络行人检测算法两种方法同时对相同视频帧进行行人检测,一定会出现标定框重叠现象。并且,当行人相距较近时,采用混合高斯前景检测算法得到的前景运动区域极大可能包含多个运动行人,得到错误的包含多个检测结果的标定框。

针对上而发生的情况,我们提出标定框计数优化算法:

(1)以深度神经网络检测到的行人标定框为基本,将与基本框重合面积超过50%的前景动态检测框清除,保留Faster R-CNN和基于运动背景检测算法得出的相对独立的检测结果。

(2)设置代表单人标定框的而积范围。在该范围内,通常每个标定框代表计数一个行人。对于检测框标定出的连通区域包含两个以上行人的情况,其标定框的像素而积一般远大于正常情况下单人标定框的面积范围。因此,我们在算法中设置当标定框的像素个数大于400时,我们对框内的人数统计为2.

(3)前景检测中出现的阴影区域也会被作为前景运动目标提取出来,产生一些较小的标定框。在算法中我们设置当标定框像素小于120时,清除此标定框。

(4)根据上述方法,对不同大小的标定框统计相应的人数值,从而计算出视频图片中的实时人数。

经标定框计数优化后的效果如图4所示。

3.3 计数评估优化算法

我们进一步提出了稀疏目标运动场景下的行人计数评估优化方法。在稀疏目标监控场景下,通常短时间内(一般为1~2秒)的人数可以认为是一个常数。在算法中,我们将这个时间段设置为2秒,每秒的视频帧率认为是15ft,故在30帧内,我们认为视频中的实际人数是保持不变的。然而由于漏检和错检,相近帧视频的计数结果往往存在一定差异。设当前时刻下最近30帧视频的人数统计结果为X=(x1,x2,x3,…,x30),我们将向量内出现频率最高的检测数作为当前帧的行人计数结果(S'j)。

设xi为当前视频图像第i帧的真实行人数量,si为未采用计数优化算法时第i帧视频图像的检测人数,si'为使用上述计数优化算法得到的第i帧的人数计数结果。对大量視频帧数(N)的人数估计结果与真实情况进行对比,可计算出:

两个统计量。其中,|1-p|为未采用计数优化的检测错误率,|1-p|为采用计数优化的检测错误率,N为视频帧数,实验结果显示|1-p|<|1-p|。

4 关键实现技术

4.1 Faster-Rcnn检测框架

R-CNN以及它的改进框架Fast R-CNN、Faster R-CNN都是从区域检测窗口中提取深度卷积特征,然后再将检测区域分为不同类别。通过大量的数据训练,能够提升这些基于深度学习的卷积神经网络检测方法对复杂环境下目标检测、识别的准确性和鲁棒性。

基于Faster-rcnn卷积神经网络的目标分类算法如下所示:

(1)将整张图片输入CNN,进行特征提取。

(2)用区域建议网络(Region ProposalNetwork,简称RPN)生成候选区域(RegionProposal),每张图片生成300个候选区域。

(3)把候选区域映射到CNN的最后一层卷积特征图(feature map)上。

(4)通过Rol pooling层使每个RoI生成固定尺寸的feature map。

利用Softmax Loss(探测分类概率)和Smooth Ll Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练。技术细节可参考[5]。

4.2 Faster-Rcnn模型动]练与微调

在训练RPN时,一个Mini-batch是由一幅图像中任意选取的256个proposal组成的,其中正负样本的比例为1:1。如果正样本不足128,则多用一些负样本以满足有256个Proposal可以用于训练,反之亦然。训练RPN时,与VGG网络共有的层参数可直接拷贝经ImageNet训练得到的模型中的参数;其余层参数用标准差=0.01的高斯分布初始化。

5 实验验证

5.1 实验环境

实验采用VOC数据集【】进行训练,在USCD行人检测数据集的vidd子集上进行测试,程序的运行环境为:

Ubuntu 14.10

Opencv2.9

Caffe7.5

GPU gtx860

内存:8.00G

CPU:i7-4720HQ2.6GHz

5.2 实验结果

图5是基于卷积神经网络和运动前景检测算法在USCD vidd.数据集上某个视频帧的检测效果。(a)为原始的视频输入图像,(b)为基于混合高斯背景建模算法经形态学处理后检测出的前景运动目标,(c)图融合了卷积神经网络的静态检测结果和混合高斯模型的运动前景检测结果。其中,绿色框是深度卷积神经网络在每帧静态图像中检测出的行人目标,蓝色框是将运动前景图像检测与深度神经网络静态检测结果融合后标记出的神经网络漏检的行人目标。(d)图是经标定框计数优化和最终计数评估优化后得到的行人目标计数结果。

从图5中可以看出,本文提出的算法弥补了卷积神经网络在视频图像行人计数方面的主要缺陷,提高了视频行人计数统计的鲁棒性和准确率。

6 总结

本文提出了一种融合卷积神经网络与前景运动信息的视频行人计数方法。我们解决了Faster R-CNN等基于深度神经网络的检测模型不能有效利用动态信息的主要问题,提高了视频帧行人检测的准确性。并提出了标定框计数优化和计数评估优化两个新方法,利用鲁棒统计技术,有效降低了人数的误检率。实验结果表明,本文提出的算法在相当程度上解决了在稀疏目标场景中存在一定形变、遮挡时目标行人计数不准确的问题,具有准确率高,鲁棒性好,检测速率快等优点,具有较强的实际应用价值。

参考文献

[1]C.Szegedy,W.Liu,y.Jia,P.Serinanet,S.Reed,D.Anguelov,D.Ethan,V.Vanhoucke,and A.Rabinovich,“Going deeper withconvolutions,”CVPR,2015.

[2]K.Simonyan and A. Zisserman,“Very deep convolutionalnetworks for large-scale imagerecognition,”IntI Conf.LearningRepresentations,2014.

[3]R.Girshick,J.Donahue,T.Darrell,and J.Malik,“Richfeature hierarchies for accurateobject detection and semanticsegmentation,”CVPR,2014.

[4]R.Girshick,“Fast r-cnn,”ICCV,2015.

[5]S.Ren,K.He,R.Girshick,and J.Sun,“Faster r-cnn:Towards real-time object detection with regionproposal networks,”NIPS,2015.

[6]K.He,X.Mang,S.Ren,and J.Sun,“Deep residual learning for imagerecognition,”in Proceedings of theIEEE Conference on Computer Visionand Pattern Recognition,2016,pp.770-778.

[7]S.loffe and C.Szegedy,“Batchnormalization:Accelerating deepnetwork training by reducing internalcovariate shift,”arXiv preprintarXiv:1502.03167,2015.

[8]W.Ouyang,X.Wang,X.Zeng,S.Qiu,P.Luo,Y.Tian,H.Li,S.Yang,Z.Wang,C.-C.Loy et al.,“DeepID-net:Deformable deep convolutional neuralnetworks for object detection,”CVPR,2015.

[9]David G.Lowe,Distinctive ImageFeatures from Scale-InvariantKeypoints,International Journal ofComputer Vision,Vol.60,Page 91-110,Nov 2004.

[10]Dalal N, Triggs B.Histogramsof oriented gradients for humandetection[C]//Computer Vision andPattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.

[11]Ahonen T,Hadid A,Pietikdinen M.Face description with local binarypatterns:application to facerecognition[J].IEEE Trans PatternAnal Mach Intell,2006,28(12):2037-2041.

[12]Felzenszwalb P,Mcallester D,Ramanan D.A discriminativelytrained,multiscale,deformable partmodel[J].Cvpr,2008,8::1-8.

[13]Ouyang W,Wang X.JointDeep Learning for PedestrianDetection[C]//IEEE InternationalConference on Computer Vision.IEEE,2014:2056-2063.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!