基于人头目标检测的商场人流量自动统计

时间：2024-07-29

贾世杰,吴化斌,张源源

(大连交通大学电气信息学院，辽宁大连 116028)

基于人头目标检测的商场人流量自动统计

贾世杰,吴化斌,张源源

(大连交通大学电气信息学院，辽宁大连 116028)

针对商场人流量自动统计中行人遮挡情况下计数的困难，提出基于人头目标检测的商场人流量自动统计算法.首先提取Haar特征训练Adaboost人头目标分类器，再利用Camshift算法对目标进行跟踪，使用Kalman缩小跟踪目标的搜索范围，最后利用人头模板匹配方法，判断目标是否属于同一行人.实验结果表明，此方法平均正确率达到98.2%，且统计每个行人目标只需19 ms.

商场人流量统计；人头模板匹配，Adaboost；Camshift

0 引言

一个实时、准确的人流量统计系统可以给商场的管理带来巨大的便利[1].用人工的方法对监控视频中行人进行统计，费力费时费财.特别是在多人密集的情况下，更是困难重重.近年来利用模式识别，图像处理技术解决行人流量自动统计问题已成为一个十分活跃的领域.文献[2]对视频人数识别近年来的发展作了比较详细的论述,从基于特征点跟踪、基于区域的跟踪和基于模板匹配的跟踪三个方面分析近些年人数识别进展情况；文嘉俊[1]提取目标的Haar特征，采用Adaboost 算法获得一个人头检测分类器，得到95%以上的正确率；文献[3]建立了一种基于人体头部特征的行人计数系统，系统采用轮廓、颜色信息建立用于目标检测的人头模型，通过对目标运动轨迹的分析实现行人计数，正确率达95%以上；Kulrapat[4]等利用建立的人体头肩模型来检测场景中存在的人头目标，并通过snake模型跟踪目标；Lu[5]等利用颜色密度和LBP建立了四维直方图用以表示待测目标的颜色信息和纹理信息，并将卡尔曼滤波和MeanShift 搜索算法结合应用于目标的跟踪.基于模板匹配的方法对监控场景的环境变化敏感，如光照的变化、复杂的背景往往会影响检测的精度.本文采用基于统计分类的方法，首先需要通过对大量头部样本和非头部样本的离线训练获得一个人头目标分类器，通过该分类器对场景中的目标进行检测，在此基础上实现人流量自动统计.

1 本文方法

针对在行人遮挡，重叠密集情况下存在的误

图1 行人统计流程图

检和漏检的问题，本文使用基于统计分类的方法，首先提取Haar特征训练Adaboost人头目标分类器，再利用Camshift算法对目标进行跟踪，使用Kalman算法缩小跟踪目标的搜索范围；最后通过人头模板匹配方法，判断帧间目标是否属于同一行人.具体流程如图1所示.

1.1 人头目标分类器

1.1.1 读入样本图像

样本图像包括人头和非人头图像，是将商场门口以45°俯视角拍摄的视频图像，通过截图得到.

1.1.2 灰度化处理

利用公式gray=red*0.3+green*0.59+blue*0.11进行灰度化处理，并将样本图像归一化成20*20的大小.

1.1.3 Haar特征提取

Haar特征[13]分为三类：边缘特征、线性特征、中心特征和对角线特征，如图2(a)，(b)，(c)所示.每个特征由2～3个矩形组成，分别检测边界、细线、中心特征.特征模板由白色和黑色两种矩形组成，模板的特征值定义为白色矩形像素总数与黑色矩形像素总数之差，反映了图像的灰度变化情况.

图2 Haar特征

1.1.4 训练Adaboost人头分类器

Adaboost是一种迭代的方法，它的核心思想是针对不同的训练集训练多个弱分类器，然后把这些在不同训练集上训练得到的弱分类器集合起来，构成一个强分类器[14].本文基于样本图像Haar特征，使用Opencv自带的Adaboost分类程序训练人头分类器.

1.2 行人计数

1.2.1 读入视频

导入商场行人监控的视频，视频拍摄的环境和角度都是和训练人头目标分类器一致的.

1.2.2 图像预处理

对图像目标进行检测之前，还需对目标图像进行适当的预处理，可以减少计算量.本文对原始图像进行以下两步处理：

(1) 使用1.1.2描述的方法将彩色图像转化为灰度图像，即图像灰度化；

(2) 设置感兴趣区域.本文把图像中纵坐标100～140之间的区域作为感兴趣区域，以提高检测速度.

1.2.3 检测人头目标

使用人头目标分类器对图像感兴趣区域进行目标检测，再根据人头目标在二值图中长度、所占据的像素数量将非人头目标排除.

1.2.4 行人目标保存至链表

在目标检测、跟踪之后，把目标保存至动态链表中.链表储存了目标的坐标，序列等信息，链表保存的目标信息随图像序列的更新而更新.

1.2.5 人头目标跟踪、人头模板匹配及计数

本文采用Kalman+Camshift的算法实现人头目标的跟踪.运用Kalman算法来预测目标可能出现的区域，可减少搜寻范围.Kalman滤波器是一种递推估计器，采用的递归技术是其最有意义的特点之一，无需考虑多个过去的输入信号，而且在每次递归运算时，只需要前一个输入信号就可以，即认为信号现在的状态只依赖前一个，而不依赖以前所有信号的状态[15].这样就无需将过去的测量值都存起来，实时性较高.Camshift即“Continuously Apative Mean-Shift”算法，是一种运动跟踪算法.它主要通过视频图像中运动物体的颜色信息达到跟踪的目的，Camshift跟踪目标可以减少大量的搜寻时间，具有良好的实时性.由于运动物体在前后帧运动的空间不会很大，因此和Kalman结合使用，就可以进一步减少搜寻的区域，从而更快速，准确的跟踪运动物体.当视频序列逐帧变化时，Camshift算法逐帧进行处理，这样就能达到连续对视频序列中运动目标进行跟踪.

为区分目标是否是同一个行人，本文采用人头模板匹配的算法.通过连续两帧间目标的Hu不变矩特征和目标质心的欧氏距离相结合来判断目标是否匹配.判断出目标之后，根据目标是否经过感兴趣区域中设置的计数线来计数.

2 实验结果及分析

为了验证本文提出的方法，本文使用商场实时视频进行了测试，分行人密集(视频一)和行人不密集(视频二)两种情形，使用Vs 2008+Opencv 2.4.3进行实验仿真.测试平台采用CPU主频2.5 GHz、4 G内存的PC机，视频每帧图像分辨率为400*304，帧速为25 帧/秒.

采集2 000 张人头正样本和5 000 张人头负样本，图3(a)、(b)为部分样本示例.

(a) 部分正样本

(b) 部分负样本

图4为图像灰度化效果图，图5为感兴趣区域设置，将第一根线和第三根线之间的区域设置为感兴趣区域，中间是计数线.

图4 图像灰度化

图5 感兴趣区域设置

人头目标及非人头目标的示例图像如图6所示.

(a)人头目标 (b)非人头目标

图6 目标检测示例

通过分析人头目标特点，本文根据目标在二值图中长度、所占据的像素数量来剔除人头目标，人头目标判断条件为：目标的长度在5和32个像素之间，像素总数低于270，如式(1)、(2)所示：

剔除了非人头目标之后，人头目标检测效果如图7所示.

图7 人头检测效果

图8给出了本文方法和背景差法检测效果图对比，表1为两种方法实验结果对比.

(a) 行人密集情况(本文方法)

(b) 行人不密集情况(本文方法)

表1 本文方法和背景差法实验结果对比

视频编号人工统计/人本文方法统计/人本文方法统计正确率/%背景差法统计/人背景差法统计正确率/%本文方法统计时间(人/ms)背景差法统计时间(人/ms)1(行人不密集)80801008010018302(行人密集)11211098．29685．71935

由表1所示，在行人密集的情况下，本文方法比背景差法的正确率高了12%；原因主要是在行人遮挡的情况下多个行人在二值图中形成连通域，背景差法没法将其准确分离出来，但是本文方法利用人头分类器完全避免了这个问题.

3 结论

针对行人遮挡情况下计数的困难，本文提出基于人头目标检测的商场人流量自动统计算法.实验结果表明，本文方法平均正确率达到98.2%，比文献[1]提升了3%；且统计每个行人目标只需19 ms，达到了实时性的要求.为进一步减少商场行人统计的漏检和误检，以后将通过优化人头分类器以进一步提高检测效果.

[1]文嘉俊,徐勇,战荫伟.基于Adaboost和帧间特征的人数统计[J].中国图象图形学报,2011,16(9):1729-1735.

[2]赵明瀚,王晨升.基于视频的人数识别方法综述[J].软件，2013,34(3):10-12.

[3]田煜衡,肖志涛,耿磊,等.基于头部特征的行人计数系统[J].天津工业大学学报,2013(3):66-71.

[4]KULRAPAT J,PAKORN K,SUPAKORN S.Object detection and modeling algorithm for automatic visual people counting system[C].Proceedings of 6th International Conference on Electrical Engineering/Electronices,Computer,Telecommunications and Information Technology，2009:1062-1065.

[5]LU H.Head detection and tracking by mean-shift and kalman filter[C]//Proceedings of 3rd International Conference on Innovative Computing Information and Control，2008:357.

[6]SALAKHUTDINOV R, TORRALBA A, TENENBAUM J. Learningto share visual appearance for multiclass object detection[C]. In CVPR, 2011.

[7]ZHENG L, WANG S. Visual phraselet: Refining spatialconstraints for large scale image search.Signal Processing Letters[J]. IEEE, 2013,20(4):391-394.

[8]ZHOU W, LU Y, LI H, et al. Scalar quantization for large scale image search[C]. In ACM MM, 2012.

[9]宋涛,马宇峰,蔺海峰.OpenCV在目标跟踪中的应用及实现[J].计算机与网络,2009,24:38-41.

[10]覃剑.视频序列中的运动目标检测与跟踪研究[D].重庆: 重庆大学,2008.

[11]LIN S F,CHEN J Y,CHAO H X.Estimation of number of people in crowed scences using perspective transformation[J].Systems,Man and Cybernetics,Part A:Systems and Humans,IEEE Transactions on,2001,31(6):645-654.

[12]XIAOWEI XU,ZHIYUAN WANG,YINGHONG LIANG,et al.A rapid method for passing people counting in monocular video sequences [C] //Proceedings of the Sixth International Conference on Machine Learning and Cybernetics,Hong Kong, 2007:19-22.

[13]文学志,方巍,郑钰辉.一种基于类Haar特征和改进AdaBoost分类器的车辆识别算法[J].电子学报,2011(5):1121-1126.

[14]PAUL V,MICHAEL JONES.Rapid object detection using a boosted cascade of simple features [C]//Proceedings of the IEEE Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE Press,2001:151-155.

[15]赵其杰,屠大维,高健,等.基于 Kalman 滤波的视觉预测目标跟踪及其应用[J].光学精密工程,2008,16(5):937-942.

Automatic Mall Traffic Statistics Based on Head Target Detection

JIA Shijie,WU Huabin,ZHANG Yuanyuan

(School of Electronic and Information Engineering, Dalian Jiaotong University, Dalian 116028, China)

Mall traffic automatic statistics has great significance in security management, staff scheduling and commodity procurement. For the counting difficulty in the case of overlapping, automatic mall traffic statistical algorithms is put forward based on the human head target detection. Firstly, Haar features are extracted to train Adaboost head target classifier. Secondly, Camshift algorithm is employed to track the target, and Kalman algorithm is used to narrow the search scope. Finally, head template is used to match the pedestrian target. Experiment results show that the average accuracy of the proposed method is 98.2%, and the counting time of each pedestrian target is only 19 ms.

mall traffic statistics; head template matching; Adaboost; Camshift

1673-9590(2015)03-0082-05

2014-09-01

国家自然科学基金资助项目(61471080)；辽宁省教育厅高等学校科研计划资助项目(L2014174)

贾世杰(1969-)，男，教授，博士，主要从事图像处理与模式识别技术的研究E-mail:jsj@djtu.edu.cn.