轨道交通复杂场景人群密度估计方法的应用研究

时间：2024-05-18

刘京李宇杰李强王璐裴中阳

（1.北京市地铁运营有限公司，北京 100044；2.北京久译科技有限公司，北京 100070）

0 引言

随着社会的发展与经济的繁荣，城市化进程使越来越多的人口涌入城市。作为大型城市的主要公共交通设施，轨道交通是人流密集的典型场所，它具有客流密度大（尤其是瞬时客流高峰大）的特点，客流高峰期容易出现严重拥挤的情况，造成乘客滞留站台的现象，甚至引发乘客纠纷、踩踏以及骚乱等安全事故，影响列车的正常运营。运营管理方对车站的大厅、站台以及换乘通道等区域进行实时监控，利用视频智能分析技术及时掌握车站整体和局部的客流密度情况，及时地对可能出现的客流拥堵情况进行预判，保障轨道交通的安全运行。同时，可以实时地向乘客发布车站客流密度的相关情况。

基于公共安全的需求，在轨道交通车站内部组建完善的监控安防系统，对站内重点区域进行图像采集[1]。早期主要依靠站内工作人员（监视监控画面）和安保人员（巡逻车站）来收集客流密度数据，在发生客流拥挤时通知站区其他工作人员对相关情况进行处理。除了存在人力消耗大、智能化程度低等问题以外，还无法保证对所有监控点位进行全程、实时监控，不能及时发现潜在的安全隐患。目前，深度学习在计算机视觉领域获得了跨越式发展[2]。但是，在轨道交通场景下，会遇到人群遮挡、光线变化、监视范围大以及距离远等问题。因此，亟需建立1 个检测精确度更高、效率更快的模型。

1 深度学习相关技术

人群密度估计是视频监控的重要信息之一，是轨道交通视频智能化的核心需求[3]。基于视频的人群密度估计方法主要分为以下5 类：基于视频帧的图像处理方法、基于检测的方法[4]、基于回归的方法、基于密度图的方法和基于卷积神经网络的方法[5]。

基于视频帧的人群密度估计方法使用一系列视频帧作为背景，相减提取前景人像所占据的空间，利用边缘提取检测人像的边缘长度，用该特征进行密度估计，该方法的局限是无法估计静态图片中的人群密度（并且在拥挤情况下估计精度较差）[6]。基于检测的人群密度估计最早是采用滑动窗口检测，通过预先定义的网格窗口遍历整张图像，以检测相应的目标，然后增加窗口，以获得大小不同的目标，通过传统图像处理方法来判断滑动窗口是否包括目标。这种检测方法的缺点是计算量很大，而且由于遮挡和空间变化的影响，因此无法计算密集人群，预测的准确性较差，难以满足轨道交通这类可能出现极密人群的复杂场景的需求，缺乏鲁棒性。

估计人口密度的主要思想是研究人口的特征映射。首先，提取透视、边缘特征、纹理和梯度等较低的场景特征。其次，研究线性回归或高斯过程等回归模型，研究低特征与人数的关系。回归法虽然能在一定程度上解决遮蔽问题，但是该方法采用回归技术，以使用全光谱图像为特征，忽略了图像的空间信息，人口密度根据一定区域内的人口数量来确定且计数过程中包括图像的空间信息，便于教授如何显示图像的局部特征和相应的密度图。通过具有特殊功能的过滤器获取图像特征，用双向滤波提取图像边缘以及用形态学滤波进行形状控制和纹理分析。传统方法是输入图像的1 个色斑（patch），通常分为2 个步骤：特征的提取和回归（或者分类），而基于 CNN 的方法则输入是完整的图片并对其进行 end-to-end 的训练。无论是使用回归还是密度图，CNN 的方法都能取得较好的结果。最后，主干神经网络采用堆叠沙漏网络（Stacked Hourglass Networks），该方法的优势是2 个网络各司其职，可以更好地提取特征。

1.1 基于深度学习的人群密度估计方法

轨道交通场景具有背景复杂、相互遮挡、人群密集以及相机清晰度低等特点，目标检测和目标跟踪算法的性能无法满足相关要求，而基于卷积神经网络的人群密度估计方法能够从低清晰度的图像中保持较高的精确度。该方法在计数的过程中加入了图像的空间信息，从而学习图像的局部特征和相应的密度图之间的映射。

图像预处理主要对图像进行图像降噪、尺度缩放和直方图均衡化，对偏暗的场景可以采用逆向光线补偿的方法进行处理；人群密度估计模型采用级联神经网络，即移动网络（Mobilenet）与堆叠沙漏网络（Stacked Hourglass Networks）。

基于纹理分析技术的人群密度估计方法可以解决基于像素特征人群密度估计方法不能解决的问题（人群密度较高时估计的精确性）。图1 是基于纹理分析技术的人群密度估计的结构框架图。其实现过程如下：首先，通过计算对输入图像的纹理进行统计分析。其次，提取纹理特征。最后，通过机器学习对这些特征进行分类，得到人群密度估计的结果。纹理分析方法通常分为4 类：统计的方法、基于结构的方法、基于频谱的方法以及基于模型的方法。一般来说，统计分析纹理描述方法是最常用的纹理分析方法，也是纹理分析研究最多、最早的方法。

图1 纹理分析人群密度估计

1.2 模型训练

机器学习模型在训练过程中，由于存在数据有噪声、正样本不足或者模型过度复杂等因素，因此会导致模型过拟合，具体表现为模型在训练集上表现很好，但是在验证集上的测试精度反而下降。其中，可以通过数据预处理技术优化数据有噪声（即数据质量差）的问题；可以使用正则化和丢弃（Dropout）优化模型过度复杂的问题，在卷积神经网络模型中常采用的正则化技术包括L1正则化、L2正则化。

1.2.1 正则化技术

机器学习的过程是通过修改参数来减小误差的过程，可是误差越小，非线性越强的参数变化越大，如果使用非线性强的参数就能使方程更加曲折，也能更好地拟合那些分布的样本数据。因此，需要修正非线性强的参数，从而更好地刻画模型的整体性能。在正样本数量较少的情况下，通常采用正则化技术将有监督学习转变为优化问题。现阶段，深度学习常用的正则化技术包括L1正则化、L2正则化以及Dropout 操作等。

1.2.2 数据增广技术

针对数据中正样本少的情况，可以通过扩增正样本数据集来优化模型过拟合的问题。目前，常用的方法为图像仿射变换、图像裁剪以及类别平衡等。

2 基于深层级联卷积神经网络的人群密度估计

2.1 深层级联卷积神经网络

神经网络相邻层所有神经元之间都有连接，称为全连接（Fully-connected）。而卷积神经网络（Convolutional Neural Network，CNN）对全连接网络的局限进行修正，加入了卷积层（Convolution 层）和池化层（Pooling 层）。

表1 人群密度检测结果

采用Mobilenet（1 种小巧而高效的卷积神经网络模型）作为前端网络，由于该前端网络主要负责利用注意力机制提取前景信息而忽略了背景信息，因此，该模型需要优先保证速度。

2.2 堆叠沙漏网络

后端网络采用堆叠沙漏网络（Stacked Hourglass Networks）作为网络主架构，其网络结构由高分辨率下采样至低分辨率，再由低分辨率上采样至高分辨率，整个网络呈现沙漏形状，并且在网络中加入变形卷积来对图像的变化进行建模。该网络在浅层和深层的特征之间有连接通道，可以很好地融合多个尺度特征信息，以应对大小不同的目标。

2.3 光流追踪技术

由于人群具有明显的运动特征，而背景往往不会在短时间内突变。因此，在后端网络中加入光流追踪技术做为辅助。从物理意义的角度来看，光流描述了视频中物体、对象在时间维度上的关联性，从而建立了视频中连续图像之间的关联关系。它是基于亮度恒定假设、时间持续性假设以及一般物体和人的移动在光流的表现上有所不同，因此，采用光流可以辅助预测2 帧图像之间发生移动的是否为人群。

2.4 注意力机制

轨道交通车站（大规模公共空间）往往具有复杂的背景信息，为了尽可能排除无效区域对算法结果造成的影响，需要采用注意力机制提取前景信息而忽略背景信息的方法。该文按照注意力关注的域划分通道域（Channel Domain），从特征通道之间的关系入手，需要明确地建模特征通道之间的相互依赖关系。

该注意力机制分成3 个部分，挤压（Squeeze），激励（Excitation）以及范围（Attention）。执行流程如下：首先，对输入特征进行全局平均池化（Global AVE Pooling），得到 1×1×频道。其次，经过全连接操作，先压缩频道数，再重构原来的频道数。再次，经过Sigmoid 激活函数生成频道为0～1 的注意力权重（Attention Weights）。最后，对应通道相乘输出特征。

2.5 可变形卷积

在地铁站台（大范围场景）应用人群密度算法时，还面临画面中人的尺度变化范围非常大的问题，采用可变性卷积的方法来适应不同的感受野尺寸。可变形卷积是指卷积核在每个元素上额外增加了1 个方向参数，使卷积核的形态更贴近特征物。可变形卷积的学习过程的偏差是通过1 个卷积层获得的，该卷积层的卷积核与普通卷积核一样，输出的偏差尺寸和输入的特征图尺寸一致，生成通道维度为2N，分别对应原始输出特征和偏移特征。采用双线性插值反向传播算法同时学习2 个卷积核。

2.6 高斯热图估计

在预测场景中每个人的位置时，传统方案是采用全连接直接回归坐标点的方法，虽然该方法的训练和前向速度较快，但是对训练数据的依赖程度较高，非常容易出现过拟合的现象。

该文采用预测高斯热图的方式，用argmax 找出峰值对应的索引，即坐标点，这种方法的精度更高，原因是其输出特征图较大且空间泛化能力较强。在人群非常拥挤的低分辨率场景下，很难分辨每个人的位置，使用热图来表示人员分布的方式更加合理。

混合高斯背景模型就是将背景图像中每个像素都定义K个高斯模型来表示该像素点在某段时间内不同的状态。假设Xt为某像素点在时刻t的颜色值，则其概率密度函数如公式（1）所示。

通过Vibe 算法和形态学处理前景图像，可以很好地对不同密度等级的人群进行密度估计，采用该方法的平均识别准确率在97%以上，可以满足正常视频监控对密度检测的需要，但是在识别速读上，还有进一步提升的空间。

3 应用在轨道交通场景的算法结果

采用轨道交通站台监控画面采集的图像测试算法除了可以给出画面内的人总数外，还可以把人员分布的热力情况展示在图上，可以对画面近处和远处人的位置有比较合理的估计。

在这种情况下，人口密度可以分为低（0～15 人）、中低（15～30 人）、中（30～45 人）、高（45～60 人）和非常高的（60 人）。测试数据取自PETS2009 数据集，使用该数据集对5 个密度等级的SVM 参数进行训练，然后选择5 组测试参数，以获得最终结果。

表2 基于该文所写方法得到的人群密度检测结果

以轨道交通站台场景为例，利用人群密度估计算法可以得到多方面的数据。首先，可以用监视画面范围内的总人数除以该画面的实际面积，从而得到人群密度值。其次，根据预先设定的阈值进行拥挤度分档，例如划分为空旷、稀疏、正常、拥挤以及极度拥挤，更加直观地展示站台当前的拥挤程度。最后，算法估计出人群的分布情况，可以统计不同划分区域内的人群密度值，分别统计站台上每个车门前的人群密度值可以体现整个站台上的客流分布情况。

综合全站所有监控相机分析的人群密度结果可以得到车站整体全景人群密度分布，可以直观地看到站内人员分布情况以及人员密度的实时变化情况。可以设定每个区域的人群密度阈值，当局部或者整体人群密度超过阈值时自动报警。