铁路客运车站旅客异常行为智能识别和监测方法研究

时间：2024-05-04

李君，陈瑞凤,徐春婕,吕晓军

(1.北京经纬信息技术有限公司，北京 100081；2.中国铁道科学研究院集团有限公司电子计算技术研究所，北京 100081)

0 引言

随着运营里程的增加和旅客发送量的突增，中国高速铁路建设取得了举世瞩目的成就，客运服务信息系统承担着举足轻重的作用，如何保障旅客安全出行始终排在客运服务首要位置[1]。客运服务的安全管控也从一开始的被动监管、巡查式管理、追溯不及时到主动监控、安全预警、智能化管控，实现了铁路客运服务安全管理质的飞跃，但在保障旅客运输和客运服务的安全方面仍然存在问题追溯滞后、潜在隐患发现不及时、运输组织不畅等问题[2-3]。据此，利用从综合视频网接入的实时综合视频流等数据，结合列车运行时刻表等运输调度数据，通过卷积神经网络的算法，选取客运车站站台这一重点区域，进行对视频场景中旅客跨越站台白线、禁区徘徊等异常行为的识别、判断、跟踪、告警[4]，及时提醒车站工作人员和客运值班人员，对铁路客运车站旅客异常行为进行主动监测和实时调控，同时根据预判信息提早预防客运作业风险，及时发现潜在客运作业安全隐患，保障客运车站安全稳定运营。后续可以考虑对监控到的异常事件进行结构化信息的提取，如重点人员的识别及跨域追踪、站内遗留物检测等。

对于客运车站内售票大厅、检票口、候车室等人员密集度较大区域，采用多列卷积神经网络算法，较为精准的定位人员具体位置并以识别概率的形式进行清晰标记，主动监测和识别人员密度，并按照人员聚集程度进行合理引流分流，适当开放进站闸机或按需增减检票口，为更为顺畅的安排客运组织和客运作业计划提供数据依据。后续可以以客流组织为基础，结合具体的作业场景和作业模式，分析比对客流组织过程中的关键环节，得出不同场景、不同区域、不同周期的进站客流统计结果，从而预测下一阶段该区域客流。通过对典型流线布局的形式和特点进行系统性分析，并结合排队系统有关理论完善客运设备配置、优化客流组织流线。

1 旅客异常行为智能识别和监测方法研究

针对目前存在的客运服务管控分散、生产管理效率低下、客流组织安排不合理等弊端，选取铁路客运车站站台和候车厅等重点区域，采用神经网络的基本算法对越界入侵识别不及时、站段防护不到位、客运作业流线设计不合理、客运组织安排不当等问题进行算法选取和模型搭建，借助智能化的技术手段对以上车站痛点进行研究。针对旅客站台越界和站内重点区域人员密度监控两个典型场景进行研究，分别搭建“旅客站台白线越界入侵监控及预警模型”和“人员密集度主动监测控制模型”。在“旅客站台白线越界入侵监控及预警模型”中，采用CNN网络提取站台白线附近区域视频图像特征信息并根据旅客与白线的距离进行阈值判断，从而对旅客进行主动监控和预警；在“人员密集度主动监测控制模型”中选取站内人群较为密集的候车室、检票口、售票厅等重点区域进行监控，利用MCNN模型动态识别人员数量，用不同颜色直观标示密度大小，便于客运工作人员实时监控站内重点区域人群密度，提前做出客运计划安排。

2 旅客异常行为智能识别和控制设计

对于旅客异常行为的智能识别和控制，分别选取站台和候车室两个区域白线越界入侵监控预警和人员密集度主动监控的设计。对于站台白线越界，目前有很多较为成熟的检测方法且准确率也较高，但在铁路客运车站这种客流量大，旅客行为不受控制可能性大的应用场景较为特殊，针对此类典型场景进行设计可为后续相关研究提供应用参考。对于人员密度的主动监测，采用较为先进的MCNN算法，在不容易识别的选择框上叠加识别概率，且选取人群密度大的客运车站候车大厅，更加容易叠加相关算法进行后续试验。具体设计思路和具体描述如下。

2.1 旅客站台白线越界入侵监控及预警设计

1)设计思路及方法：

铁路客运车站作为现阶段最主要的交通枢纽，人员流动性较大，车站上下车人数较多、人员流动性大且换乘站客流量较大，站台上经常会出现旅客跨越白线、站端入侵等现象，以上旅客异常行为又往往容易被车站工作人员所忽视[5]，尤其在车站运营高峰时期和大面积晚点等情况下显得尤为突出，极大程度上增加了车站客运安全事故发生的概率，严重影响到车站的客运作业安全。为有效保证每位乘客的人身以及财产安全，往往需要车站安保人员和站台客运工作人员长期对站台的安全状况实时盯控，耗费极大的人力和物力。随着近年来车站视频监控及视频分析技术的不断完善和飞速发展，尤其是对于人员的姿态估计、行为识别等的检测和识别技术逐渐成熟，如：通过检测图像中所有人的关节进而分配给对应个人的OpenPose人体姿态估计算法、通过CNN网络提取图像特征信息并分类的行人识别算法、以及通过改进网络结构、结合3D卷积的各种行人识别的深度学习算法，这些算法的准确度和精细度也更高，更容易精准的识别出目标行人[6-7]。对于铁路客运车站这一具体应用场景来讲，通过视频画面实时进行行人越界入侵的检测，能够大幅提升车站客运工作人员作业效率和客运车站智能化安全管理水平，被越来越广泛的运用于车站安保工作当中。

目前，我国铁路客运车站在行人越界入侵检测方面普遍采用事后调取视频或图像进行逐帧比对的方式，这种传统的检测方式极大地降低了铁路客运管理的运营效率，且上述检测方法往往是在事故发生后所采取的，不能给现场安保人员提供提前预处理的指导，实时性差。因此，提供一种能够快速、精准、实时的完成铁路客运站站台白线越界入侵报警的车站监控视频检测技术，以提高工作效率、减少人力物力资源的浪费，成为亟需解决的技术问题。

2)实现流程图：

通过对由视频监控网获取到的视频图像进行分析，确定视频画面中的白线边界，并根据车站要求人工定义警戒区域为白线边界以内5～10 cm。根据接收到的列车到发信号，开始检测站台指定区域内的行人，并对站台白线进行检测(即获取白线边界位置及白线警戒区域)；然后在预设时间段(根据实际需要进行设置，如30秒)内，判断列车停稳信息，如果确定列车已停稳则停止检测区域内的行人，否则持续检测直到收到列车停稳信号为止。若目标行人与白线边界距离大于第一预设距离(白线内边界以外10～60 cm，则启动入侵越界报警；若目标行人与白线边界距离在第一预设距离与第二预设距离(白线内边界以外5～10 cm)之间，且逗留时间超过10秒，则系统启动徘徊报警跟踪；若目标行人距离白线内侧距离5 cm以内，则开启重点人员追踪，必要时跨域跟踪，具体思路如图1所示。

图1 站台白线越界入侵检测条件判断示意图

图2 目标行人尺寸示意图

图3 目标行人具体位置

3)算法实现描述：

针对站台两侧、候车室等重要区域实时监测，结合卷积神经网络(CNN,convolutional neural networks)算法，对跨越白线、站端侵入、禁区徘徊等旅客异常行为进行识别，对检测到的异常情况提前给出预警信息，完成旅客异常行为分析、相关区域警情预测等。

CNN包括对特征提取层和特征映射层的操作，前者负责提取上一个输入神经元的局部特征(文中为上一帧图像特征，该特征被提取后，与其它特征之间的位置关系便可确定)，特征映射结构采用影响函数核小的sigmoid函数作为卷积网络激活函数，使得特征映射具有位移不变性。后者为特征映射层，该网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有的神经元权值相等。

基于CNN的基本架构，结合Selective Search思想，首先将被测的某一帧图像(如某趟列车停稳前的某一帧视频画面)分割成很多小区域，将这些区域看作单独的图片，然后将这些区域图片传递给CNN，根据其相似性(相似性衡量标准可以为颜色、轮廓、纹理等)进行区域合并，划分到不同的类别中，不断迭代小区域合并成大区域，并对每帧图像处理，最终结合并获得包含异常人员特征图像。对于目标行人和背景的区分需要以每张区域图片的感兴趣区域为基础进行不断识别、改造，通过对支持向量机(SVM)的不断训练，为每个辨识到的目标行人生成更为精准的边界框[8-9]。具体思路如下：

图4 CNN的大致思想

利用算法计算目标行人位置时，通过安装在站台指定位置的摄像头获取目标行人所在检测区域的视频画面(行人检测结果)和相邻帧的检测视频原始图像(下一帧监测画面)，将检测区域图像输入至卷积神经网络中，获取到目标行人的行人特征信息，同时将下一帧原始监测画面输入卷积神经网络，获取全局行人特征信息。经比对，在全局行人特征信息中获取到包含目标行人的行人特征信息的区域，作为该目标行人在下一帧图像中的位置。依次对每一帧图像进行上述处理，则可以获取到该目标行人的运动轨迹，完成对其的位置跟踪。识别到越界人员后，启动入侵越界报警，通过检测该异常人员徘徊次数和时长，判断是否与接入的公安系统重点人像库进行比对，以便筛查可疑人员或重点人员，具体方法如下：

图5 目标行人位置徘徊报警跟踪示意图

图6 站台白线入侵越界人员的检测系统流程图

对于站台白线警戒区域越界人员的检测，本算法首先按照系统接收到列车到发信号且列车处于停稳前5分钟为基本条件，对于满足此条件且通过站台视频监测画面监测得到的检测区域内行人开始进行白线距离归一化(即：将目标行人双脚中心点与所述白线边界位置之间的距离乘以归一化矩阵)。之后，将待检测画面作为输入图像输入至预先训练好的卷积神经网络中，获取到目标行人的特征图以及多个候选区域；将两者结合，计算出每个候选区域中具有目标行人的概率值。若概率值大于预设概率值0.5，则可确定目标行人所在候选区域，并认定为目标行人的具体位置，将其与白线内边界位置比较。若两者距离大于60 cm则认为正常，不作任何操作；若两者距离大于10 cm(第一预设距离)，启动入侵越界报警；若两者间距离在5 cm(第二预设距离)与10 cm之间，启动入侵越界报警和行人跟踪监测，对于逗留时间超过30秒的行人，则启动徘徊报警跟踪；若小于5 cm，启动入侵越界报警并考虑是否启用重点人员比对，以进行跨域追踪。另外，针对一些敏感性区域，设置虚拟检测区域监测(可同时设置多个虚拟监测区域，虚拟监测区域均可自定义调整)，对未经允许而入检测区域的人员进行监测，并向工作人员发出告警信息，严格控制不明物体或人接近，形成高安全系数的入侵检测防范体系。

4)硬件环境搭建：

选取太原站和北京西站作为旅客异常行为实时监控及预警的视频监测试验点，搭建的智能视频分析平台能够同时接入模拟视频或数字视频信号，适用于多级联网的集中监控管理结构，可以同多家主流视频监控平台无缝对接。通过智能视频分析，返回事件预警信息，以便采取实时视频流弹出、声光电报警等方式提醒监控人员。使用智能分析终端,针对模拟和数字摄像头混合的场景,在前端完成处理和计算。

图7 综合视频前端分析结构示意图

模拟视频可从模拟摄像机到智能分析终端进行分析，也可通过矩阵对接入的视频源进行分流、切换，还可通过DVR/DVS转化为数字视频后，再通过智能分析终端实时分析。数字视频可直接从数字摄像机传输到智能分析终端进行分析，也可传输至流媒体服务器，流媒体服务器再把视频信号转发给智能分析终端进行视频分析。视频分析处理后，产生的报警信息通过网络发送给综合监控平台进行报警联动触发，并给出报警信息，提醒工作人员及时处理。

2.2 人员密集度主动监测控制模型

1)设计思路及方法：

铁路客运车站作为旅客跨城市的主要交通工具，客流量数量可观，尤其在进站口、检票口、候车厅、出站通道等场所，人群较为密集，往往容易由于突发事件导致人群失控从而发生拥挤、踩踏等事件，影响旅客人身安全和客运组织效率[10-11]。

通过采集到的站前广场实时监控录像，结合旅客身份核验时获取的人脸图像等相关身份信息，采用多列卷积神经网络(MCNN，multi-column convolutional neural network)算法，分析站内主要区域人流密集情况，将人员聚集区识别标记，对短时间内超过客流阈值的区域给出预警信息。

2)算法实现原理:

目前常用的人群计数方法主要有基于目标检测的方法和基于回归的方法，前者通过对图像上每个人或人头进行定位与识别，根据结果统计人数，此法较为准确但不适应识别高密度人群；后者只能大概估计人群数目并没有精确定位行人位置[12-13]。采用回归算法中的密度图回归算法[14-15]，即：每帧视频图像中的每个人头所在近似中心位置，采用MCNN的方法估计人头覆盖范围，将该区域转化为该区域内可能为人头的概率(表示每个像素可能有多少人)，该区域概率总和为1，最终得到人群密度图。具体的算法表述如下：

3 实验结果与分析

针对旅客异常行为识别和人群密度识别，选取北京西站作为试点车站进行试验验证，结合列车运行计划和调度作业计划，选取列车到达至发车前这段时间作为旅客异常行为识别的验证时间段，利用CNN算法进行模拟验证；另选取北京西站某候车大厅在发车高峰时间段的视频作为训练数据，利用MCNN算法进行模拟验证，验证具体方法及分析结论如下：

3.1 基于CNN的旅客异常行为识别算法模拟验证

1)实验步骤及方法：

根据列车运行计划和站台作业情况，综合考虑，选取北京西站12站台作为旅客白线越界分析的监测分析场景，选取该站台发车前5分钟至发车时的视频作为监测分析的视频源，通过CNN算法对其进行分析处理，验证预警范围是否为拟定的范围阈值。利用KNN算法对监测过程中画面内行人距离白线实时数据进行聚类分析，直观得出行人越界情况。

2)实验数据和监测结果：

对于旅客异常行为的检测，选取对车站安全运营影响程度较高的站台越界检测作为研究对象，以北京西站12站台某段时间的视频监控图像为验证场景，截取4～5段视频图像作为检测数据，得到站台附近及站台越界的目标检测结果。

3)实验结果分析：

从图8和图9可以看到，对于图8左侧图片为列车停检之前检测到的站台边缘旅客停留情况，监测到的旅客以绿色框进行标注(即：按正常状况进行处理)，对于列车停检之后发车之前的时段(如图8右侧图片)，探测到距离站台白线内边界5 cm范围内的行人以红色框线进行标注并通过平台的后台给出工作人员预警信息，必要时将识别出的旅客人脸与公安库中的人脸图像进行比对，以决定是否重点人员监控和下一步的视频跨域追踪。图8左侧图片中标注为person1的人员虽然压白线，但距离站台白线内边界在10～60 cm之间，不进行预警提示，仅作为徘徊跟踪监测的目标对象进行处理，对于上图中除此两种情形之外的其余人员则分别按照对应距离进行标注显示。图9选取北京西站12站台某趟列车开检前进行目标行人越界检测，左侧图像为检测之前的原始视频画面，右侧图像为采用算法检测之后的视频画面。

图8 北京西站12站台某时段行人站台越界检测结果

图9 北京西站12站台某时段行人站台越界检测前后对比

为了更好地将以上北京西站12站台的行人越界情况进行直观展示，选取该站台5分钟的视频，按照1秒钟播放25帧视频的速度，5分钟视频总帧数为7 500帧，对应图10 的横轴，纵轴表示行人距离站台边界的距离，目标行人尺寸及行人距离站台边界的距离统一换算为像素值，监测图像分辨率为72 dpi(即：72像素/英寸)，监测图像分辨率为1 080×1 920，

图10 行人越界检测数据分析结果

按照1 cm=28 dpi，则每帧监测图像的画面尺寸为38.6 cm高×68.6 cm宽，另外，目标行人距离站台边界的距离基本按照10:1的比例进行换算，则判断行人距离站台边界的位置相当于判断58.6-x-w-16的值是否属于[10,10.5]、[10.5,11]、[11,16]、[16,25]这3个区间，若属于[16,25]区间则代表目标行人无异常行为，不作任何操作；若属于[11,16]区间则认为目标行人有白线越界行为，启动入侵越界报警；若属于[10.5,11]区间范围则代表目标行人距离站台边界的距离在第一预设距离与第二预设距离之间，认为目标行人有越界行为，启动入侵越界报警并进行行人跟踪监测，若该状态持续时间超过30秒，则启动徘徊报警跟踪；若属于[10,10.5]区间范围则代表目标行人距离站台边界的距离小于第二预设距离，禁止停留并进行报警和必要的重点人员比对和视频跨域追踪。

从图10对某一帧视频画面中人员越界状态的统计结果可以看出，视频刚开始1分30秒的时间内(对应视频帧数0～2 000帧)，停留在[10,10.5]和[10.5,11]这两个区间的人员较多，此时刚开检，旅客大量聚集到站台上，后经车站工作人员疏导，旅客聚集和越界现象明显改善，视频进行到4分钟的时候，检测到有部分旅客距离站台白线内侧位于[10,10.5]区间，此时列车已进入站台，基本停稳，开始有极少数旅客陆续上车。

根据以上检测结果得出，无论是虚拟监测区域的行人目标检测还是站台区域的行人越界监测，按照如上算法和CNN计算模型都基本上检测出了目标对象，且根据图10的检测结果来看，基本按照实际情况能够直观的给出检测区间视频内的行人越界情况，易于后期以各种方式进行统计展现。

3.2 基于MCNN的人员密度主动监测算法模拟验证

1)实验步骤和方法：

关于人员密度检测，选取北京西站发车客流较大的第七候车室的多个检票口、第三候车室的门口区域以及北京西站候车大厅通道作为人群密度检测的数据集，针对不同时段不同检票口的视频图像进行检测，得到对应的人群密度图。根据人群密度不同以不同颜色进行标识，直观展示站内重点区域人群分布。

2)实验数据和监测结果：

检测出的人群密度图中按照人群聚集程度的不同自动以不同颜色标记人头，以便清晰的区分。对于候车大厅通道，选取10秒的录像进行检测，得到实时动态的旅客人像标记图，以蓝色方框表示识别到的目标群体，方框上可显示该目标被识别正确的概率，具体结果如图11。

图11 北京西站候车大厅目标识别具体效果

3)实验结果分析：

从以上检测结果可以看出，采用MCNN算法基本检测出了目标区域内的人群密度和估计的人员数量，识别效果较好。候车大厅通道较长，根据图11可以看出，通过CNN的算法基本能够识别出聚集的目标人员，但对于距离摄像头较远区域(即：视频最后段端)区域的目标人员，识别不是很全面，出现部分区域覆盖不到的现象，需要靠优化识别算法来实现。对于候车检票口等人员较为密集的区域，该算法能够较为精准的识别并以不同颜色表示密集的程度(用蓝色、绿色、黄色、橙色、红色依次表示人员密集程度，红色为人员密集度最大的区域，因印刷问题此处无法显示颜色)。其中，人员密集区域(红色红区域)具体的识别概率会出现概率总和为4～5的状况，但对于近距离范围内侧面、背面、带遮挡的人像识别不是很清楚，有时会出现识别不全的情况，以上情形可以从图12、图13中反映出来，此类情况可以针对性的考虑叠加其他的相关算法进行后续改善。

图12 北京西站第七候车室第一检票口人群密度检测结果

图13 北京西站第三候车室门口人群密度检测结果

4 结束语

以铁路客运车站旅客异常行为监测为契机，对监测内容进行了较详细的描述，提出了安全监控相应算法并进行了模拟验证，以上关键技术和相应算法在客运车站重点区域进行了实际验证并取得了较满意的试验效果，为车站优化了客运组织流程、减少了冗余的人员配置、提升客运工作效率。

由于行人目标检测中需要根据目标物体占用图片空间大小、目标物体形状及长宽比等因素进行考虑，对应需要将某一帧的视频画面分割为多个区域，因此需要大量的计算力。考虑到尽量减少区域分割来减轻计算量，后续可以使用基于区域的CNN模型(即RCNN算法)，采用选择性搜索的方法从一张图片中提取中多个边界框(边界框的定义依据目标物体的变化尺度、颜色、结构、所占面积进行划分)，随之分成多个区域，合并生成最后最终的目标物体位置。而且如图9、图11所示视频监测画面中距离摄像头较远区域，由于采用算法模型精准度不够，对于目标行人的辨识有所欠缺，可以通过后续改进现有算法或采用更为精准的模型进行辨识程度和准确性的改善，如Faster R-CNN算法采用RepLoss和RepLoss损失函数解决了同类物体间相互遮挡问题，并利用随机森林对候选区域进行了人体多个部位的分类和检测结果组合，大幅提升了检测的准确度；HyperLearner算法通过增加分支网络，与主体网络特征一并送入RPN(区域生成网络，Region Proposal Network)进行处理，从而解决了行人与背景的区分度困难问题，在拥挤的场景中可以准确的定义行人。