图卷积网络在特殊人群异常行为检测中的研究与应用

时间：2024-06-01

邹开达

【关键词】异常行为检测;图卷积网络;特定场景

一、引言

随着人工智能和图像视觉分析技术的发展[1]，在芯片及算力的支持下，传统的安防行业已经进入到了智能时代，视频异常行为检测是智能监控系统[2]的核心，在学术界和工业界都有较高的研究和应用价值。最新调查研究显示[3]，我国近50%的老年人为“空巢老人”，居家养老为主要养老模式，居家安全问题的发生率高达38.03%。如何及时发现独居老人在家发生的异常行为，做到第一时间保证老人的生命健康，成为当今社会的重要课题之一。近年来，家庭场景下视频监控的普及为解决独居老人的安全问题提供了新的方案，传统的视频监控只能依靠人工的方式确认老人的健康状态，无法做到及时性与实时性。针对这个问题，本文提出了一套智能化的监控算法及实现，通过将图卷积网络与注意力机制相结合，对视频序列进行特征提取与对比，适用于在医院、独居老人或者养老院等看护人员数量不足或者缺失的场景下，对一些特殊人群的行为进行实时检测，如果发生跌倒、挥手、击打和抽烟等事先设定的异常行为类别，则向终端输出发生的异常行为的类别和时间，最大限度上减少生命及财产损失。

二、图卷积网络概述

人体骨架是人身体的内在框架，骨架由人体的关节点和骨骼组成。在空间域上，将这些关键点按照人体结构进行连接可以得到人体轮廓图。在时域上，根据关节点坐标信息变化即可对人体行为进行训练与分类。把骨架简化为一个由点和边所构成的无向图G（V，E）来表示N个关节点与T帧的人体骨架序列中点（V）与边（E）在空间与时间上的连接关系，图中蓝色的点代表人体骨骼关键点V，它们之间按照人体结构进行连接，蓝线构成帧内连线，绿线是同一个关键点在相邻帧之间的连线，通过对比在时域上造成的蓝绿线条的运动变化从而实现对运动目标行为的检测和识别。

在t时刻，有N个关键点Vt组成的边Es（t）={vtivtj | （i，j）∈H}作为图卷积网络的输入，输入图像为fin，定义节点vti其临近节点集合B（vti）={vtj |d（vtj，vti）≤D其中d（vtj，vti）表示从vtj到vti的最小长度。即图卷积的形式：

其中归一化项Zti（vtj）=|{vtk |lti（vtk）=lti（vtj）}|等于对应子集的基数，平衡不同子集对输出的贡献，w（lti（vtj））为训练过程中更新的权重规则函数，由于人体骨架在空间上是局部性的，所以在划分过程中利用这种特定的空间结构，设计一种将邻域集划分为三个子集的策略：（1）根节点本身;（2）向心集合：距离骨架重心较根节点近的邻域节点;（3）其他所有节点被分为离心集合。形式上表示为：

三、图注意力机制

为了提高模型的性能，本文对图卷积网络层进行叠加图注意力机制模块，使模型通过权值分配的方式优化网络学习参数，得到更加适合描述行为的图结构，例如人体挥手的动作其主要关节点变化是在手部和肘部，其余关节点包含运动特征信息很少，所以引入图注意力机制后，手部和肘部的关節点其权重相对其他关节点会变大，权值矩阵与图卷积层输出的特征图相乘达到特征评估的目的。

在上一节中，我们得到的人体关节点与边构成一张无向图G（V，E），其中V={1，2n，...，n}|为节点集合，节点的特征用X=x1，x2，...，xn来表示，使用图卷积公式G'=G-0.5AD-0.5X新的节点的特征X'，其中A为关节点的邻接矩阵，D是图的度矩阵，图注意力机制的目的就是对节点的特征进行加权平均。用公式表示即：

其中alearn（i，j）代表图G的邻接矩阵A的第i行第j列的值，即（i，j）边的可学习权重，由于Graph的边是简单、固定的，因此Convolution加权平均过程中邻居节点的权值也是简单、固定的。本文采用基于相似度的注意力计算方式，其权值更新公式为：

四、模型参数及测试结果

首先将输入的骨架用一个BatchNorm层来规范化网络模型，一共由9层图卷积单元块组成，前三层输出通道为64，中间三层输出通道为128，最后三层输出通道为256，每个层的时间卷积核大小为9，每一个图卷积块都使用了残差结构，并使用概率为0.5的Dropout，防止过拟合在第4层和第7层将时域的stride设为2作为池化层，最后对得到的张量进行全局池化得到256维的特征向量，最后提供给softmax分类。采用SGD，learningrate设为0.01，10个epochs学习率自乘0.1。为了模拟相机的运动，对所有帧的骨架序列进行随机仿射变换。这种变换被插入到中间帧中，以产生一种在拍摄过程中平滑地移动视角一样的效果。训练中随机抽取原始骨架序列的片段，并在测试中使用所有帧。网络最后的全局池化使网络能够处理长度不定的输入序列。最后训练好的模型在NTU-RGB+D数据集上验证精度，将最终的模型与主流的行为识别方法进行比较，比较结果显示在表1中。本文模型达到了更高的准确率，具有更好的性能，这有效地证明了本文模型的优越性。

五、结语

行为识别算法的落地具有较高的研究及应用价值，不仅适用于当下火热的无人驾驶技术，在医疗监护、社会治安等领域也有广泛的应用前景。本文提出了一种基于图卷积网络与注意力机制结合的算法，将视频帧序列进行特征提取并嵌入网络模型，完成了在监护人员不足或者确定的场景下对特定的检测人群进行实时行为分析与识别，如果发生指定的异常行为类别，则向终端输出异常信息保障第一时间减轻人体安全和财产的损失。未来的工作可以集中在如何更好地融合和利用RGB数据和骨架数据上，进一步改善和提高模型的性能。