基于深度学习的人体行为识别技术研究

时间：2024-05-18

李红臧晶

摘要：人体行为识别是计算机视觉领域研究的一个热点，为了提高视频中的人体行为识别的准确率，提出了一种基于3D卷积神经网络的行为识别方法，首先构建3D CNN模型，通过三维卷积核，来提取视频中人体行为的时-空域信息，最终并在UCF-101数据集上进行训练与测试，证明了该方法具有较好的识别效果。

关键词：人体行为识别 3D卷积神经网络 UCF-101数据集

中图分类号：TP391.41 文献标识码：A 文章编号：1672-3791（2019）10（b）-0023-02

作为智能视频分析领域中必不可少的一部分，人体行为识别技术成为计算机视觉领域中研究的热点，在人体交互、安全监控、安全防护和公共场所等多个领域具有广泛的应用前景。

1 卷积神经网络

卷积神经网络由低隐藏层和高层两部分构成，低隐藏层即特征提取层，是由若各个卷积层和下采样层交替构成，用来提取局部特征。CNN的高层是由全连接层、输出层以及逻辑回归分类器构成。

1.1 卷积层

卷积层每个输出矩阵的大小是（N-m+1），详细运算过程如式（1）所示。

其中，Xil，j中的l表示第l个卷积层，i表示第i个卷积输出矩阵的某个值，j表示对应的输出矩阵的编号，f表示非线性函数。

1.2 池化层

池化层采用局部求均值的方式进行降维[1]。详细运算过程如式（2）所示。

其中，Xil，j为进行池化过程后局部的一个输出项，它是由上一层大小为n×n的局部小矩阵进行均值运算得到的。

2 基于3D卷積神经网络的行为识别模型

3D卷积神经网络的是由8个卷积层、5个池化层、两个全连接层和一个softmax分类层组成的，该文采用大小为 3×3×3的卷积核，步长均为1×1×1。所有池化层都采用最大池化，除第一个池化层外，所有池化层的池化核大小均设为2×2×2，步长也为2×2×2。第一个池化层的池化核大小和步长均设为2×2×1。这是为了避免时间维度上过早地缩短为1。经过两个全连接层之后，每个连接层的输出节点为4096个，再经过了softmax分类器后得到最终的分类结果（见图1）。

3 实验结果与分析

3.1 数据集

该文在UCF-101人体行为数据集上进行实验，UCF-101包含身体动作、人与人之间的交互动作、体育运动等101个动作类别，总共计13320个视频片段，该文选取了数据集中的27类动作类别进行实验。

3.2 实验过程

3D卷积神经网络接收的输入为视频，输出为视频的类别，每帧视频尺寸需要重新调整为128×171，对于UCF101数据集来说，这个分辨率大约是原始视频帧的0.5倍，在训练期间进一步调整为112×112，每个视频随机抽取一个连续的16帧堆叠的片段来作为输入。3D卷积神经网络使用一个形状为16×112×112×3的四维张量来表示一个视频剪辑，意思就是说每个输入的视频剪辑是16个大小为 112×112且有3个RGB通道的图像帧序列。

3.3 实验结果

通过图2、图3、表1的实验结果可以看出，3D CNN的总体平均识别率达到了54.8%。识别准确率比2D CNN总体高了8.6%。由于快走和慢跑的相似度比较高，所以识别率还有待提高。

4 结语

该文构建了3D卷积神经网络模型，使用3D卷积神经网络来对原始视频数据进行预处理并作为网络的输入。并在UCF-101数据集上进行训练与测试，最终完成视频中的人体行为的识别。与二维卷积神经网络相比，3D CNN可以提取时间和空间特征，使得视频中的人体行为识别更加准确。

参考文献

[1] 郑胤，陈权崎，章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图像图形学报，2014，19（2）：175-184.

[2] 张颖，袁和金.基于3D卷积神经网络的人体行为识别方法[J].软件导刊，2017，167（1）：9-11.

[3] Du T，Bourdev L，Fergus R，et al.Learning Spatiotemporal Features with 3D Convolutional Networks[A].2015 IEEE International Conference on Computer Vision（ICCV）[C].2015.