时间:2024-09-03
蒋圣南, 陈恩庆, 郑铭耀, 段建康
基于ResNeXt的人体动作识别
蒋圣南, 陈恩庆, 郑铭耀, 段建康
(郑州大学信息工程学院,河南 郑州 450000)
人体动作识别是计算机视觉领域的核心研究方向之一,在很多场合都有应用。深度卷积神经网络在静态图像识别方面已取得了巨大成功,并逐渐扩展到视频内容识别领域,但应用依然面临很大挑战。为此提出一种基于ResNeXt深度神经网络模型用于视频中的人体动作识别,主要包括:①使用新型ResNeXt网络结构代替原有的各种卷积神经网络结构,并使用RGB和光流2种模态的数据,使模型可充分地利用视频中动作外观及时序信息;②将端到端的视频时间分割策略应用于ResNeXt网络模型,同时将视频分为段实现对视频序列的长范围时间结构进行建模,并通过测试得到最优视频分段值,使模型能更好地区分存在子动作共享现象的相似动作,解决某些由于子动作相似而易发生的误判问题。通过在动作识别数据集UCF101和HMDB51上进行的测试表明,该模型和方法的动作识别准确率性能优于目前文献中的一些模型和方法的性能。
动作识别;ResNeXt;视频时间分割;数据增强;多模态
在视频中识别人体行为是一项具有挑战性的任务,也是计算机视觉领域的核心任务之一,并受到了研究人员的广泛关注[1-6]。其在行为分析、人工智能交互、视频监控等领域均有重要的应用。与静止的图像分类相比,视频的时间分量提供了用于识别的重要线索,因此基于运动信息可识别多个动作。此外,视频为单个图像提供自然数据增强。对于视频中的动作识别,外观和时间动态是2个关键且互补的线索。然而,由于背景杂乱、视点变化、尺度变化、光照条件不同以及相机运动等局限性,提取其信息是不易的。因此,在学习行为类别分类信息的同时,设计有效的表示是应对这些挑战的关键。
ResNeXt网络同时采用了VGGNet网络堆叠的思想和Inception网络的拆分-转换-合并的策略,以及ResNet网络的残差模块的思路,并且通过增加基数来提高网络的性能,使得网络在不增加参数复杂度的前提下提高准确率,同时还减少了超参数的数量[15],因此,ResNeXt网络模型在ImageNet和CIFAR数据库上均展现了优异的性能。另一方面,从动作识别角度看,一个好的视频特性应该包含尽可能丰富的动作的空间信息和时间信息,而网络模型层数越多,意味着能够提取到不同水平的特征越丰富,不同层次信息的组合也会越多,模型的学习和表征能力也会更强。因此本文考虑将ResNeXt网络模型应用到视频人体动作识别中,从而更好地获取动作的空间和时间特征,实验结果也表明了其用于动作识别的有效性。
此外,在基于视频的动作识别应用中,动作的各视频帧之间存在着很强的时间相关性和空间相关性,好的动作视频表示方法还需要在有效避免样本数量限制的同时,尽可能少冗余且充分利用视频中的时间信息。本文采用RGB以及光流 2种模态的数据作为动作识别模型的输入,RGB数据代表视频帧的动作空间信息,而光流数据代表视频帧的动作时间信息。2种模态的数据结合,能够优势互补,使动作识别获得更高的精确度。在实际应用中,由于密集采样的视频帧在计算量等方面的限制,对于持续时间较长的动作视频,往往无法通过采样全部视频帧获取整个动作视频的视觉信息,因此本文引入TSN[16](时间分割网络)中视频时间分割的思想,对长范围时间结构的动作进行分段采样建模。即将动作视频时间分割为段(segment),从每个对应的片段中随机采样得到短片段(snippet),再将短片段分别送入ResNeXt网络得到初始的动作类别得分,最后将初始类别得分融合得到最终识别结果。因此本文模型可以利用整个视频中动作的长范围时间信息进行端到端的视频级别的动作分类识别。
图1为本文提出的用于动作识别的整体网络结构。一个输入待识别的动作视频将被分割成段,然后从段中随机选取一个短片段送入ResNeXt网络获得动作的初始类别得分,最后融合初始类别分数来获得最终的动作类别得分。
图1 基于ResNeXt和视频时间分割建模的网络架构
视频识别的基础是能够提取更具有判别性的时间和空间信息,众多研究[14,17]表明,更深的CNN能够提取更多的判别信息,从而提高预测性能。此外,最近的研究成果[8,18]证明,网络模型的深度对于视觉表现特征至关重要。残差网络[14]有效地解决了加深网络层引起的退化问题。要提高模型的准确率,一般的方法是加深或加宽网络,但是,随着超参数数量的增加(比如channels数,filter size等),网络设计的难度和计算开销也会增加,而ResNeXt[15]结构可以在不增加参数复杂度的前提下提高准确率,同时还减少了超参数的数量。因此,本文将ResNeXt作为提取动作空间和时间特征的基础网络。
ResNeXt网络模型是高度模块化的设计,同时采用了VGG网络堆叠的思想和Inception网络拆分-转换-合并的思想,以及ResNet网络残差模块的思想。网络由一系列残差块组成,其具有相同的拓扑结构,且遵循2个简单规则:①如果生成同样大小的空间映射,则模块中的拓扑结构共享相同的超参数(如宽度和滤波器大小等);②每次当空间映射基于因子2下采样时,模块的宽度乘以2。第二个规则保证了计算的复杂度,对于浮点数运算(包括乘-加法),所有模块的计算量大致相同。
在ResNeXt中,拆分-转换-合并的形式可表示为
其中,Ti为相同的拓扑结构;C为一个模块中所具有的相同分支的数目,通常将C称为基数[15],用于模型复杂度的另外一个度量。C的取值可以是任意数,本文C取值为32。虽然宽度的大小与简单变换(内积)的数量有关,但基数的大小控制着复杂变换的数量,并且实验证明基数是一个基本维度,增加基数比增加CNN的宽度和深度更有效,能够获得更好的模型表达能力。图2为ResNeXt网络的一个基本模块,可在每个低维嵌入上实施一系列变换,然后再将输出通过相加的方式聚合。
对于一般的CNN,其输入是单帧或连续的堆叠帧,只关注短时间的视频变化,无法有效地提取长范围时间信息。然而视频中的长范围时间信息对于动作识别起着更重要的作用[19]。例如篮球投篮和扣篮在短时间内彼此相似,但是在长时间范围上却存在较大的差异,因此如果只是将运动中的一小段视频用于训练网络,很可能会造成误判。受到TSN[16]的启发,本文采用视频时间分割的思想,对基于ResNeXt网络的方法进一步改进,实现对整个视频的长范围时间结构建模。
首先,等间隔将视频分为个片段,即{1,2,…,S},然后从相应的片段中随机采样得到短片段{1,2,…,x},并将其送入ResNeXt网络以获得初始动作类别得分。再通过求平均的方法对个短片段的类别得分进行融合,从而获得短片段之间关于类别假设的共识。最后,基于该共识,使用Softmax函数预测整段视频中属于每个行为类别的概率,即
其中,为数据集中包含的动作类别数;y为第类动作的真实标签;g为第类动作的类别共识得分,其通过类别共识函数对个短片段上相同类别的得分数取平均得出。
在反向传播过程中,使用个短片段来联合优化模型参数,并且通过小批量梯度下降来学习模型参数,在参数更新时使用了个短片段的类别共识。这种优化方法,能够学习到视频级的模型参数,从而获得长范围的时间信息。
使用数据增强技术能够增加样本的多样性,弥补数据样本量不足的缺点,从而防止模型过拟合,让模型更具鲁棒性。本文使用了多剪裁、水平翻转和尺度抖动3种方法扩充数据集。尺度抖动将输入图像或者光流场的大小固定为256×340,裁剪区域的宽和高随机从{256,224,192,168}中选择。最后再将裁剪区域调整到224×224用于网络训练。另外,在所有训练中本文均使用了随机水平翻转。
本文在UCF101[20]和HMDB51[21]数据集上评估基于ResNeXt网络的性能。UCF101是从YouTube上剪辑的101类真实世界中不同种类的人类动作视频,包含有13 320个视频,每个视频片段持续3~10 s,平均为100~300帧,其部分动作视频的采样帧如图3所示。UCF101给出了最大的多样性,且在摄像机运动、物体外观和姿态、物体尺度、视点、杂乱背景、光照条件等方面存在较大的差异,是迄今为止最具挑战性的数据集之一。HMDB51数据集共有51个类别,包含6 799个视频。视频主要来自于电影,还有一些是从YouTube和Google Videos中得到。HMDB51数据集的部分动作视频的采样帧如图4所示。对于这2个数据集,本文遵循提供的评估协议并使用标准的训练/测试splits。首先在UCF-101数据集的split1上探索和评估本文方法。为了与现有技术方法进行比较,列举了UCF101和HMDB51的3个splits的平均识别准确度。
图3 UCF101的部分动作视频采样帧
图4 HMDB51的部分动作视频采样帧
训练:本文使用小批量随机梯度下降算法学习网络的权重,由于硬件限制,批量大小设置为16。权重衰减和动量分别设置为0.000 5和0.900 0,基本学习率设置为0.001 0。通过ImageNet上的预训练初始化权重,epoch设置为30。本文实验均在CPU(E5-2640 v4)和Ttian V GPU上进行的,使用的深度学习平台为Pytorch。
测试:本文遵循了原始双流ConvNets的测试方案[22]。对动作视频以相等的时间间隔对25个RGB帧或光流帧采样。对每个采样帧,通过裁剪4个角,一个中心和其水平翻转来获得10个ConvNet输入。本文将加权平均用于融合空间和时间网络。空间网络和时间网络的权重比设置为1∶1.5。
对本文提出的基于ResNeXt网络的视频动作识别方法进行评估,且与VGGNet-16、ResNet101和BN-Inception网络进行比较,分别评估这4个网络在RGB和光流以及双流融合后的识别率。实验结果见表1,由结果可知,在RGB数据和光流数据及在双流的网络上,使用ResNeXt网络的精度皆优于其他网络,证明了ResNeXt网络在用于视频的人体动作识别上的有效性。
表1 UCF101(split1)上不同网络在RGB和光流上的精确度(%)
视频时间分割短片段数对于分类结果有重要的影响,因此控制的取值对于实现良好的分类效果至关重要。当取1时,相当于未使用视频时间分割的策略,但增加值有望提高模型的识别性能。在实验中,本文将的取值设置为1~9,并使用相同的测试方法进行性能评估。结果见表2。随着短片段数值的增加,分类正确率也相应地提升,比如取5时比取1时结果提升了2.4%。说明使用更多的时间片段有助于捕获更丰富的信息,从而更好的模拟整个视频的时间结构。当值继续增加时,识别性能趋向于饱和。
表2 不同K值下UCF101(split1)的分类精确度(%)
本文将实验得到的最佳性能与现有的先进算法在UCF101和HMDB51的数据集3个splits上的平均识别率进行了比较。结果见表3,对于UCF101数据集,本文方法优于其他先进算法,相对于目前最好的传统方法IDT[2]而言,精度提高了9.3%;与基于三维卷积神经网络的方法T3D[23]相比,精度提高了2.0%;与使用双流网络的方法ST-ResNet[24]相比,精度也提高了1.8%。对于HMDB51数据集,本文方法也具有相当的竞争力,相比于基于双流网络的方法TSN[16]和ST-ResNet[24],精度分别提高了3.1%和5.2%。实验证明了本文所提出的基于ResNeXt的动作识别方法的有效性。
表3 在UCF101和HMDB51的3个split的识别精确度(%)
本文提出了一种基于ResNeXt网络的用于视频中的人体动作识别方法。以ResNeXt网络为基础,使用RGB及光流2种模态的数据,能够更多地提取关于动作的外观特征和时间特征,从而更好地实现对于动作的分类。视频时间分割方法的使用,能够对视频中的长范围时间建模,从而更好地利用视频中更长范围的时间信息。实验结果表明,本文方法在UCF101和HMDB51两个主流动作识别数据集上均带来了一定程度的性能提升。
[1] VEERIAH V, ZHUANG N F, QI G J. Differential recurrent neural networks for action recognition[C]// 2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4041-4049.
[2] WANG H, SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 3551-3558.
[3] WANG L M, QIAO Y, TANG X O. Motionlets: mid-level 3D parts for human motion recognition[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 2674-2681.
[4] NG J Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4694-4702.
[5] WANG L M, QIAO Y, TANG X O. Action recognition with trajectory-pooled deep-convolutional descriptors[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4305-4314.
[6] GAN C, WANG N Y, YANG Y, et al. DevNet: a deep event network for multimedia event detection and evidence recounting[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 2568-2577.
[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[8] SIMONYAN K, ZISSERMAN, A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-07-05]. https://arxiv.org/ abs/1409.1556.
[9] ZHOU B, LAPEDRIZA A, XIAO J X, et al. Learning deep features for scene recognition using places database[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS). New York: CAM Press, 2014: 487-495.
[10] SHEN L, LIN Z C, HUANG Q M. Relay backpropagation for effective learning of deep convolutional neural networks[M]//Computer Vision-ECCV 2016. Heidelberg: Springer International Publishing, 2016: 467-482.
[11] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.
[12] WANG L, QIAO Y, TANG X. Action recognition with trajectory-pooled deep-convolutional descriptors[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4305-4314.
[13] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1-9.
[14] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[15] XIE S N, GIRSHICK R, DOLLÁR, PIOTR, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 634.
[16] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition[M]//Computer Vision–ECCV 2016. Heidelberg: Springer International Publishing, 2016: 20-36.
[17] YU W, YANG K, BAI Y, et al. Visualizing and comparing AlexNet and VGG using deconvolutional layers[EB/OL]. [2019-07-05]. https://arxiv.org/abs/ 1412.6631.
[18] SZEGEDY C, LIU W, JIA Y Q. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015:1-9.
[19] WANG L M, QIAO Y, TANG X O. Latent hierarchical model of temporal structure for complex activity classification[J]. IEEE Transactions on Image Processing, 2014, 23(2): 810-822.
[20] SOOMRO K, ZAMIR A R, SHAH M. UCF101: a dataset of 101 human actions classes from videos in the wild[EB/OL]. [2019-07-05]. https://arxiv.org/abs/1212. 0402.
[21] KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a large video database for human motion recognition[C]//2011 International Conference on Computer Vision. New York: IEEE Press, 2011: 2556-2563.
[22] LIU X, YANG X D. Multi-stream with deep convolutional neural networks for human action recognition in videos[M]//Neural Information Processing. Heidelberg: Springer International Publishing, 2018: 251-262.
[23] DIBA A, FAYYAZ M, SHARMA V, et al. Temporal 3D ConvNets: new architecture and transfer learning for video classification[EB/OL]. [2019-07-05]. https://arxiv. org/abs/1711.08200.
[24] FEICHTENHOFER C, PINZ A, WILDES R P. Spatiotemporal residual networks for video action recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 3468-3476.
[25] FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1933-1941.
[26] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4489-4497.
[27] GIRDHAR R, RAMANAN D, GUPTA A, et al. ActionVLAD: learning spatio-temporal aggregation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 337.
Human action recognition based on ResNeXt
JIANG Sheng-nan, CHEN En-qing, ZHEN Ming-yao, DUAN Jian-kang
(School of Information Engineering, Zhengzhou University, Zhengzhou Henan 450000, China)
Human action recognition is one of the core research directions in the field of computer vision and is applied in many occasions. Deep convolutional neural networks have achieved great success in static image recognition and have gradually expanded into the field of video content recognition, but they still face great challenges in applications. This paper proposes a deep neural network model based on ResNeXt network for human action recognition in video. The main innovations of this paper include: ① The new ResNeXt network structure was used to replace the original convolutional neural network structure. Two kinds of modal data of RGB and optical flow was collected to make full use of the appearance and temporal order information in the video. ② The end-to-end video time segmentation strategy was applied to the proposed ResNeXt network model. The video was divided intosegments to model the long-range time structure of the video sequence, and the optimal value ofwas obtained through tests, which enables the model to better distinguish the similar actions with sub-action sharing phenomenon and solve the problems of misjudgment that are easy to emerge due to similar sub-actions. Tests performed on the widely used action recognition data sets UCF101 and HMDB51 showed that the action recognition accuracy of the proposed model and method is better than that of the models and methods in the existing literature.
action recognition; ResNeXt; video temporal segmentation; data enhancement; multimodal
TP 391
10.11996/JG.j.2095-302X.2020020277
A
2095-302X(2020)02-0277-06
2019-08-05;
2019-08-29
国家自然科学基金项目(U1804152,61806180)
蒋圣南(1994–),女,河南商丘人,硕士研究生。主要研究方向为人工智能、计算机视觉等。E-mail:shengnanjiang77@163.com
陈恩庆(1977–),男,福建龙海人,教授,博士,硕士生导师。主要研究方向为计算机视觉、模式识别和多媒体信息处理。E-mail:ceq2003@163.com
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!