基于注意力机制和卷积神经网络结合的步态识别研究

时间：2024-05-04

刘艳丽任芳

摘要：对于步态样本不足而出现的过拟合现象，提出将注意力机制和AlexNet网络相结合的识别算法。算法中对图像作预处理后，提取步态周期的轮廓，计算步态能量图;将注意力机制和AlexNet网络相结合，有效的提取了图像的高层信息，降低了神经网络的参数，实验结果显示提高了测试样本的识别率，对跨视角有较好的鲁棒性，与AlexNet网络实验结果相比较，达到了理想的效果。

关键词：步态能量图;注意力机制;AlexNet;深度学习

中国分类号：TP31 文献标识码：A

文章编号：1009-3044（2022）17-0068-02

1 引言

步态识别是一种新兴的、非接触的生物特征识别技术，旨在通过走路的姿态进行身份识别，与其他生物识别如指纹识别、人脸识别、虹膜识别相比，步态识别具有非接触、远距离、不容易伪装和易于获取等优点，不需要被测对象的配合，唯一的一种可以远距离检测和识别的生物特征，因此是智能视频和信息安全领域研究的重点和热点[1]。

现有的步态识别方法主要有基于模型和基于非模型两个类别[2]，基于模型的步态识别是对行人的人体结构或者行人运动进行建模，通过数学建模的参数对行人步态进行识别，如骨架模型，几何相似模型等。基于非模型的步态识别利用行人运动的特征和规律提取周期性轮廓特征，如步态能量图GEI、步态流图GFI 、帧差能量图（FDEI）、计时步态图CGI、步态熵图（GEnI）等。

基于非模型的步态识别，对行人外在穿戴较为敏感，如果仅仅使用步态能量图提取行人的特征，忽略了步态中时空的信息，容易产生样本集偏小的过拟合问题;基于模型的步态识别，容易受到行人所处环境的影响。为了避免因为样本不足导致网络模型过拟合的现象，本文将注意力机制融入AlexNet卷积神经网络中，在 CASIA-B 数据集为训练样本，提取行人运动的特征进行步态识别，步态识别流程图如图1所示，实验结果显示，该方法提高了步态识别的鲁棒性和正确率。

2 步态轮廓分割

把运动目标步态轮廓从背景中分割出来的方法有帧差法、光流法和背景减除法，本文选取背景减除法，背景减除法提取行人轮廓，具有计算复杂度适中，速度快，轮廓边界较清晰的特点。利用背景的参数模型来近似背景图像的像素值，将当前帧与背景图像进行差分比较，实现对运动区域的检测，其中区别较大的像素区域被认为是运动区域，而区别较小的像素区域被认为是背景区域，提取运动物体的轮廓，然后对提取的轮廓进行形态学和二值化处理，最后归一化轮廓序列[3]。原图和去除背景的图像效果如图2所示：

3 步态能量图GEI

GEI是Han等人对前人做法的基础上总结出来的，提出构造步态能量图（GEI）的设计理念，既包含行人行走的静态信息，也包含动态信息;它是将行人一个步态周期内的所有步态二值化提取轮廓图像，将其均值化处理后得到行人步态轮廓图像的平均值图像，实现对步态周期进行能量累积，步态能量图中运动越频繁、幅度越大，表示能量越高，则对应的像素值就越大，反正则像素值越小，较好地反映了行人在一个周期的步态特征，包含频率、幅度、节奏、位置等信息，并减少了视频中步态的运算量，减低了计算的复杂度，并且GEI步态能量图与其他的步态模板，更能准确地表征行人的外在特征、速度和行走习惯等特征，对外部环境也有较好的鲁棒性[4]。

步态能量图计算公式如下：

G（x，y） =[1N t=1NFtx，y]

其中，G（x，y）为步态能量图，N为步态视频中序列帧数，Ft（x，y）为在t个步态序列中步态轮廓图中坐标为（x，y）的像素值。以头顶为中心的步态能量图如图3所示：

4 基于注意力机制的卷积神经网络

4.1 注意力机制

注意力机制[5]来源于对人类视觉的研究，在复杂的信息中，注意力会集中在重要的信息上，而忽略次要信息;在计算机图像处理中注意力机制是机器学习中的一种数据处理和资源分配方法，核心思想是突出图像中的重要特征，关注特定的部分，提升系统的效果和效率。在神经网络结构中，注意力机制是根据数据之间的关联，赋予重要的信息权重，以凸显其重要程度，注意力机制有通道注意力，像素注意力，多阶注意力等。Squeeze-and-Excitation Networks（SENet）是由自动驾驶公司Momenta在2017年公布的一种全新的图像识别结构，它通过对特征通道间的相关性进行建模，把重要的特征强化，次要特征弱化来提升准确率。SENet工作原理如图4所示，主要包含压缩操作和激励操作。

压缩设计（ Squeeze）通过卷积获得和池化后图像特征维度为H*W*C，H为Height，W为width，C为channel。压缩操作的过程就是将H*W*C压缩为1*1*C，把二位的特征通道转换为一个实数列，一维的实数获得了二维参数的全局感知野，输出的维度和输入特征的通道数一致，表示在输出特征通道上响应全局感知野。

激励设计（Excitation）将压缩操作后得到的1*1*C实数列，加入一个全连接层，预测每个通道的重要性，得到特征通道权重和特征通道之间的相关性，最后将特征通道权重添加到图像特征上，完成对图像特征的重标定。

4.2 基于注意力机制的卷积神经网络

深度学习在声音、图像、视频等识别领域有较好的效果，通过端到端的训练方式，自主学习样本的浅在特征，寻找样本的内在规律和表示层次，从而获得样本深层次的、隐藏的特征。深度学习经典模型之一的卷积神经网络受人类视觉神经系统启发，通过卷積层和池化层提取样本特征，在网络训练过程中，前馈机制不断更新卷积核的参数值，最终获得合适的权值，卷积和池化简化了神经网络模型的复杂度，有效减少了模型的参数，减低了过拟合的风险，得到了广泛应用。

AlexNet是卷积神经网络的一个模型，由Hinton和学生Alex Krizhevsky设计，参加2012年ImageNet竞赛获得冠军，AlexNet网络是由5个卷积层，有些卷积层后是最大池化层，3个全连接层，原理是基于卷积神经网络，并探究了更深层次的网络，激活函数用ReLU代替;使用最大池化代替平均池化，减少模糊化效果。卷积层使用非线性激活函数RELU，特征映射公式如下：

Ft = ReLU（WtUFt-1+βt）

ReLU（x） = max（0，x）

池化层模仿人类的视觉系统进行降维操作，提取图像更高层次的特征，常用池化操作有平均池化和最大池化，AlexNet网络采用最大池化，即选取图像区域中的最大值作为池化后的值。基于注意力机制的AlexNe卷积神经网络结构如图5所示。

5 步态识别实验及分析

本实验使用的步态数据是由中国科学院自动化研究所提供的专门用于步态研究的CASIA数据库，CASIA-B是多视角的大规模步态库，共有124位行人步态数据，分别从11个角度（0°、18°、36°、54°…180°）和三种状态（正常、穿大衣、背包）步态采集，其中正常状态（NM）每人6组步态序列，穿大衣状态（CL）每人2组步态序列，背包状态（BG）每人2组序列。提取每个人在每种状态每个角度的步态能量图。本实验在AlexNet卷积神经网络中加入了注意力机制，提高对步态信息中重要信息的关注，因为步态样本不足单纯的卷积神经网络在卷积和池化操作中容易丢失步态图像的重要信息，在识别过程中出现过拟合现象;选取CASIA-B步态数据库中80位行人步态数据作为训练样本，44位行人步态数据作为测试样本。

对图片进行预处理操作，便于提高网络的泛化能力和识别效率，将图片尺寸规格调整为227*227*3。AlexNet网络的超参数的初始值是随机生成的，在网络的训练过程中，根据卷积神经网络的反馈机制不断更新网络模型的超参数，经过反复实验最终得到最佳超参数值，本实验最终的超参数值为：迭代次数为48，步长为96，学习率为0.0089。

将80位行人在不同角度的步态能量图输入网络训练网络模型，网络模型训练结束后，将测试样本中44位行人的图像输入到网络模型中进行步态识别。本实验在使用训练样本进行迭代后得到网络模型后，将测试样本对训练好的网络模型进行验证，在各个视角三种状态（正常、穿大衣、背包）情况下的跨视角的平均识别率如表1所示。

从网络模型训练过程中得出，在第8次迭代过程后，训练样本准确率明显上升;第8-32次的迭代过程，训练样本准确率呈现急速提高的态势，迭代32-48次的迭代过程，训练样本准确率上升缓慢，并达到最大识别率。

通过CASIA-B数据库样本实验，AlexNet卷积神经网络对于测试样本的识别正确率在迭代55次就达到了85.9%，但是验证样本的正确率只有69%，出现了过拟合的情况，究其原因有两个，一是数据库样本数量不足，每个人只有三种状态11个角度步态信息;二是参数过多，AlexNet卷积网络参数达到了6000多万个，神经元达到了60多万个;本实验将注意力机制加入到了AlexNet卷积网络中，注意力机制增强高层重要的卷积特征图通道，抑制不重要的卷积特征图通道，降低卷积参数的维数，提高识别速度和正确率，提高步态识别的鲁棒性。

而本实验基于注意力机制的AlexNet卷积网络模型，经过48次迭代后，平均识别率达到了87.7%，其中对于正常状态下的步态识别准确率达到95.6%，背包准确率达到84.4%，穿大衣准确率达到83.2%。比AlexNe卷积网络模型的平均识别率高出1.8%，正常状态下识别率高出2.5%，背包状态识别率高出1.6%，大衣识别率高出1.3%，表明了注意力模型有效的提取了高层的特征，抑制了次要的特征。而正常状态识别率远远高于其他两种状态，是因为在CASIA-B步态数据库中正常状态的图片数量要远远高于背包和穿大衣的数量，所以正常状态图片对网络模型影响较大，对正常步态识别率较高，而对于背包和穿大衣的识别率就受到影响。

6结论

通过步态识别行人，不需要刻意地配合，不受距离远近等客观因素的影响，同时步态识别又是复杂的过程，受到行人穿戴状态的影响，所以需要更多的图像来训练网络模型，本文通过提取步态周期，并生成步态能量图，将注意力机制融入了AlexNet卷积神经网络，有效减少了参数，降低了过拟合现象，在步态数据缺乏的情况下，提高了步态识别准确率。

参考文献：

[1] 王新年，胡丹丹，张涛，等.姿态特征结合2维傅里叶变换的步态识别[J].中国图象图形学报，2021，26（4）：796-814.

[2] 赵黎明，张荣，张超越.基于深度学习的3D时空特征融合步态识别[J].传感器与微系统，2021，40（2）：23-25，29.

[3] 闫河，罗成，李焕，等.基于步态能量图与VGG结合的步态识别方法[J].重庆理工大学学报（自然科学），2020，34（5）：166-172.

[4] 李凯，曹可凡，沈皓凝.基于步态序列的跨视角步态识别[J].河北大学学报（自然科学版），2021，41（3）：311-320.

[5] 胡少晖，王修晖.结合注意力卷积网络与分块特征的步态识别[J].计算机工程与应用，2022，58（3）：266-273.

收稿日期：2022-01-13

作者簡介：刘艳丽（1979—），女，河南新野县人，讲师，硕士，研究方向为模式识别与人工智能;任芳（1993—），女，甘肃张掖人，讲师，硕士，研究方向为图形图像处理。