时间:2024-05-04
黄 印,周 军,梅红岩,郑岚卉
(辽宁工业大学 电子与信息工程学院,辽宁 锦州 121001)
行人重识别是一项解决跨场景跨摄像头下的行人识别问题的技术[1]。它是计算机视觉领域一个重要的研究课题,具有多种应用,如自动驾驶、视频监控和活动分析等[2-4]。
根据网络输出特征类型,行人重识别方法主要有两类,即基于全局特征的方法和基于局部特征的方法[5,6]。基于全局特征的方法主要利用网络提取一个包含行人全局信息的特征,方法在推理阶段计算快速,但易受到行人姿态变化、遮挡等因素影响[7,8]。基于局部特征的方法主要利用网络手动或者自动地提取关键的局部区域的特征,方法更关注骨架、姿势、人体部件等关键区域,具有更好的抗干扰能力。Sun等人对局部特征方法进行较为深入的研究,提出了一种分割特征空间的PCB方法[9],将特征在水平方向划分为6块,简单且有效地利用局部特征。Wang等人提出一种多粒度模型MGN[10],整合局部特征和全局特征,并使用三元组损失对特征进行约束。Zheng等人提出了一种渐进式金字塔方法[11],增加行人的全局特征与局部特征之间的渐变联系。
障碍物遮挡行人的现象非常普遍,既破坏人物结构的完整性,又增加行人重识别难度。针对行人重识别的遮挡问题,本文提出了一种基于特征融合的遮挡行人重识别方法,引入关系感知全局注意力机制,对全局范围的结构信息建模,实现灵活提取行人特征;根据行人特征自适应地生成特征权重,以此作为行人重识别模型对行人遮挡区域的判断,并融合全局特征和局部特征来进行行人重识别。实验验证了所提方法的有效性,并且有效提升了行人重识别的效果。
本文提出一种基于特征融合的遮挡行人重识别方法。局部特征关注行人细节区域,而全局特征关注行人外观,将两者进行特征融合可以对受遮挡的行人进行更全面的描述。网络的基础模型的组成主要包括局部分支、全局分支、特征融合分支以及主干网络。局部分支采用特征空间分割的方式来提取局部特征,在行人图像中学习不同区域的差异性;全局分支嵌入注意力机制来提取全局特征,指导模型关注行人图像的非遮挡区域;特征融合分支将局部特征和全局特征结合起来,提取出更具有判别性的融合特征;主干网络采用ResNet50来提取图像特征,ResNet50包含1个卷积层和4个残差块,每个残差块包含若干卷积层、BN层和ReLu激活函数。特征提取完成后,利用交叉熵损失和困难三元组损失,保证模型学习到具有辨别性的特征。基于特征融合的遮挡行人重识别方法示意图,如图1所示。
图1 基于特征融合的遮挡行人重识别方法示意图
关键区域的局部特征可以减少行人复杂化的影响,从而降低行人重识别的难度。局部分支根据人体结构,将人体特征图进行横向分割,提取具有判别性的局部特征。局部分支首先接收来自主干网络提取的特征图A,其尺寸为2048×24×8。然后,将特征图A在竖直方向均匀分割为M块,分别对每个部分进行全局池化(Global Average Pooling,GAP)和1×1的卷积操作,得到局部特征{h1,h2,…,hM},其中,每个局部特征的尺寸为256×1。
局部分支采用Szegedy等人提出的标签平滑正则化 (Label Smoothing Regularization,LSR)[12]。LSR是分类任务中防止过拟合的常用方法,其思想是给非真实类别赋予一个非零的较小值,鼓励模型不要过度关注真实类别。运用LSR策略后,行人图像的标签分布为
(1)
其中,N为训练样本中行人总数,ε是超参数,文中设置为0.1,y为行人图像的真实标签。
对每个局部特征使用全连接层和softmax激活函数得到分类结果,如式(2)所示
(2)
利用交叉熵损失函数来计算局部分支损失,如式(3)所示
(3)
其中,M是分割的块数,文中设置为6。
由于摄像头的位置、拍照时间以及行人角度等因素的影响,在图像中行人的可见部分占比较小,图像中遮挡物占比较大。对于这类受遮挡的行人图像,如果仅使用基本的ResNet50网络来学习全局特征,模型提取的特征不够代表性,同时易引入干扰因素。因此,本文将全局分支和关系感知全局注意力机制(Relation-Aware Global Attention,RGA)[13]相结合,提取出更具有代表性的行人全局特征。关系感知全局注意力机制RGA是Zhang等人在2020年提出的[13],与传统注意力机制相比,RGA对全局范围的结构信息建模,可以更好的挖掘行人语义信息。在全局分支中,首先通过1×1的卷积层将特征图A进行降维操作,并利用RGA增强特征表现力,抑制不必要的特征。接下来,利用GAP和1×1的卷积操作,得到全局特征F。其中,全局特征的尺寸为256×1。
全局分支采用Hermans等人提出的困难三元组损失(Hard Triplet Loss,HTL)[14]。三元组损失是一种广泛应用于图像检索领域的排序损失(Ranking Loss,RL),具有减小类内间距,增大类间间距的特性。与交叉熵损失相比,三元组损失的两种特性使得三元组损失更加适用于全局特征的训练。与传统三元组损失不同,困难三元组损失将最难正例样本和最难负例样本作为困难三元组。由于专注于难样本的训练,困难三元组损失在检索任务的准确率和模型的训练速度方面优于传统三元组损失。从数据集中采样P个行人类别,并从每个类别中随机选出K张行人图像,全局分支损失如式(4)所示
(4)
其中,Fa、Fn、Fp分别是锚点样本(anchor)、正例样本(positive)、负例样本(negative)的特征向量表示,正例样本和负例样本分别代表与锚点图像具有相同身份标签和不同身份标签的样本;m是设定的间隔参数,文中设置为0.3。
为了得到更健壮的行人特征表示,本文利用特征融合的方式把提取到的全局特征和局部特征进行特征融合。对于行人图像,每个部件的重要程度是不同的。若简单地利用add或concat操作来进行特征融合,可能会降低部件信息带来的益处。因此,本文根据行人部件显著性程度,设计一种自适应地生成部件权重的权重生成模块。权重生成模块由全连接层FC和激活函数Sigmoid组成,将全局特征F作为输入,输出每个部件的权重{w1,w2,…,w6}。权重生成模块示意图如图2所示。
图2 权重生成模块示意图
对每个部件以加权求和的方式,计算融合特征G,如式(5)所示
(5)
其中,M是部件数,文中设置为6。
特征融合分支采用困难三元组损失,如式(6)所示
(6)
其中,Ga、Gn、Gp分别是锚点样本(anchor)、正例样本(positive)、负例样本(negative)的特征向量表示,正例样本和负例样本分别代表与锚点图像具有相同身份标签和不同身份标签的样本;m是设定的间隔参数,文中设置为0.3。
总的损失函数L包括局部特征损失Lp、全局特征损失Lg和特征融合损失Lf,如式(7)所示
L=Lp+αLg+βLf
(7)
其中,α和β是平衡损失的权重因子。
文中使用的实验环境是学院实验室现有环境,实验设备为一台装有Tesla P100显卡、Intel Xeon CPU的服务器,服务器的内存为13 GB,操作系统为Ubuntu16.04,算法程序用Python3.7版本的Pytorch深度学习框架实现,使用的集成开发环境为Vscode。
在实验中,将行人图像尺寸缩放至384×128,使用随机水平翻转作为数据的增强方法,训练时采用随机梯度下降(Stochastic Gradient Descent,SGD)优化方法,更新变量参数设置为(0.5,0.999),初始学习率设置为0.1,每隔20个epoch,学习率下降为之前的0.1倍,权重衰减率设置为0.0005,共训练60个epoch。模型的初始权重服从N(0,0.02)。
使用遮挡行人数据集Occluded-REID[15]和Partial-REID[16]来评估所提方法。由于Occluded-REID[15]和Partial-REID[16]上没有划分训练集和测试集,模型在Market-1501[17]数据集上进行预训练,在Occluded-REID[15]和Partial-REID[16]数据集上进行测试。Occluded-REID[15]数据集共包含200个人物身份的2000张行人图像,每个行人包含5张全身图像和5张不同遮挡方式的图像,每张行人图像尺寸为128×64。Partial-REID[16]数据集共包含60个人物身份的900张行人图像,每个行人包含5张全身图像、5张部分截断图像和5张遮挡图像。本文仅利用Partial-REID[16]数据集上的全身图像和遮挡图像进行测试。Market-1501[17]数据集共包含1501个人物身份的32668张行人图像,分为训练集和测试集两部分,训练集包含751个人物身份的12936张行人图像;测试集包含750个人物身份的19732张行人图像。模型在Market-1501[17]的训练集上进行预训练。
在实验验证阶段,本文使用累计匹配曲线(Cumulative Match Characteristic curve,CMC)和平均精度均值(mean Average Presicion,mAP)作为评价指标。CMC用于评估行人重识别算法性能,包括rank-1、rank-5、rank-10等。rank-n表示测试集中前n个搜索结果中包含正确样本的概率,如式(8)所示
(8)
其中,ki为第i个行人的第k个匹配结果。
mAP是衡量多标签图像分类的常见指标,计算方法如式(9)所示
(9)
其中,P为准确率(Percision Rate),R为召回率(Recall Rate)。
实验分别在Occluded-REID[15]数据集和Partial-REID[16]数据集上进行了验证。将本文所提方法与IDE[17]、OsNet[18]、MLFN[19]、HACNN[20]、IPAM[21]、Part Bilinear[22]、PCB[9]、PCB+RPP[9]、FGFA[16]进行对比。在Occluded-REID[15]数据集上,所提方法的rank-1、rank-5、rank-10和mAP分别达到65.3%、79.2%、85.0%和57.2%。与其他遮挡行人重识别方法相比,所提方法在Occluded-REID数据集上性能更优异,表1为基于Occluded-REID数据集的性能对比结果。
表1 基于Occluded-REID数据集的性能对比结果(%)
在Partial-REID[16]数据集上,所提方法的rank-1、rank-5、rank-10和mAP分别达到71.7%、83.3%、91.3%和64.7%。相比性能较好的遮挡行人重识别方法FGFA[16],所提方法在rank-1、rank-5、rank-10和mAP指标上分别提升了5.4%、1.5%、5.3%和1.5%。表2为基于Partial-REID数据集的性能对比结果。由表1和表2的数据可以看出,所提方法能够有效提升在遮挡情况下行人重识别的性能。
表2 基于Partial-REID数据集的性能对比结果(%)
在Occluded-REID[15]数据集上验证本文方法的注意力机制和特征融合在遮挡行人重识别问题上的有效性。将PCB[9]作为基本网络模型baseline,它的rank-1、rank-5、rank-10和mAP分别达到59.3%、75.2%、83.2%和53.2%。在baseline上单独利用注意力机制,使rank-1、rank-5、rank-10和mAP 分别提高了7.3%、3.8%、1.4%和6.4%。因为注意力机制不仅可以减少背景干扰,而且能够很好的关注行人重要信息。在baseline上单独利用特征融合,使rank-1、rank-5、rank-10和mAP 分别提高了8.7%、2.7%、0.3%和5.1%。因为局部特征和全局特征相互补充,可以对受遮挡的行人进行更全面的描述。在baseline上联合利用注意力机制和特征融合,使rank-1、rank-5、rank-10和mAP 分别提高了2.7%、1.4%、7.1%和1.1%。表3为消融实验结果,其中,RGA表示关系感知全局注意力机制,FS表示特征融合。结果表明,在基本网络模型baseline上,单独使用注意力机制或特征融合,都提高了行人重识别的性能;联合使用注意力机制和特征融合,可以进一步提高行人重识别的性能。
表3 消融实验结果(%)
在Occluded-REID[15]数据集上探究参数α和β对模型性能的影响。α是影响三元组中正负样本对距离的参数,在实验中分别设置为0、0.05、0.1、0.15、0.2、0.25、0.3、0.35。α取不同值时对应的rank-1和mAP的变化如图3(a)所示。当α较小时,会导致三元组中正负样本对距离较近;当α较大时,会导致三元组中正负样本对距离被过度拉大;当α=0.10时,可以获得最好的rank-1和mAP。β是影响融合特征监督强度的参数,在实验中分别设置为0、0.005、0.01、0.015、0.02、0.025、0.03、0.035。β取不同值时对应的rank-1和mAP的变化如图3(b)所示。随着β值的增大,rank-1和mAP的变化趋势是先升高再降低,说明对融合特征进行过少或者过多的监督,模型性能都有所降低。当β=0.01时,可以获得最好的rank-1和mAP。结果表明,当α=0.1且β=0.01时,模型达到最好的性能。
图3 参数α和β对模型性能的影响
行人重识别问题是一类应用背景强,具有挑战性的研究课题。本文给出了一种基于特征融合的遮挡行人重识别方法,使用关系感知全局注意力机制提取行人特征,更好的挖掘行人语义信息;根据特征的显著性程度来融合全局特征和局部特征,减弱了复杂环境中遮挡物对行人重识别的影响。虽然在两种评估指标上有明显提升,但是,性能指标还相对偏低,说明在遮挡情况下行人重识别方法还有进一步提升空间。进一步研究的问题还有许多,比如,遮挡行人重识别准确率问题、遮挡比例与识别准确率之间的关系等。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!