基于自适应融合网络的跨域行人重识别方法

时间：2024-05-22

郭迎春冯放阎刚郝小可

行人重识别[1-3]利用计算机视觉技术判断不同摄像头的图像或者视频序列中是否存在特定行人,广泛应用于智能安防、无人超市、人机交互等多个领域.随着深度学习的应用普及,行人重识别获得了发展条件,其在有监督领域上的准确率得到了大幅度的提升[4].但是有监督的行人重识别因需要带有真实标签的数据集而脱离实际应用,无监督的行人重识别弥补了有监督学习的需要真实标签的劣势.目前无监督的行人重识别所能达到的精度远远不能满足现实生活应用需求,跨域的行人重识别由于其只需要一个预训练源域数据集带有真实标签而被识别的目标域数据集无需标签,成为未来研究发展的方向[5].

由于不同场景存在着摄像头参数、背景和光照等问题,简单地将在源域上进行训练所得到的模型应用于目标域上进行测试会导致行人重识别性能的下降[6-7].同时,传统的跨域问题常常是基于闭集场景下的,即假设源域和目标域共享完全相同的类,但是这种假设并不适用于行人重识别问题.跨域的行人重识别数据集通常是在不同时空下获得的,所以源域与目标域的图像通常具有不同的身份信息,应该将其看作是开集问题,这比闭集问题更具有挑战性.

本文研究跨域方法,着重解决现有基于聚类的跨域行人重识别方法中忽略对伪标签噪声处理的问题,提出了基于自适应融合网络的行人重识别模型,主要创新和贡献如下:

1)本文提出的融合网络模型,采用双网络结构共同学习并进行网络融合,利用融合后的网络反过来监督双网络结构的训练,这种知识共享的模型结构可以有效地防止聚类伪标签噪声的扩大.

2)本文提出了自适应融合策略,使得模型在每一次融合过程中,可以针对两个网络的学习情况分配不同权重自适应地对两个网络知识进行融合.

3)本文设计了细粒度风格转换模块来降低不同相机间视角下的风格差异性,提高模型对时空变化的鲁棒性.

本文的安排如下:第1 节介绍跨域行人重识别主要分类及相关工作;第2 节介绍本文提出的基于自适应融合网络的跨域行人重识别方法;第3 节给出实验设置并对实验结果进行分析;第4 节总结本文工作并对未来工作进行展望.

1 相关工作

无监督跨域的行人重识别研究是在无监督的行人重识别研究上发展而来.相较于无监督的方法,无监督跨域的方法额外利用一个具有标签的源域数据集,因此会有一定的先验知识作为指导,识别效果也会更优.最近的无监督行人重识别通过挖掘特征间的内在联系解决图像由于时空变换引起的特征分布的差异性,从而提高了识别精度,其中具有代表性的是文献[8-10],分别利用相机感知代理处理相机变化的问题、元信息构建超图挖掘潜在的价值信息、成对相似性处理不同实例在增强视图间的匹配,对未来跨域无监督的行人重识别发展具有一定的参考意义.

目前跨域行人重识别方法主要可以分为四类:

1)域分布对齐的跨域行人重识别[11-12],通过对齐源域与目标域的数据分布来减小域间隙.域分布对齐意在将目标域的数据分布尽可能地与源域数据分布一致,这样可以减少域间隙,从而提高实验的准确率.Wang等[11]利用额外标注的行人属性信息,通过身份标签分支和属性分支结合训练,实现网络间信息的交融,最终学习到行人更本质的特征.Djebril等[12]认为解决跨域问题应该将重点放在对齐域之间的成对差异而不是特征表示,为此提出一个基于非相似最大平均差异(Dissimilarity-based maximum mean discrepancy,D-MMD)损失来最小化成对差异.域分布对齐应用在跨域的行人重识别方向往往需要考虑更多的因素而导致模型较为复杂.

2)域不变性的跨域行人重识别[13-16],该方法利用生成对抗网络(Generative adversarial networks,GAN)来处理数据图像以获得相似的数据集间图像风格.Liu等[13]将跨域转换分解为光照、相机角度、分辨率三个因子转换,每个因子作为一个子风格,为每个子风格训练一个生成器并提出一种可以权衡各种因子影响程度从而进行融合的网络Adaptive transfer network (ATNet),该网络通过最小化中间层的子任务达到细粒度级别的风格迁移.文献[14]提出的相似性保持生成对抗网络(Similarity preserving GAN,SPGAN)和Wei等[15]提出的行人迁移生成对抗网络(Person transfer GAN,PTGAN)都是利用生成对抗网络将源域的图像风格转换为目标域的图像风格,同时保留源域图像的标签信息,使得源域和目标域间的知识转移更具有鲁棒性.Zhong等[16]通过挖掘相机配置之间的关系,基于生成对抗网络通过生成域内不同相机之间的图像来解决域内相机间隙问题.但是这些方法过度依赖于生成图像的质量,导致准确性普遍低于有监督的行人重识别.

3)计算特征相似性产生的软标签来优化网络[17-19],通常是利用保存所有图像的平均特征或是利用辅助数据集构建的特征空间来表示软标签.计算特征相似性是利用已经训练过的图像或是辅助数据集图像等构建特征空间来表示将要训练的图像.Zhong等[17]提出的范例相机邻域不变性(Exemplar camera neighborhood invariance,ECN)利用存储器结构来保存平均特征进而为训练图像来分配软标签,利用样本不变性、相机不变性、邻域不变性这三个不变性监督优化网络.Yu等[18]提出的深度软多标签参考学习(Deep soft multi-label reference learning,MAR)利用MSMT17 数据集[15]作为辅助数据集构建特征空间,并在特征空间中表示目标域数据集图像.这些方法的不足就是特征或参考数据集不具有足够的代表性,使得软标签不够准确,降低模型性能.

4)基于聚类的方法[20-26],为了充分利用无标签的目标域数据,利用聚类算法产生的伪标签来当作目标域的标签,这类方法在大量的实验中被证明在当前具有最好的效果.Fu等[20]提出的自相似性分组(Self-similarity grouping,SSG)模型通过将特征图垂直平均划分为六个局部特征,利用局部特征来分配多尺度的聚类伪标签.Zhai等[21]提出一种新的判别聚类的方法增广判别聚类(Augmented discriminative clustering,AD-Cluster),通过基于密度的聚类算法,自适应地扩充样本和判别特征学习来解决无监督跨域的行人重识别问题.Yang等[22]提出一种非对称协同框架,充分利用了在聚类算法中通常被舍弃的离群点来监督网络的训练.Ge等[23]专注于聚类伪标签噪声的影响提出同步平均教学网络模型(Mutual mean teaching,MMT),利用两个相同的网络相互监督训练.Wang等[24]在MMT的基础上提出将注意力波动模块(Attentive waveblock,AWB)集成到两个网络中,使得两个网络学习到具有差异性的特征,增强网络的互补性.基于聚类的方法往往与聚类算法的准确率有大的关系,且明显缺陷是模型的准确性过度依赖于聚类产生的伪标签的质量,而且随着网络的迭代,伪标签的噪声会越来越大.

受MMT 模型的启发,本文在基于聚类算法的跨域行人重识别基础上,针对聚类算法生成的伪标签带有噪声的问题,设计自适应融合网络模型.该模型采用双网络结构共同学习并对双网络结构进行网络融合,利用融合后的网络监督双网络结构训练,有效解决了单网络情况下伪标签噪声不断扩大的问题.同时,为了降低模型对相机变换的敏感性,本文设计了细粒度的风格转换模块.细粒度的风格转换模块区别于以往的利用GAN 进行数据集扩充的方法,是在细粒度级别上针对于在同一个数据集上的不同相机风格进行图像生成,而不是在源域和目标域之间作图像生成,通过starGAN 给每张行人图像都生成所有相机风格下的生成图像,在扩充数据集的同时,增强了模型的鲁棒性.相比于联合判别生成学习网络(Joint discriminative and generative learning network,DGNet)[27]以身份标签为基础的风格转换模式,本文方法专注于相机域间的风格转换,对每个相机下的图像都生成其他相机风格的生成图像,增强了模型对相机的鲁棒性.

2 基于自适应融合网络的跨域行人重识别方法

在众多的跨域行人重识别方法中,基于聚类的方法有着强大的竞争力,由于忽略了对聚类伪标签噪声的处理而导致噪声随着网络迭代而不断扩大.本文针对于此,主要研究伪标签噪声在网络训练中扩大的问题,并提出基于自适应融合网络的行人重识别,并利用细粒度风格转换降低不同相机间视角下的风格差异性,提高模型的适应性.本节将详细介绍提出的方法.

2.1 问题定义

给定一个带有真实标签的源域数据集S={Xs,Ys},其中Xs代表源域的图像,Ys代表图像Xs对应的真实标签,源域数据集S中包含Ns张图像,Ns张图像共具有Is个身份标签,源域中每个行人图像xs,i∈Xs(i=1,2,···,Ns)具有唯一的身份标签ys,i∈Ys.

给定一个无标签的目标域数据集T={Xt},其中Xt代表目标域的图像,数量为Nt,每张行人图像xt,i∈Xt都不具有标签信息.本文利用自适应融合网络模块来学习跨域的行人重识别,以便将有标签的源域学习到的知识迁移到无标签的目标域上利用.本文模型见图1.首先,对目标域训练集下的图像进行全相机细粒度风格转换得到新的目标域;然后,对模型采用双网络结构进行训练,并通过自适应的融合策略将两个网络学习到的知识进行结合得到融合网络,融合网络的分类结果作为双网络结构的监督信号指导模型训练.

图1 自适应融合网络模型Fig.1 Adaptive fusion network model

2.2 源域预训练

为将源域学习到的知识更好地迁移到目标域上,本文利用源域数据集对模型进行预训练,并将预训练的模型参数作为训练目标域数据集的初始化参数.

对于参数为θ的深度神经网络模型Ms,首先在源域数据集上对模型进行有监督地预训练.源域中的每张行人图像xs,i∈Xs通过模型Ms提取出特征f(xs,i |θ),并最终输出对图像的身份预测p(xs,i |θ).本文采用交叉熵损失和三元组损失[28]来优化源域预训练模型.交叉熵损失定义为:

2.3 目标域聚类

为了解决目标域数据集缺少真实标签的问题,本文利用Mini-Batchk-means 聚类算法产生伪标签用于训练.首先,目标域图像经过网络提取得到特征f(xt,i |θ). 其次,对特征f(xt,i |θ)进行Mini-Batchk-means 聚类算法得到It个类别,同一个类别内的图像具有相同的伪标签yt.

为了充分利用聚类得到的伪标签进行模型的提高,本文使用了交叉熵损失和三元组损失.模型的交叉熵损失定义为:

2.4 双网络结构

基于聚类的跨域行人重识别方法的效果往往与聚类算法的精度成正相关,为了增强网络对聚类伪标签的抗噪能力,本文模型采用双网络结构进行表征学习.双网络结构采用两个相同的ResNet50 网络作为主干网络进行目标域的训练,但对两个网络采用不同的预训练初始化参数.同时,为了使两个网络能够学习到区别于彼此的特征,对输入到两个网络中的目标域图像进行不同的预处理,包括随机翻转、擦除、裁剪处理.

双网络结构的设计专注于对抗伪标签噪声问题,防止出现单网络结构下噪声随着迭代不断扩大的情况.但是,随着训练的进行,两个网络学习能力会逐渐靠近,可能会出现两个网络收敛到彼此相等的位置,这违背了双网络结构的设计初衷.对此,为了保有两个网络每一次知识学习的经验,本文采用经验平均模型代替两个ResNet50 网络进行融合.经验平均模型的参数是对应的双网络结构中网络参数的加权平均,而不是通过反向传播得到的,所以不会明显增大网络的计算量.对于在第T次迭代下网络k的经验平均模型定义为HT(θk),经验平均模型对网络每一次迭代的学习能力进行保留,并通过式(5)进行更新:

式中,α∈[0,1] 是一个动量更新因子,HT-1(θk)是在(T-1)次迭代时网络的经验平均模型.当T=0时,H0(θk)=θk.

2.5 自适应融合网络

为了使双网络结构的训练获得更有效的监督,本文选择对双网络进行知识融合.融合后的网络包含两个网络学习到的知识,相比于单网络结构的学习,双网络在学习过程中进行了相互补充,并且利用融合网络的输出去监督两个网络的训练,可以有效避免噪声随着迭代的进行而扩大.虽然两个网络具有相同的结构,但是学习知识的能力是不同的,所以在每一次融合的时候不能单纯地平等对待两个网络.对此,提出一种自适应融合策略用于解决两个网络的融合权重问题.自适应融合策略是基于类内离散度和类间离散度计算得到的,类内离散度表示每个图像样本特征和所属类别平均特征的差距,类间离散度表示的是每个类别的平均特征和所有样本的平均特征的差距.

具体地,通过聚类算法将所有目标域样本聚类到It个类别中,并用C来表示每个聚类,那么第k个网络中的第i个聚类Ci的类内离散度被定义为:

式中,µi,k是第i个聚类Ci中所有图像在第k个网络上的平均特征.第k个网络中的第i个聚类Ci的类间离散度被定义为:

式中,µk是目标域中所有训练样本在第k个网络上的平均特征,nt,i是目标域中所有训练样本的数量.利用类内离散度和类间离散度得出第k个网络的自适应平衡因子:

自适应平衡因子Jk量化了网络的学习能力,Jk越大代表网络的学习能力越强.当类间离散度变大或者类内离散度变小的时候,Jk也会相应地变大.通过自适应平衡因子可以计算双网络结构的自适应融合权重:

式中,wk代表第k个网络的融合权重.

在每次迭代获得两个网络的经验平均模型之后,通过融合权重比例对双网络进行融合.由于融合网络只用于双网络结构的监督,所以不会影响两个网络独立地更新.参数为θf自适应融合网络定义为:

由于融合网络采用的是网络对行人身份的分类预测,而不是对聚类算法产生的伪标签进行训练,所以设计了融合交叉熵损失和融合三元组损失来优化双网络结构模型.融合交叉熵损失利用了融合网络的分类预测以及每个网络的分类预测,其定义为:

融合三元组损失是在三元组损失的基础上结合分类预测得到:

最后结合基于伪标签的交叉熵损失和三元组损失以及基于融合网络的融合交叉熵损失和融合三元组损失定义模型的整体损失:

式中,λid和λtri是权重参数,用来平衡不同损失之间的影响.

2.6 细粒度风格转换

虽然自适应融合网络可以有效减少聚类伪标签噪声的影响,但是由于行人重识别数据集的行人图像由多个不同视角的相机捕捉而成,相机风格的变换使得即使是同一身份的行人也难以被分辨,造成网络对相机具有一定的敏感性.受PTGAN[12]启发,本文利用生成对抗网络降低模型对相机的敏感度.不同于PTGAN 在源域和目标域间进行风格转换,本文的风格转换模块是在目标域相机间进行的细粒度级别的风格转换.

如图2 所示,细粒度风格转换模块将行人图像在广义上分割成行人因子和风格因子,行人因子包含图像中行人部分,风格因子包含除行人部分外的其他部分.其中每个相机下的风格因子假定是相同的,利用starGAN 网络为每个相机训练一个生成因子的生成器.最后,通过保留每张图像的行人因子,而替换图像的风格因子达到行人图像风格转换的目的.对于存在E个不同视角的相机,图像xt,i∈Xt属于相机A,那么需要生成相机 (E-A)风格的转换图像.最终,将生成后的图像加入到目标域数据集一起训练.

图2 细粒度风格转换模块Fig.2 Fine-grained style conversion module

2.7 总的算法流程

本文提出的自适应融合网络的跨域行人重识别方法总的算法流程见算法1.

算法1.自适应融合网络

3 实验结果域分析

为了验证方法的有效性,本文在Market1501[29]、DukeMTMC-ReID[30]和MSMT17[15]三个行人重识别基准数据集上对本文方法进行评估,包括与主流方法的对比、消融实验和参数分析.

3.1 数据集与评估指标

Market1501[29]数据集包含取自6 个不同相机视角的1 501 个身份的总共32 668 张行人图像,其中包含751 个身份的12 936 张图像用于训练集,另外包含750 个身份的19 732 张图像用于测试集.在测试集中又分为包含19 732 张的Gallery 集和3 368张的Query 集.这些图像通过可变形部分模型[31]进行身份检测.

DukeMTMC-ReID[30]数据集是DukeMTMC[32]的子集,包含取自8 个摄像机视角的1 812 个身份图像.其中16 552 用作训练集,17 661 用作Gallery 集,2 228 用作Query 集.在1 812 个身份中,1 404个出现在至少2 个摄像头,其余的出现在1 个摄像头中.

MSMT17[15]数据集是目前行人重识别领域最大的数据集.由12 台室外摄像机和3 台室内摄像机拍摄的126 441 张照片组成.这些图像代表4 101个身份,并按照1:3的比例随机分为训练集和测试集.训练集包含1 041 个身份,共32 621 张图像,而测试集包含3 060 个身份,共93 820 张图像.对于测试集,随机选择11 659 张图像作为Query 集,而其他82 161 张图像作为Gallery 集.

本文实验使用平均精度均值(Mean average precision,mAP)和Rank-n准确率对本文中涉及到的行人重识别模型性能进行量化评价.其中,mAP将所有类别的平均精度进行综合加权平均而得到的;Rank-n是检索结果中前n位候选的准确率,本文主要选择Rank-1、Rank-5 和Rank-10 进行评估.

3.2 实验设置

本文模型的训练包含源域的预训练和目标域的跨域自适应两部分.在图像输入到网络之前,将图像的大小调整为256 × 128.根据经验将边距参数m设置为0.5.

本文实验基于Pytorch 框架,使用Pytorch1.1版本,使用2 个GTX-2080TI GPU 进行训练,1 个GTX-2080TI GPU 进行测试.采用自适应矩估计优化器对网络进行优化,权值衰减为0.0005.

在源域的预训练阶段,本文使用在ImageNet[33]上预训练过的ResNet-50 作为主干网络.初始学习率设置为0.00035,总共进行80 次迭代,并在第40次和70 次的迭代时,将初始学习率减少到了原来的1/10.

在目标域的跨域自适应阶段,利用在源域预训练中得到的预训练权重作为网络的初始权重.总共进行80 次迭代,学习率固定设置为0.0001,并将式(5)中的动量更新因子α设置为0.999,式(15)中的权重参数λid设置为0.6,λtri设置为0.8.分别将作为目标域的Market1501、DukeMTMC-ReID 和MSMT17 实验中Mini-Batchk-menas 聚类算法的聚类个数设置为500、700 和1 500.

本文模型的参数量如表1 所示.在计算单网络参数量的情况下乘2 得到模型整体的参数量.

表1 本文的自适应融合网络模型参数量表Table 1 The model parameter number of the proposed adaptive fusion network

3.3 实验结果

3.3.1 与主流行人重识别方法比较

本节将本文提出的算法与当前主流的行人重识别算法进行比较.比较方法包括:1)无监督方法.自底向上聚类(Bottom-up clustering,BUC)[34]和软化的相似性学习(Softened similarity learning,SSL)[35];2)无监督跨域的方法.多任务中层特征对齐网络(Multi-task mid-level feature alignment,MMFA)[36]、可迁移联合属性-身份深度学习(Transferable joint attribute-identity deep learning,TJ-AIDL)[11]、基于差异的最大平均差异损失(Dissimilarity-based maximum mean discrepancy loss,D-MMD)[12]、三重对抗学习和多视角想象推理网络(Triple adversarial learning and multi-view imaginative reasoning network,TAL-MIRN)[37](基于域分布对齐的方法);自适应迁移网络(Adaptive transfer network,ATNet)[13]、相似性保持生成对抗网络+局部最大池化(Similarity preserving generative adversarial network+local max pooling,SPGAN+LMP)[14]、异构-同构学习(Hetero-homogeneous learning,HHL)[16](基于GAN的方法);范例相机近邻不变性(Exemplar-invariance,camera-invariance and neighborhood-invariance,ECN)[17]、多标签参考学习(Multilabel reference learning,MAR)[18](基于特征相似性计算的方法);无监督领域自适应行人重识别(Unsupervised domain adaptive person re-identification,UDAP)[38]、带有渐进式增强框架的基于部分的卷积基线(Partbased convolutional baseline-progressive augmentation framework,PCB-PAST)[39]、自相似性分组(Self-similarity grouping,SSG)[20]、增广判别聚类(Augmented discriminative clustering,AD-Cluster)[21]、同步平均教学框架(Mutual mean-teaching framework,MMT)[23]、多专家头脑风暴网络(Multiple expert brainstorming network,MEBNet)[40]、软迭代标签聚类(Soft iterative label clustering,SILC)[41]、双流互反解纠缠学习(Dualstream reciprocal disentanglement learning,DRDL)[42]、基于渐进式表征增强的自训练(Self-training with progressive representation enhancement,PREST)[43]、具有混合记忆的自步对比学习框架(Self-paced contrastive learning with hybrid memory,SpCL)[44]、多损失优化学习(Multi-loss optimization learning,MLOL)[45]、不确定性引导的噪声回弹网络(Uncertainty-guided noise resilient network,UNRN)[46](基于聚类的方法).“本文方法+不确定性”是在文献[46]和文献[47]的启发下,利用Kullback-Leibler (KL)散度计算双网络结构中两个网络的不确定性,然后利用不确定性来约束损失函数的计算.所有对比的方法结果是从源论文中获得的,无监督方法没有用到源域数据集,仅在目标域数据集上进行训练.

表2 展示了在Market1501 和DukeMTMCReID 数据集上的实验结果.由表2 可以看出,在实验准确率上无监督跨域方法普遍优于无监督方法,其中采用聚类算法的无监督跨域行人重识别相比于其他3 个无监督跨域行人重识别算法在整体上可达到最佳效果.如表1 所示,当以DukeMTMC-Re-ID 作源域,Market1501 作目标域时,本文方法的mAP 达到了79.1%,Rank-1 达到了91.8%.当以Market1501 作源域,DukeMTMC-ReID 作目标域时,本文方法的mAP 达到了68.5%,Rank-1 达到了81.7%.这是由于本文的融合网络模型很好地抑制了伪标签噪声,所以可以更有效地利用伪标签去训练.同时,采用基于细粒度的风格转换模块可以在克服相机敏感性的问题上扩充数据集,提升了模型的识别能力.当模型在双网络结构知识互补的基础上对损失加入不确定性的差异约束使得模型准确率得到了进一步的提升,在以Market1501 作目标域和DukeMTMC-ReID 作目标域时,“本文方法 +不确定性”的mAP 分别达到了79.9% 和69.8%,Rank-1 分别达到了92.3% 和82.1%.

表2 在Market1501 和DukeMTMC-ReID 上与主流方法比较 (%)Table 2 Comparison with the state-of-the-art methods on Market1501 and DukeMTMC-ReID (%)

与SpCL 方法相比,本文方法在Market-to-Duke 上的准确率略低,这是由于SpCL 对源域和目标域上的所有可用信息进行编码以学习特征,但是这同样会使其域适应性能力降低.在双网络结构的基础上利用不确定性约束损失函数的“本文方法+不确定性”中,除了Rank-1 之外都有所提升,且mAP 比SpCL 高1%,说明了利用不确定性对损失函数进行约束可以有效降低伪标签噪声.

MLOL 方法在Market-to-Duke 上实验表现较好,然而在其他实验中的识别准确率都远低于本文方法.如表3 所示,SpCL 和MLOL 在MSMT17 数据集上的低准确率侧面印证了两者的局限性.

为进一步验证本文方法的有效性,在更大更接近现实场景的MSMT17 数据集上进行了实验.表3为在MSMT17 数据集上的实验结果.当DukeMTMC-ReID 数据集作为源域时,本文方法的mAP 达到30.2%,Rank-1 达到60.4%;当Market1501 数据集作为源域时,mAP 达到29.4%,Rank-1 达到59.6%.在具有挑战性的大型数据集MSMT17 上的高性能表现进一步证明了本文方法的有效性,而且通过不确定性对损失函数进行约束同样在MSMT17的数据集上也显示了它的有效性,Duke-to-MSMT17 和Market-to-MSMT17的各项指标都有所提升.

表3 在MSMT17 上与主流方法比较 (%)Table 3 Comparison with the state-of-the-art methods on MSMT17 (%)

3.3.2 消融实验

为了验证双网络结构、经验平均模型、自适应融合策略以及风格转换4 个模块的有效性,在Market1501 和DukeMTMC-reID 数据集上进行了消融实验,实验结果如表4 所示.直接转换表示目标域数据集直接在源域的预训练模型上进行测试;基线表示仅使用聚类方法的伪标签部分进行训练.F 为双网络结构且没有采用自适应融合策略,T 为经验平均模型,A 为自适应融合策略,S 为细粒度风格转换模块,w 为添加上述模块.

表4 在Market1501 和DukeMTMC-ReID 上的消融实验 (%)Table 4 Ablation experiments on Market1501 and DukeMTMC-ReID (%)

为了促进网络的融合,先利用平均融合代替自适应融合,进行“F+A”的实验时再采用自适应融合策略.另外,细粒度风格转换模块只应用在目标域数据集上,而不用于源域数据集的预训练.消融实验证明了提出的双网络结构、经验平均模型、自适应融合策略以及风格转换每一个模块单独的有效性及它们之间相互组合的有效性.采用双网络结构使模型准确率相比于“基线”得到大幅度的提升,之后以双网络结构为基础分别加入自适应融合模块、经验平均模型和细粒度风格转换模块都使模型准确率进一步得到提高.最终,将4 个模块一起使用的模型达到了最优的效果,mAP 为79.1%,Rank-1为91.8%.值得注意的是,本文的风格转换模块可以作为一个即插即用的模块,用于增强模型对相机风格变换的鲁棒性,对于同一数据集只需要进行一次风格转换即可在后续的实验中多次应用.

3.3.3 参数分析

本节分析了损失函数中平衡交叉熵损失和融合交叉熵损失的超参数λid、平衡三元组损失和融合三元组损失的超参数λtri、Mini-Batchk-means 聚类算法应用在不同数据集的超参数聚类数量.默认情况下,改变一个超参数的同时另外两个超参数固定不变.

图3 比较了式(15)中不同的λid取值对实验结果的影响.当λid=0 时,表示本文方法只应用融合交叉熵损失;当λid=1 时,表示本文方法只应用交叉熵损失.可以看出,λid取值为0 或1的实验结果都没有取中间值好,这表明同时交叉熵损失和融合交叉熵损失的必要性,也证明融合网络模型的有效性.当λid=0.8 时,本文模型达到了最高准确率.

图3 λ id 取值评估实验Fig.3 Evaluation of different values ofλid

图4 比较了式(15)中不同的λtri取值对实验结果的影响.当λtri=0 时,表示只应用融合三元组损失;当λtri=1 时,表示只应用三元组损失.当λtri=0.6时,本文模型达到了最高的准确率.在图5中,比较了不同的聚类数量取值对实验结果的影响.当进行Duke-to-Market 和Market-to-Duke的实验时,聚类数量为500 和700 时模型效果最好.当进行Duketo-MSMT17 和Market-to-MSMT17的实验时,聚类数量为1 500 时模型效果最好.

图4 λ tri 取值评估实验Fig.4 Evaluation of different values ofλtri

图5 聚类数量取值评估实验Fig.5 Evaluation of different numbers of clustering

3.3.4 聚类算法对比

在基于聚类的跨域行人重识别方法中,聚类算法的效果与实验结果的准确率成正比关系,即聚类算法效果越好,实验结果准确率越高.聚类算法效果越好,聚类伪标签所带有的噪声就越少,模型训练就越不容易产生偏差.为了探究不同聚类算法的应用对本文模型的影响,在本节对Mini-Batchkmeans、k-means 和噪声环境下基于密度的空间聚类研究(Density-based spatial clustering of applications with noise,DBSCAN)聚类算法进行了对比,实验结果如表5 所示.为了对比模型应用不同聚类算法时在运算效率上的差异,表5 展示了模型采用Mini-Batchk-means、k-means 和DBSCAN 聚类算法时每次迭代的运算时间(s).当使用Mini-Batchk-means或k-means 聚类算法时,两者的实验准确率相差不大,k-means 效果略好于Mini-Batchk-means,但k-means 所需运行时间高于Mini-Batchk-means.当使用DBSCAN 聚类算法时,在Duke-to-Market 实验时mAP 达到了80.1%,Rank-1 达到了92.3%;在Market-to-Duke实验时mAP 达到了69.9%,Rank-1 达到了82.1%。相比于使用Mini-Batchk-means或k-means,实验准确率有着明显的提升,但是DBSCAN 所需的运算时间也是远高于Mini-Batchk-means和kmeans的.出于对运算时间的考虑和准确率的综合考虑,本文模型采用Mini-Batchk-means 进行实验.

表5 聚类算法对比Table 5 Comparison of clustering algorithms

4 结束语

目前基于聚类的跨域行人重识别方法忽略了聚类伪标签的噪声问题,导致模型效果无法到达有监督的行人重识别方法水平.本文提出基于细粒度风格转换的自适应融合网络方法,采用双网络结构共同学习,并对双网络进行自适应融合,利用融合后的网络监督双网络训练.同时,为了解决数据集图像对相机敏感性的问题,对目标域图像进行细粒度的风格转换,将转换后的扩充目标域数据集应用于训练.与现有的基于聚类的跨域方法相比,本文模型取得了更高的准确率.在三个行人重识别基准数据集Market1501、DukeMTMC-ReID、MSMT17上的实验结果充分验证了本文方法的有效性.未来研究工作将考虑进行多个不同网络结构的融合,以便使不同网络可以学习到彼此更具有差异性的知识,引导模型走出局部最优,减少伪标签噪声的影响.