基于联合字典对学习的跨视角行人重识别

时间：2024-05-04

颜悦，程清翠，李向奎，朱豪

（1.昭通学院物理与信息工程学院，云南昭通 657000；2.四川泛希诚科技有限公司，四川成都 610213）

0 引言

随着现代社会高速发展，人与汽车混杂的交通网络让社会治安环境尤为复杂，特别在一些人流量大的城市里，盗窃违法事件屡屡发生，使得社会公共安全问题受到了人们的广泛关注。2010 年，公安部提出关于在全国范围内构建城市报警系统及监控网络系统的意见［1］，并在全国范围内开展多级城市报警联合监控系统的建设。截至2018年，全国大约有4 000 万台摄像头被安置于城市的各个角落，构造出一张庞大而细密的监控网络。

监控网络的出现为追查犯罪分子行动轨迹、破获各种案件提供了极大帮助，能检索出犯罪过程中的关键信息，使公安部门能在较短时间里锁定并及时追踪犯罪嫌疑人，是服务于侦查打击、震慑违法犯罪等行为的有效途径。同时，监控网络在创新社会管理、服务广大群众方面也具有巨大作用，例如通过比较监控画面可及时得知走失人口的运动轨迹，帮助家人尽快找回亲人。网络监控是为违法犯罪分子编织的天罗地网，能让罪恶无处遁形；网络监控也是为人民群众所构造的守护之网，能让百姓安居乐业。

在现实生活中，由于监控所安装的环境不同，受到维护设备经济成本等条件限制，监控网络的摄像头视域难免会出现中断，无法保证监控覆盖所有区域。并且，由于监控对象运动轨迹具有随机性，当其在某个摄像头的视域下消失后，如何再次对其定位是目前亟待解决的问题。

行人重识别是近几年智慧视觉分析领域的热门，当某一个摄像头下的行人在其他时间点、地点出现在其他摄像头视域下时，可利用该技术将其再次自动识别，对维护治安、保障社会公共安全具有重要意义，因此吸引了大量研究人员广泛关注，但由于监控网络采集到的图像质量较低、物体存在遮挡、背景发生变化等因素，严重影响了识别性能。为此，本文联合字典对的学习研究不同相机视角引起的光照差异与背景变化，分离行人图像共享的域信息和行人特征信息，从而进一步提升行人匹配性能。

1 相关工作

近年来，行人重识别技术得到了社会普遍关注，也因此获得了快速发展，其主要方法可分为基于特征表示的行人重识别、基于度量学习的行人重识别基于字典学习的行人重识别。

1.1 基于特征表示的行人重识别

由于行人外观特征易受光照、拍摄视角、遮挡等因素影响，如何进行特征设计与选择至关重要。因此，各学者围绕行人特征开展了深入研究。为了能更好地提取行人特征，彭玉青等［2］提出融入外观特征的行人重识别方法，该方法设计了两个不相同的分支，一个分支用于提取行人的全局特征，另一个分支用于提取行人的局部特征，然后将两者结合起来得到行人的整体外观特征。谭玉莹［3］通过加权分类损失与三元组损失提出一种基于图像—空间特征融合的有监督行人重识别方法，该方法可训练出更具判别性的特征。朱小波［4］提出一种基于特征融合与子空间学习的行人重识别算法，在提取到行人图像特征后将其通过核函数转换至另一个非线性空间，然后在该空间中创造一个子空间用于学习一个有较好识别性能的相似度量函数，进一步改良了相似度量学习方法与特征融合方法。

1.2 基于度量学习的行人重识别

度量学习是计算机中的一个距离度量函数，在行人重识别中用于计算两幅图像信息间的距离，也叫相似度，使计算结果能准确反映两幅图像信息中行人特征间的差异。由于不同负样本间所携带的识别信息数量不同，会导致进行度量学习时对度量学习的贡献不同。

为此，唐鼎［5］提出负样本敏感度量学习方法解决该问题。张国鹏［6］在算法中充分利用每个批次中所有样本对的距离信息，利用中心损失函数降低样本同类距离。蒋同［7］提出跨视图局部块度量学习算法，通过减小或扩大正样本或负样本到局部块间的距离，获得更高的跨视图样本匹配率。刘国明［8］提出基于前景分割的特征表示模型，根据同一行人图像在不同相机视角下的相同和不同特征计算不同相机视角下的行人图像样本对距离。为了能更好地获得行人整体内部特征并更清晰地区分行人特征间的不同点，周刊［9］提出一种基于度量学习和多特征融合的行人重识别方法。

1.3 基于字典学习的行人重识别

将字典学习运用于行人重识别领域，是为了挖掘行人图像最重要的本质特征以尽可能多的表示行人信息，也就是为了学习到一个具有较高判别性的特征表示。何悠［10］提出基于最小负样本约束的字典学习算法，通过最小负样本的稀疏编码增大同类样本间的距离，获得一个更稳定、区分能力更强的字典模型。为了能更全面获取已标记的样本标签信息，周维燕［11］提出在字典学习模型中引入标签一致性约束项，构建了分类器、投影变换与判别字典联合学习模型。为了减少行人视觉间的歧义性，许佳佳［12］提出一种共享与特有成分字典联合学习框架。汤红忠等［13］提出一种多级别判别性字典学习算法解决跨视图的行人重识别问题。崔益峰等［14］提出一种基于联合判别性低秩类字典及稀疏误差字典的人脸识别算法，以解决行人图片间的相似性。为了更好地消除行人图像的域信息和行人姿态信息对行人重识别技术的影响，严双林［15］提出一种基于矩阵分解与超图结构对齐的字典学习算法。

虽然上述方法均取得了不错的成效，但几乎未在如何有效减小复杂背景等域信息方面进行研究。PRID2011 数据集是从某个十字路口的两个不同相机视角下捕获到的行人图像，他们的背景间存在较大差异，并且由于光照强度不同会导致同一行人存在较大差异，而不同行人之间却可能更相似，部分图像如图1所示。

Fig.1 Pedestrian image sequence of PRID2011 data set图1 PRID2011数据集的行人图像序列

因此，为了将不同相机视角下的行人图像共享信息与行人特征信息进行分离，本文通过创建两个字典构建行人重识别的算法模型，一个字典表示行人图像信息共享字典，另一个表示行人特征信息字典，其分离思想主要是使来自同一相机视角下的所有行人图像在共享字典上享有相同的稀疏表示，以此分离每个视角下的行人图像共享信息和行人特征信息，避免了直接采用包含域信息的行人图像进行重识别研究所带来的问题。

2 基于联合字典对学习的跨视角行人重识别算法

为降低不同相机视角间的域偏移问题，构建：

式中，Xa、Xb表示相机视角a、b下的训练样本图像，D代表所有相机视角下的域信息字典，Dt代表分离出域信息后的行人外观特征字典，Ya、Yb为字典D中选择出的某些原子组成，主要为了得到训练数据集样本信息的稀疏表达，Yta、Ytb为对应外观信息字典Dt上的行人编码系数矩阵用来构建相机视角a、b下的共享背景信息。

式中，||Yta||1、||Ytb||1为了使Yta、Ytb更稀疏，范数l1因其在提高模型参数的稀疏性上相较于l0更容易求解，因此本文算法模型中选择l1来提高模型稀疏性，α1、α2、α3、α4为对应项的权重参数，根据参数大小可看出其对应项对算法识别性能的影响。

3 算法优化求解

由式（2）可知，对于变量D、Dt、Ya、Yb、Yta、Ytb而言，它们均非共凸，只有固定所有变量求解其中的一个变量时才为凸。因此，本文通过交替迭代方法［16］优化这些变量，具体过程如下：

（1）更新Ya。在求解Ya时，算法模型中除Ya外的其他参数均需固定，此时对Ya进行求解的函数为：

由式（3）可知，求解Ya等同于对Ya的范数l2，1的最小化求解，本文使用文献［17］中对范数l2，1最小化的求解方法，然后对Ya求导可得到Ya的解为：

其中，Λ1为求解Ya的范数l2，1所创建的对角矩阵，该矩阵是稀疏的。

（2）更新Yb。用更新Ya的方法更新Yb，对Yb求导可得Yb的解为：

其中，Λ2为求解Yb的范数l2，1所创建的对角矩阵，该矩阵同样也是稀疏的。

（3）更新Yta。以交替迭代的方法更新Yta，此时求解Yta的函数为：

在更新Yta前，先引入一个新的中间变量E，将式子改写为：

更新E实质上是对范数l1的最小化求解，采用迭代收缩算法Iterative Shrinkage Algorithm［18］求解E，进一步更新Yta为：

对Yta直接求导可得Yta的解为：

其中，I1为单位矩阵，其行列数皆为字典Dt的原子数。

（4）更新Ytb。如同更新Yta一样可得到Ytb的解为：

其中，I2为单位矩阵，其行列数皆为字典Dt的原子数。

（5）更新D。同样地，固定变量Ya、Yb、Yta、Ytb、Dt，可得求解D的函数为：

在对D进行求解时，需要先求解D的核范数，此时需要引入一个新的中间变量V，然后采用奇异值阙值算法［19］求解V，引入新变量后可将式（11）改写为：

当V确定后，需要再引入一个松弛变量H，将式（12）改写为：

其中，Λ4为由所有的拉格朗日对偶变量构成的对角矩阵，I6为行列数均为字典Dt的原子数的单位矩阵。

4 模型算法测试方案

当字典D、Dt训练好后，通过以下方法测试训练得到的字典性能：

式中，Xa1、Xb1为从PRID2011 数据集中选择的测试样本集，Ya1、Yb1代表相机视角a、b下的编码系数，Yta1、Ytb1表示相机视角a、b下的行人特征信息编码系数。

首先通过式（26）求解Ya1，通过文献［16］的交替迭代法，固定除Ya1外的其它参数求解Ya1。

求解Ya1本质上是最小化求解范数l2，1，因此采用文献［17］中对范数l2，1最小化求解的方法进行求解，得到Ya1为：

式中，Λ1为求解Ya1的l2，1范数而创建的对角矩阵，该矩阵是稀疏的。

同理更新Yb1，得到Yb1的解为：

式中，Λ2为求解Yb1的l2，1范数而创建的对角矩阵，该矩阵也是稀疏的。

当Ya1、Yb1确定后，使用同样的方法求解Yta1、Ytb1，可得Yta1目标函数为：

求解Yta1相当于对范数l1的最小化求解，使用迭代收缩算法Iterative Shrinkage Algorithm［18］求得Yta1的解为：

其中，I7为行列数皆为字典Dt的原子数的单位矩阵，J1为求范数l1的中间变量。

同理可得Ytb1解为：

其中，I8为行列数皆为字典Dt的原子数的单位矩阵，J2为求l1范数的中间变量。

确定Yta1、Ytb1后，通过欧式距离计算Yta1(：，i)与Ytb1(：，j)间的距离。其中，Yta1(：，i)表示Yta1的第i列，Ytb1(：，j)表示Ytb1的第j列。

假设要从Ytb1中匹配Yta1中的某个目标行人，就需要将Yta1中代表这个目标行人的列与Ytb1中的每一列进行距离计算，距离最近即为匹配成功的行人。当Yta1中所有的行人均匹配成功后对所求距离进行升序排列，获得Rank 的匹配率。

5 实验结果与分析

5.1 数据集与参数设置

本文分别选择PRID2011、CUHK01 和i-LIDS 数据集对训练、测试进行验证与分析。PRID2011 数据集的行人图像由室外环境下的两个非重叠相机捕获，并且每个视角均包含干扰图像。在CUHK01数据集中，每个身份在每个相机视角下均有两张图像，所有图像均来自安置于校园内的两台相机。i-LIDS 数据集中的行人图像通过安装在机场到达大厅中的多个非重叠相机所获取，包含了119个行人身份的476 张图像，其中不同相机拍摄每个行人2～8张图像。

由于以上数据集各自具有不同的特征，因此能保证客观、全面地测试算法性能。本文实验中，每个数据集被分为两个部分，一部分为训练样本，另一部分为测试样本，采用累积匹配特性（Cumulative Match Characteristic，CMC）曲线评估字典的识别性能，参数值分别为d=50、dt=89、α1=1、α2=1、α3=28、α4=1。其中，d为参数字典D的大小，dt为字典Dt的大小，α1、α2、α3、α4为每个公式的权重参数。

5.2 PRID2011数据集的分析结果

PRID2011 数据集中总共包含949 张行人图像，其中行人图像200 张、人干扰图像549 张，每个行人在对应的相机视角下只存在一张图像，实验时首先在两个相机视角下分别随机选取200 张行人图像对中的100 张行人图像对来训练字典D、Dt，然后将两个相机视角下剩余的100训练行人图像对和549 训练行人干扰图像测试所训练字典D和字典Dt的性能，并重复10次。

由于PRID2011 数据集两个相机视角间的光照变化和背景差异较大，包含干扰行人图像，在该数据集下进行测试难度较大且具有一定的代表性。为此，将在PRID2011 数据集测得的平均识别率作为识别结果与ATNet［21］、JSMAL［22］、SAAVF［23］、AIESL［24］、SNR［25］、SRSCC［26］方法进行比较，如表1 所示。由此可见，本文所提方法在PRID2011 数据集上的Rank1、Rank5、Rank10、Rank20 匹配率分别达到40.40%、60.40%、71.30%、82.20%，相较于SRSCC 分别提高了1.2%、0.5%、1.8%。

Table 1 Comparison of matching rates of different algorithms on PRID2011 dataset表1 不同算法在PRID2011数据集上的匹配率比较（%）

5.3 CUHK01数据集的分析结果

CUHK01 数据集的图像是由安装在校园里的两个不相交摄像头所拍摄，包含971 个行人，共计3 884 张图像。每个行人在每个摄像头下均有两张清晰度较高的图像。在该数据集中，一个摄像头拍摄行人的正面或背面，另一个摄像头拍摄行人的侧面，如图2所示。

Fig.2 Pedestrian image sequence of CUHK01 data set图2 CUHK01数据集的行人图像序列

为检验本文所提算法的有效性，将其与MVLDML［27］、CSPL+GOG［28］、AIESL［24］、GOG+TDL［29］、MSE-VCM［30］、MLSVM［31］、CV-KCRC［7］算法进行比较，如表2 所示。由此可见，在该数据集下本文所提算法的识别率相较于其他算法均具有一定的提升，例如相较于MSE-VCM 算法，虽然在Rank20 方面降低了0.64，但Rank1、Rank5、Rank10的匹配率分别提高1.8%、0.16%、0.88%。

Table 2 Comparison of matching rates of different algorithms on CUHK01 dataset表2 不同算法在CUHK01数据集上的匹配率比较（%）

5.4 i_LIDS数据集的分析结果

机场到达大厅行人图像数据集i_LIDS 是目前较为常用的数据集之一，该数据集内的行人图像是由安置于机场到达大厅的多个摄像头所拍摄，包含119 名行人共476张图像。由于两个不同摄像头视域下行人图像数量并不相同，图像数量分别为1～8 张，因此适用于本文所需解决的行人外观歧义问题。除了行人图像数量不同造成的影响外，由图3 可见该数据集还存在照明、背景、遮挡等因素干扰，因此该数据集对本文算法的准确度验证具有一定的挑战。

实验中，任选60 名行人身份图像对进行训练，将剩余的59 名行人身份图像用于测试，并重复10 次，得到最终的识别性能，即平均识别率。同时，为了验证本文所提算法的有效性，将其与MLQAW［32］、MMLBD［33］、FSCML［34］、JDSML［35］、GOG+TDL［29］算法进行比较，如表3所示。

Fig.3 Pedestrian image sequence of i_LIDS data set图3 i_LIDS数据集的行人图像序列

Table 3 Comparison of matching rates of different algorithms on i_LIDS dataset表3 不同算法在i_LIDS数据集上的匹配率比较（%）

5.5 算法分析

根据本文设置的6 个参数，基于PRID2011 数据集介绍如何设置这6 个参数的值。实验中，字典D的大小d和字典Dt的大小dt是影响本文算法识别性能的重要参数，在选取字典最佳值时需要首先固定一个字典大小再调节另外一个字典的大小，通过比较不同大小字典值所得到的识别率来确定字典的最佳值。图4（a）、图4（b）分别显示不同大小d、dt对识别率的影响，由此可见当d=50、dt=89 时，本文算法的识别率（以Rank1为例）最高。

Fig.4 Effects of different d/dt values on the recognition performance of the algorithm图4 不同d，dt值对算法识别性能的影响

在确定d、dt后，依次判定公式中每一项对应的权重参数α1、α2、α3、α4取不同值时对算法识别性能的影响，使用交叉验证方法确定这4 个参数。首先，将α2、α3、α4分别固定为1、28、1，研究α1的影响。

由图5（a）可见，当α1=1 时本文算法识别性能更高，由此确定α1。然后，将α1、α3、α4固定为1、28、1，由图5（b）可见当α2=1 时本文算法识别性能更高。接下来，将α1，α2，α4分别固定为1、1、1，由图5（c）可见当α3=28 时本文算法识别率更高。最后，将α1、α2、α3分别固定为1、1、28，由图5（d）可见当α4=1 时本文算法能识别率更高。

Fig.5 Influence of different weight parameters on the recognition performance of the algorithm on the PRID2011 dataset图5 PRID2011数据集上不同的权重参数的值对算法识别性能的影响

此外，算法模型中变量的更新次数对算法识别性能也具有一定的影响。因此，固定d、dt、α1、α2、α3、α4，从5～40开始逐渐调整变量更新次数，由图6 可见当更新次数为15时本文算法识别性能较好。

Fig.6 Effect of different iteration times on recognition performance on PRID2011 dataset图6 PRID2011数据集上不同迭代次数对识别性能的影响

6 结语

本文为了解决不同相机视角间因像素、光照等干扰问题及其他原因导致图像模糊的问题，将图像信息分解为域信息字典与行人外观特征信息字典，通过低秩分解减弱或去除因域信息干扰的行人图像，以更好地恢复行人信息，即剩余信息将基本不再受域偏移问题的影响。具体为，通过构建联合字典对学习模型得到一个域信息字典与行人外观信息字典，实现特定域信息部分与行人外观特征部分的分离，并在3 个挑战性极大的数据集上进行实验，结果表明本文所提算法相较于其他算法均具有较强的鲁棒性。

随着时代进步，行人重识别技术将具有更好的前景。分析发现，不同数据集间由于相机设备参数、光照和场景的不同而存在较大差异。本文行人重识别是在同一个数据集上进行训练与测试，此时性能表现较好，但如果将基于某数据集所设计的训练模型直接测试另一个数据集，将会导致识别效果较差。因此，在维持原有性能前提下，将基于某个或某些数据集所训练的模型拓展至其他数据集中进行应用是值得深入的研究方向。