当前位置:首页 期刊杂志

改进加权投票的PCA-Net多特征融合SSFR

时间:2024-05-04

赵淑欢,葛佳琦,梁晓林,2,刘帅奇,2

(1. 河北大学电子信息工程学院,河北 保定 071000;2. 河北省机器视觉技术创新中心,河北 保定 071000)

1 引言

人脸识别[1-4]技术广泛应用于监控、人机交互、犯罪调查和边境控制等场景,成为近年来模式识别领域研究的热点,随着科技的发展,人们对这项技术的需求越来越大。经过多年的研究和发展,其识别的精度已经很高,尤其在将深度学习[5-8]方法引入到人脸识别之后,其性能更是有了突破性进展,但深度学习方法需要大量训练样本、运算量大、模型训练时间长。很多实际应用中,系统只能获取每人一张图像作为训练样本,并需要快速得到结果,因此深度学习方法在单样本[9-12]人脸识别中不再适用。

单样本人脸识别面临诸多挑战,和常规人脸识别同样存在的光照、姿态、表情、年龄变化带来的影响,单样本人脸识别最大的难题是每个人只有一张图像作训练,包含的信息太少导致无法预测各种人脸变化,更加剧了上述因素带来的负面影响,从而无法训练出有效的模型。由于在单样本情况下无法计算类内散度矩阵,线性判别分析[13](LDA)无法应用;同样的原理,类内分布无法被估计,基于概率[14]的方法识别效果也很差;主成分分析[15](PCA)方法也很难在单样本情况下提取出具有判别性的特征向量,导致识别效果不理想。

由于经典算法在单样本人脸识别中的性能很差,近年来很多研究人员提出一些改进算法来解决单样本人脸识别准确率低的问题。这些方法大致可以分为三个类别:直接在单样本上提取鲁棒性特征的方法;基于迁移学习,使用辅助数据集进行特征学习的方法;生成虚拟样本的方法。对于第一类,文献[16]提出了子模式下的LBP与HOG特征融合的方法;文献[17]提出了SPCA与HOG特征融合的方法;文献[18]提出中心对称梯度幅值相位模式的方法。这类算法直接使用单一样本提取鲁棒特征,并在经典算法的基础上做了改进,在性能上有了一定的提升,但都属于无监督学习,一些判别性信息没有被利用,还具有很大的提升空间。文献[19]提出了从辅助数据集中的中性图像和变化图像中提取二值加权插值图来分析类内变化的方法;文献[20]提出了判别迁移学习方法,先对多样本通用训练集进行判别分析,然后将判别分析迁移到单样本数据库的方法。这类方法采用一个额外的通用数据集进行特征学习,假设每个人的类内变化都是相似的,并通过类内变化训练出模型,估计出实验所使用的数据集的散点矩阵,然而这类方法也有一个明显的缺陷,即大多忽略了辅助数据集和测试数据集的分布差异所导致的准确率下降。文献[21]提出QR分解重构生成虚拟样本的单样本人脸识别方法;文献[22]提出利用LU分解生成虚拟样本并结合LDA的方法;文献[23]提出改进虚拟样本的方法。这类方法先生成虚拟样本,再进行特征学习,既保留了较多的判别性信息,也不会因为不同数据集之间的差异造成识别性能下降,所以本文的方法也属于这一类。上述文献在经典算法的基础上做了改动,识别性能有了一定的提升,但是和深度学习的方法相比,还有差距。因此,研究传统方法的单样本人脸识别是一项势在必行的工作。

本文针对单样本情况下识别率低的问题,提出了一种以PCA-Net[24-26]为主体,多种特征融合的单样本人脸识别算法PMFF(PCA-Net Multi-Feature Fusion)。首先,将每个人的单样本利用LU分解生成2张虚拟样本,与单样本构成新的训练集;然后,分别提取测试样本和训练样本的PCA-Net特征并计算皮尔逊相关系数[27],并将其初步分类为最大相关系数对应的类,同时保留相关系数最大的3张图像作为细化训练集;其次,分别提取测试样本和细化训练集的LBP、CSLBP[28]、BGCSBP[29]、IMLBP[30]特征,并记录基于皮尔逊相关系数的分类结果;最后,将所有特征的识别结果加权投票,得到最终的识别结果。

2 PCA-Net

PCA-Net是基于卷积神经网络(CNN)的简化浅层网络模型,CNN训练时间长,且需要大量的训练样本,这些因素限制了CNN在某些方面的应用,因此,一种新型的浅层网络模型应运而生,这个模型训练过程更简单,运算量更小,即PCA-Net模型。

对于给定的图像集X=[x1,x2,…,xN],其中xi∈Rm×n,N表示样本数,PCA-Net特征的提取共有三个阶段。

步骤3:将步骤2得到的每个特征图进行二值处理,再进行二值化哈希编码,再进行级联,就完成了PCA-Net特征提取。PCA-Net特征提取过程的原理图如图1所示。

图1 PCA-Net原理图[21]

3 本文方法

本文将PCA-Net与多种LBP算法融合构成改进加权投票的PCA-Net多特征融合单样本人脸识别算法,记为PMFF,流程图如图2所示,具体步骤如下:

图2 算法流程图

算法1:PMFF

输入:

训练集X=[x1,x2,…,xN],其中x∈Rm×n,N为类别数;测试集Y=[y1,y2,…,yM],其中y∈Rm×n,M为测试样本总数,图像的尺寸为m×n。

输出:

测试图像的预测结果Rp=[r1,r2,…,rM]

步骤:

1)虚拟样本的生成;

2)提取PCA-Net特征进行粗识别并形成细化训练集;

3)提取LBP及其改进特征,进行细识别;

4)多特征识别结果投票得到最终识别结果。

3.1 虚拟样本的生成

本文采用生成虚拟样本的方法,增加训练样本数量,扩展类内变化。生成方法中比较有代表性的有奇异值扰动、镜像脸、图像分解、线性对象类别模型等方法。因LU分解具有计算量较小、对重要信息的保留程度较高的优点,本文采用LU分解重构的方法生成虚拟样本。图像矩阵xj通过式(1)被分解成一个下三角矩阵L和一个上三角矩阵U的乘积

xj=LU

(1)

其中,L∈Rm×n为下三角矩阵,U∈Rn×n为上三角矩阵,L和U的具体表达如式(2)和式(3)所示。

(2)

(3)

其中,l1~ln为矩阵L的每一列,u1~un为矩阵U的每一行。定义n个矩阵[B1,B2,…,Bn],Bi=li×ui,其中Bi∈Rm×n,即矩阵L的第i列和矩阵U的第i行的乘积,i∈[1,n]。利用式(4)分别计算各矩阵能量,从中选取k个能量最大的B矩阵并按能量大小重新排列,再利用式(5)重构虚拟样本xj1,则该重构样本包含了原图中的大部分能量,较完整的保留了图像的纹理信息。

(4)

(5)

图3 原图和两张虚拟样本

3.2 基于PCA-Net特征的粗识别

虚拟样本与原样本构成增广训练集XA=[x10,x11,x12,x20,x21,x22,…,xN0,xN1,xN2]。对于每一张测试样本y,在特征空间中,训练集中与测试样本距离很远的样本对识别起到干扰作用,所以可先用粗识别将其剔除。

对测试样本和新训练集分别提取PCA-Net特征,记为XpA∈Rω×(3N),yP∈Rω,其中ω为PCA-Net特征维数,并根据式(6)计算yp与每个训练样本的PCA-Net特征间的皮尔逊相关系数,同时为测试样本分配最大相关系数对应的类标签,记为R1,保留与测试样本相似度最大的3个训练样本,形成细化训练集XX=[xx1,xx2,xx3],其中xx∈Rm×n。

(6)

3.3 基于LBP及其改进特征的细识别

因局部二值模式(LBP)计算量小,并且对光照和灰度的变化具有很好的鲁棒性,所以选用LBP及其改进特征对细化训练集进行特征提取。

LBP是基于r×r的窗口滑动提取图像特征,比较中心点像素值gc与临近像素值关系,按照式(7)进行编码,即得该点的LBP特征值。

(7)

原始LBP特征的维数很高,所以有了特征维数更低的中心对称局部二值模式(CSLBP),计算方法与传统LBP基本一致,不同的地方在于比较窗口中边缘点的像素值和该点关于中心点对称的位置的像素值,然后按照式(8)进行编码,得 CSLBP值。由于每个窗口只有一半的像素参与了编码,特征维数就变为了LBP的一半。

(8)

为提取更多的有效信息,BGCSBP在CSLBP的基础上进行改进,先获取图像两个方向的梯度信息,再用CSLBP算子进行编码,然后将4位水平方向的二进制编码作为高四位,4位垂直方向的二进制编码作为低四位,再转为十进制数即为BGCSBP的值。

上述三种LBP及其改进特征都是只考虑了窗口中间像素和其邻域像素的关联性,而没有考虑各邻域像素的关联性,所以本文同时选用另一种改进的LBP特征(IMLBP),将中心点像素值与周围各邻域点像素值相加,再将各邻域点得到的像素值按照一定的顺序与相邻邻域点的值比较,进行二值化处理,再转成十进制即位该点的IMLBP值。

分别对细化训练集和测试样本提取LBP、CSLBP、BGCSBP、IMLBP四种特征记为XL=[xx1lb,xx1cs,xx1bg,xx1im,xx2lb,xx2cs,xx2bg,xx2im,xx3lb,xx3cs,xx3bg,xx3im,],yL=[ylb,ycs,ybg,yim],图4表示原图和四种LBP特征的对比图。

图4 原图和三种特征图

在每种LBP特征空间上,分别计算测试样本yl和细化训练集样本的皮尔逊相关系数,最大相关系数对应的类即为该特征下的分类结果,因而可得到四种特征下的细分类结果[R2,R3,R4,R5]。

3.4 多特征识别结果融合

4 实验结果分析

4.1 Extended Yale B数据库

Extended Yale B数据库共包含38个人,每人64张图像,共2432张图像,大小为192×168,图像没有遮挡,但有轻微表情变化,变化较大的是光照强度,数据库中前三个人的部分图像如图5所示。

图5 Extended Yale B数据库中前三个人的部分图像

实验选取每个人1张光照强度适中且没有表情变化的图像分别作为训练样本,剩余的63张图像作为测试集,单样本和虚拟样本共同组成的训练集共38*3=114张图像,测试集共38*63=2394张图像,选取不同的训练样本,重复10次实验。

选用几种在ImageNet数据库预训练好的经典深度网络提取的特征作为对比算法,只保留网络最后的全连接层作为特征向量,再用最近邻进行分类,得到预测结果,10次实验后的平均识别率及标准差如表1所示。

表1 Extended Yale B数据库上各算法准确率

由表1可知,在ImageNet预训练的深度网络识别率很差,而LBP特征及其改进所取得的效果比预训练网络要好,但也未达到最佳效果,PCA-Net特征在所有单一特征中识别效果最好,稳定性也最佳,而本文方法(PMFF)则对PCA-Net的性能有了提升。由于本文算法是将5种特征做决策级融合,所以将算法的特征维数记为5种特征维数的总和。

为了确定每种特征在融合过程中是否起到了提升识别率的作用,在得到五种单特征的识别结果之后,进行消融实验。按照表1中的识别率高低,对5种特征进行排序,并按识别率的高低对五种特征加权融合,以PCA-Net:LBP:CSLBP: IMLB:BGCSBP=5:2:1:3:4的比例融合,再进行消融实验,结果如表2所示。

表2 Extended Yale B数据库上的消融实验结果

从表2中可以看出,五种特征去掉其中任何一种,融合算法的识别率都会下降,说明每种特征在融合过程中都起到了提升识别率的作用,所以都应该保留。

4.2 AR数据库

AR数据库总共有100个人,每个人26张图像,大小为165×120,共有2600张图像包含表情、光照变化,墨镜、围巾遮挡,数据库中前三个人的部分图像如图6所示。

图6 AR数据库中前三个人的部分图像

每人选取一张图像作为训练样本,剩余的25张图像作测试单样本,因此扩展后的训练样本训练集共100*3=300张图像,测试集共100*25=2500张图像。每次选取不同的训练样本,重复10次实验,其中8次选取为光照适中无遮挡图像作训练样本,2次选取遮挡图像作训练样本。

同样选用几种预训练网络提取的全连接层作为特征向量进行分类,作为对比算法,10次实验后的平均识别率及标准差如表3所示。

表3 AR数据库上各算法的准确率

由表3可知,预训练的深度网络识别率很差,而LBP特征及其改进所取得的效果比预训练网络要好,但也未达到最佳效果,PCA-Net特征在所有单一特征中识别效果最好,稳定性也最佳,而本文方法(PMFF)则对PCA-Net的性能有了提升。同时分析表1和表3可知,因AR数据的测试样本中含较大面积的遮挡(围巾、墨镜)其识别率整体偏低。

按照表3中的识别率高低,对5种特征排序加权融合后进行了消融实验,结果如表4所示。

表4 五种特征在AR数据库的消融实验结果

由表4可知,去掉五种特征中的任何一个,识别结果都会下降,说明了五种特征在融合过程中都起到了提升性能的作用。

4.3 CMU-PIE数据库

CMU-PIE数据库共包含68个人,每人49张图像,共3332张图像,大小为64×64,无遮挡,无明显的表情变化,唯一变化较大指标是光照强度,数据库中前三个人的部分图像如图7所示。

每个人选取1张图像做训练,剩余的48张图像做测试,单样本和虚拟样本共同组成的训练集68*3=204张图像,测试集共68*48=3264张图像,每次选取不同的训练样本,重复10次实验。

首先,直接利用上述几种单特征直接进行识别,再利用几种预训练网络提取特征进行识别,10次实验后的结果如表5所示。

表5 CMU-PIE数据库各算准确率

由表5可知,预训练的深度网络识别率很差,而LBP特征及其改进所取得的效果比预训练网络要好,但也未达到最佳效果,PCA-Net特征在所有单一特征中识别效果最好,稳定性也最佳,而本文方法(PMFF)则对PCA-Net的性能有了提升。

然后按照表5中的识别率高低,对5种特征进行排序加权融合后进行了消融实验,结果如表6所示。

表6 CMU-PIE数据库上的消融实验结果

由表6可知,去掉任何一种特征都会使识别率下降,说明五种特征都对算法性能起到了提升作用。

在AR、Extended Yale B、CMU-PIE三个人脸数据库中进行试验,本文算法的识别率分别为85.39%、91.43%、91.71%,全部超过了五种单一特征中识别率最高的PCA-Net特征的83.74%、89.88%、91.14%,说明本文算法对PCA-Net特征有提升。在Extended Yale B、CMU-PIE数据库中的识别率超过了90%。

4.4 RFW数据库

上述三个数据库均为限制条件下的所采集的图像,为了测试算法在非限制条件下的性能,在RFW数据库中选取了部分数据进行试验。该数据库共有非洲、亚洲、美洲和印度四个人种,均为非限制条件下所采集的图像,大小为400×400,图像有较多的背景环境、姿态以及表情的影响,RFW数据库的部分图像如图8所示。

图8 RFW数据库中的部分图像

每个人种各选取了200人做实验,每人一张图像做训练样本,2-4张图像做测试。首先对图像进行预处理,将人脸部分从背景中分离出来,再进行特征提取、分类。预处理之后的图像如图9所示,实验结果如表7所示。

表7 本文算法及PCA-Net特征在RFW数据库准确率

图9 预处理之后的图像

由表7可知,本文算法对非限制条件下采集到的图像识别性能很低,对比PCA-Net也有一些差距。造成这种情况的原因可能是在非限制条件下采集的图像姿态、表情、拍摄角度等方面有很大差异,类内变化巨大,而选取的单样本无法涵盖如此大的类内变化,造成识别效果很差。在今后的工作中会不断完善算法在非限制条件下采集到图像的识别率。

5 结论

本文算法,先生成虚拟样本,再进行粗识别并形成细化训练,然后进行细识别并将结果投票融合。识别效果超过了在传统特征中性能较好的PCA-Net;对比使用预训练网络所提取的特征,识别效果有了很大提升。同时,本文算法也存在诸多不足:算法对非限制条件的图像识别效果很差;对遮挡图像作单样本的识别率也有待提高;而分类算法也只用了较为简单的最近邻分类器,性能有待提高;选取预训练网络提取特征时仅采用了其全连接层的数据,并未微调。在今后的工作中会对这些不足的地方加以改进,多使用一些其它性能良好的、对遮挡具有鲁棒性的特征进行融合,并且尝试其它性能更出色的分类器进行分类,提高在非限制情况下的识别性能。

本文受河北大学高性能计算平台支持。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!