频域下稀疏表示的大数据库人脸分类算法

时间：2024-07-06

胡业刚，任新悦，李培培，王汇源

(阜阳师范学院数学与统计学院，安徽阜阳 236037)

1 引言

近年来，人脸识别已成为经典的模式识别研究问题之一。自动人脸识别因在安全验证、刑侦破案和人机交互等方面的巨大应用前景，逐渐成为当前模式识别、人工智能和计算机视觉等研究领域的一个热点[1-4]。特征提取和分类器设计成为人脸识别技术的两个最重要环节[1-4]，传统的人脸识别算法中，这两个问题相互影响、相互依存，特别地，有效的特征提取算法能提高整个系统的识别率和鲁棒性。同时，分类算法的研究范围也很广泛，目前主要的分类算法有决策树、神经网络、贝叶斯分类器、支持向量机等[1]。

稀疏表示理论在信号处理等领域中有广泛的应用[5-10]，将信号分解到由一组选定的基向量构成的空间上，希望获得很少数的非零系数，优化该算法成为稀疏表示的主要思想。一般地，使用零范数作为约束是最理想解，但该约束下的解为NP 难问题，因此本文选择1 范数最小来优化稀疏解。

特征提取主要通过确定一组基向量，找出待测样本在这组基向量所构成空间中的点的坐标。一般地，新构成的空间维数比原来的维数降低很多，因此特征提取的同时达到降维的目的。然而，该过程虽然能够提高系统的鲁棒性，但在一定程度上，损失了训练样本的信息，特别当训练样本中含有遮挡或污染时，常用的特征提取方法受影响很大，甚至失效。鉴于目前人脸数据库越来越大的应用背景，且部分人脸像含有遮挡或污染等情况，本文提出一种新的人脸分类算法——频域下稀疏表示分类算法，直接将所有的训练样本作为基向量。

具体步骤如下:首先，在预处理阶段，使用能量归一化和快速傅里叶变换( FFT) 将时域空间转变为频域空间，然后跳过特征提取环节，使用基于1范数最优化的稀疏表示算法计算测试样本在以训练样本为基向量的情况下的稀疏解，最后利用最近邻子空间算法对测试样本分类，并选择较大规模的人脸数据库——扩展的Yale B，进行验证。

2 稀疏表示分类算法

稀疏表示的思想是在过完备字典X 中选择少量的列向量来表示信号y，使得解向量k 最稀疏[5]。实际应用中方程组y=Xk 大多数为欠定型，即方程组有无穷组解，此时要获得解k，需要对解向量k 进行约束，选择解向量2 范数最小、1 范数最小、0 范数最小等来优化稀疏解，其中2 范数和1 范数最小属于凸优化范畴，能获得最优解，而0 范数最小优化过程属于NP 难问题，本文将采用1 范数最小优化思想。

人脸分类主要关注的问题是给定一个测试样本，如何快速准确判断该测试样本是否在已有的C个不同类别中，且更进一步判断属于哪一类。假设给定n 个训练样本集X，共C 类，且第i 类训练样本表示为Xi，表示形式如下:

其中xi，j为一个列向量，表示第i 类中第j 个训练样本，该训练样本先裁剪为m 大小像素，并按照列优先的顺序拼接成一个列向量，ni为第i 类中训练样本的总个数。假设给定一个测试人脸图像y，按照同样的方法将y 变成一个m 维空间的向量，若y 属于第i 类人脸图像，那么理论上，测试样本y 与第i 类训练样本集Xi之间存在线性关系，即

该公式可简单表示为y =Xiki形式。然而，事先很难获悉测试样本属于哪一类，这也是数据分类中需要解决的关键问题。

为解决上述问题，可利用稀疏表示思想判断出测试样本到底与哪些训练样本之间构成最紧密的线性关系。对于给定方程组y=Xk ，其中X 为所有训练样本构成的矩阵，具体的形式可表示如下式

一般地，该方程组为欠定型，即X 的行数比列数少，而本文中将样本的所有像素拼接成X 中的列向量，显然X 中的行数很大，为了使特征更紧凑，可以先对原图像进行适当的预处理或剪裁。由于X的列数即为训练样本总数，且X 的行数很大，那么该方程组中X 的列数可以很大，因此，该算法可以处理大数据库人脸分类。本文的特点就在于将整个人脸图像作为一个基向量。

接下来，关键问题为求解方程组y =Xk。理想情况下，若测试样本y 属于第i 类，则方程的解k 只有第i 类基向量线性表示的系数为非零，其余均为零，将此时的解标记为k0，表示形式如下

上式的解k0依赖于0 范数最小优化算法，优化公式如下

然而，零范数最小优化过程属于NP 难问题，因此本文采用1 范数最小优化算法，将公式(5)调整为

对于求出的解k，再重构出测试样本y 在每类训练样本为基向量下的估计值，根据最近邻子空间分类准则判别出y 所属的类别。

3 实验与分析

在扩展的Yale B 人脸库中设计两组不同的实验，一组在公认的5 个不同子集中实验，另一组针对较大规模的整体扩展Yale B 人脸库，比较本文算法与常见几种算法( ICA、PCA、2DPCA、Fisherfaces)[1-3]的识别率的优劣。本次实验在Matlab 7.1仿真平台下完成，分析并总结实验结果。

3.1 扩展Yale B 人脸库简介

扩展的Yale B 人脸库[1]共包含2 414 幅正面人脸图像，部分图像见图1，共38 个不同的类别，每类含64 幅在不同的光照条件下的人脸正面图像，其中有少部分图像已损坏。为了更方便验证算法的有效性，该数据库被分成5 个子集，子集1 包含每类在正常光照下的7 幅图像，子集2 和子集3 均包含每类有光照变化的12 幅图像，子集4 包含每类有较大光照变化的14 幅图像，子集5 包含每类有着严重光照改变的19 幅图像。

图1 扩展Yale B 库中一个人部分脸像

3.2 算法过程实现

结合第2 节，本文的新的大数据库人脸分类算法——频域下稀疏表示分类算法，具体过程如下:

1.对原人脸图像进行预处理，包括能量归一化、剪裁、快速傅里叶变换;

2.对预处理后的图像，按照列优先的顺序将每一幅人脸像变成一个列向量，将所有训练图像组合成一个矩阵X;

3.给定一个测试样本y，按照同样的方法变成一个列向量，根据公式(6)解出最优解k;

4.根据训练数据X 与求解出的k，重构出测试样本在每类训练样本中的估计值，计算测试样本与每个重构向量的残差;

5.使用最近邻子空间方法，将测试样本判为残差最小的那一类。

表1 在5 种不同子集中比较本文算法与几种常用算法的识别率

按照上述算法，进行两组不同的实验，第1 组实验均以子集1 所有数据作为训练集，分别以每个子集作为测试集，将本文算法与常见几种算法进行比较，结果如表1。第2 组实验面向整个扩展的Yale B 人脸库，分别将每类中的前9 幅、前15 幅、前28 幅人脸图像用于训练，其余人脸图像用于识别，实验结果如图2。

图2 每类前9 幅、15 幅、28 幅构成训练集，其余均为测试图像

通过两组不同的实验，可以看出频域下稀疏表示分类算法具有较高的识别率，特别地，随着训练和测试样本中含有受光照污染很严重的人脸图像不断增多，该算法表现出强的鲁棒性。另外，扩展的Yale B 数据库是个较大的人脸库，训练图像只取每类前9 幅时，测试图像集很大，且部分图像受光照污染极大，该算法仍保持很好的识别率。虽然该算法很有效，但也存在极大的挑战，随着现代的社会发展需要，数据库要扩展到上万幅或十万幅，接下来的工作重点是如何将本文算法应用到更大的数据库中。

4 结论

本文在较大规模人脸库的应用背景下，且部分人脸像含有遮挡或污染等情况，提出频域下稀疏表示分类算法，直接将所有的训练样本作为基向量，使用FFT、1 范数稀疏最优化、最近邻子空间分类等技术。在扩展的Yale B 人脸库中实验结果表明，本文算法具有较高的识别率和较强的鲁棒性。

[1]Jain A K，Duin R R W，Mao J C. Statistical pattern recognition:a review[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2000，22(1): 4-37.

[2]Turk M，Pentland A. Eigenfaces for recognition[J].Journal of Cognitive Neuroscience，1991，3(1): 71-86.

[3]Belhumeur P N，Hespanha J P，Kriegman D J. Eigenfaces vs. fisherfaces: recognition using class specific linear projection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，1997，19(7): 711-720.

[4]Martinez A M，Kak A C. PCA versus LDA[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2001，23(2): 228-233.

[5]Wright J，Yang Y Y，Ganesh A，et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2009，31(2): 210-227.

[6]朱伟东，胡剑凌.基于马氏距离的稀疏表示分类算法[J].计算机技术与发展，2010，20(11):28-30.

[7]Karuppusamy S，Jerome J. Real-time video based face identification using fast sparse representation and incremental learning [J]. Advances in intelligent Systems and Computing，2014，264:33-34.

[8]Yang M，Zhang L，Feng X C，et al. Sparse representation based fisher discrimination dictionary learning for image classification[J]. International Journal of Computer Vision，2014，109(3): 209-232.

[9]李清勇，梁正平，黄雅平，等.缺陷检测的稀疏表示模型及应用[J]. 计算机研究与发展，2014，51(9):1929-1935.

[10]田莹，张德斌，马浩迪. 一种稀疏表示的多姿态人耳识别方法[J].系统仿真学报，2014，26(9):2126-2135.