基于形状索引的DoG特征结合GPRT的人脸关键点检测算法

时间：2024-05-04

(商丘职业技术学院，河南商丘 476100)

0 引言

人脸关键点检测就是对面部特征进行精确定位，如面部图像中的眼角、鼻尖、嘴角和下巴。准确且鲁棒地人脸对齐有利于实现各种涉及人脸的目标应用，如人脸识别[1-2]、面部表情识别[3-4]等。但是由于人脸形状本身具有多变性，以及光照、姿态、遮挡等因素的影响，准确且鲁棒的人脸关键点检测还具有相当的难度。

近年来，级联形状回归模型在特征点定位上取得了重大突破。形状回归是一种人脸对齐框架[5]，其具有准确性、鲁棒性及快速性等特点。在形状回归中，脸部形状是一个连接的面部基准坐标，其通过一连串分类与回归树(Classification and Regression Tree，CRT)实现原始迭代更新。每一个树基于当前的形状评估对形状增量进行估量，最终的形状评估由原始评估的输出树累计加和而来。目前，已经在形状回归中考虑了不同种的正则化方法以便降低过度拟合，获取更好的泛化性能。文献[7]通过对一个人脸图像生成多个初始形状估计来增强训练数据，这一数据加强的方法已经在后续的研究中应用。文献[8]将收缩和平均作为正则化方法，在梯度推进学习过程中，学习率参数乘以每一个回归树或独立学习和平均树。文献[9]将学习过程分为两个步骤：(1)学习二进制映射函数(2)学习现行回归矩阵。二进制映射函数包括一组局部的二进制映射函数，该函数由单面部基准点的方法从独立学习树中诱导。接着通过平方损失最小化函数，获取线性回归矩阵。然而这些算法易陷入局部极值并且鲁棒性不强。

本文使用高斯过程回归树(Gaussian Process Regression Tree，GPRT)来代替梯度推进。GPRT通过一种特殊的内核简化预测过程中的计算，在相同的预测时间内比CRT的泛化性能高。GPRT的预测平均值为树输出的总和，这一方法的预测时间相同但是提高了泛化性能。此处将GPRT的预测平均值设计成正比于预测变量(来自于GPRT集合)的值，由此引出GPRT的贪婪分布式学习方法。在参考形状评估的局部视网膜模式中，计算高斯函数的差分(Difference of Gaussian，DoG)特征来确定GPRT的输入特征。提取DoG特征，首先，在不同尺度条件下使用高斯滤波器平滑面部图像从而降低噪音敏感性。然后从高斯光滑面部图像中提取像素值，利用局部视网膜抽样模式、形状评估和光滑尺度把图像编入索引内。最后计算提取像素值的差异。每一个局部视网膜抽样点的光滑尺度与采样点和中心点之间的距离呈正比。因此，远距离采样点比附近的采样点涉及的区域面积大，对形状评估误差的稳定性也较好，识别能力也更强。

1 高斯过程回归树

1.1 回归树模型

CRT中考虑了一组树，并将形状回归看作成一种加法级联形式的树，如下所示：

(1)

(2)

(3)

其中:Nt,b是叶子b上下降的训练数据点。用分割函数和回归函数改进的公式(1)为：

1.2 GPRT的过程

GPRT由许多GPRT组成，每一个GPRT都有一个由树组定义的内核。在GPRT中，输出和输入之间的关系由回归函数f(x)表示，该回归函数是一个有独立加性噪音εi的高斯过程：

si=f(xi)+εi,i=1,...,N

(4)

f(x)～GP(0,k(x,xt))

(5)

(6)

给定一个测试输入x，在预测变量f*上的分布为：

(7)

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

(16)

其中的逆运算为O((BM)3)，Kr=QTQ+σr2IBM是BM×BM矩阵。

(17)

在GPRT中，输入量f*的预测变量x*是高斯随机变量，其预测均值和变量分别由公式(10)和(9)提供。公式(10)的计算参考函数O(N)。但是下述方法更高效：

(18)

通过公式(18)，在O(MlogB)中计算预测平均值，该值的计算框架与CRT中的预测相同。级联GPRT包含T个GPRT，并结合GPRT：

(19)

(20)

(21)

2 形状索引的DoG特征的提取与学习

提取DoG特征的过程如下：

1)对目标图像进行高斯过滤[11-12]，得到模糊的光滑图像如图1所示。

2)计算相似性变换，将平均形状映射给形状评估。

3)将相似性变换应用到局部视网膜采样模式，如图2所示。

4)使用变换后的局部视网膜抽样模式并参考形状评估来计算全局坐标。

5)在高斯光滑图像的全局坐标中提取像素值，从而对应于每一个采样点的尺度参数，提取高斯滤波器响应。

图1 高斯模糊效果

图2 局部视网膜采集模式过程

提取出来的两个高斯滤波器响应之间的差异体现在形状索引的DoG特征上，然后计算预定义的DoG过滤的响应。将相似性转换应用到局部视网膜采样模式，形状索引的DoG特征计算并不包含整个图像的转换，只转换稀疏的坐标[5]。另外，获取高斯光滑图像的计算复杂性并不高，因为光滑过程只有一次，且在学习过程之前。

用单一的面部坐标来学习GPRT树，由随机采样阈值和参考第l面部坐标的DoG特征获取树的分割函数。为了获取更有识别力的分割函数，测试了一些分割函数并选取了性能最佳者。而分割函数的性能由第l面部坐标的平方损失来衡量。这一过程仅学习了树的分割函数，而回归输出由GPRT学习。每一个树基于当前的形状评估对形状增量进行估量，最终的形状评估由原始评估的输出树累计加和而来。形状回归中影响预测性能的两个关键因素，分别是学习CRT的梯度推进和形状检索特征。从梯度推进得来的GPRT通常过度拟合。在梯度推进中，每一个阶段以贪婪分步实施方式，迭代性地拟合训练数据，该过程减少了回归残差，这些残差的定义由地面真实形状与形状评估之间的差异来完成。在学习和预测的过程中存在拟合率之间的差异时，便会出现过度拟合，在一些阶段中拟合训练数据的速度太快，可能会导致较差的泛化性能，在预测过程中也会出现不精准的形状评估。

最初阶段的学习树倾向于使用形状索引的DoG特征，这些特征由距离较远的采样点计算得来，而处于后期的树倾向于使用从附近的采样点计算得来的特征。这是因为较远的采样点设计更大的区域，对于形状评估误差来说更稳定。附近的采样点稳定性差一点，但是当形状评估准确时识别力高。因此，在学习阶段，形状索引的DoG特征允许每一个树根据实际需要自由选择更稳定的特征。

3 实验结果与分析

本实验的目的有：(1)将使用了形状索引的DoG特征的GPRT与最先进的方法进行比较。(2)证实本文方法的关键因素：GPRT和形状索引DoG特征。

3.1 LFPW数据库

本文大部分实验结果都基于LFPW数据库[10]，它是知名的目前最先进最具挑战性的数据库。LFPW数据库包含1132个训练图像和300个测试图像，其能提供链接到图像的URL。本文收集了778个训练图像和216个测试图像。LFPW人脸数据库部分截图如图3所示。

图3 LFPW人脸数据库部分截图

将形状评估误差看作是内目镜距离的一部分，该距离是经瞳孔距离标准化后的地面实际情况和形状评估间距离。所有的实验结果都选取平均值(超过10次的实验)以便降低随机性的影响。

3.2 实验设置

为了获取训练数据，首先使用面部检测边界框来裁剪人脸图像。接着，形状评估初始化成随机采样的真实形状，该形状来自其他训练数据点。在训练阶段，每一个面部图像的初始化过程要重复二十次。预测过程中使用来自训练数据点的平均形状进行初始化。

本文考虑两种构型配置：(1)“GPRT”配置，具有较低的平均误差但是预测也较慢；(2)“GPRTfast”配置，预测较快但是平均误差大。在GPRT配置中，每一个GPRT的树数量和GPRT的数量分别为M=10和T=500。GPRT由两种层次的级联GPRT组成，第一层级的阶段数和第二层级的阶段数分别为100和5。在GPRTfast配置中，每个GPRT的树数量和GPRT的数量分别设置为M=10，T=100。第一层次的级联阶段数和第二层次的级联阶段数都设为10。对两个配置而言，树的深度设为5。每一个分割函数都要经过200次试验，光滑尺度设为8。每一个光滑尺度中视网膜采样点数为6，因此每一个面部坐标的采样点数为6×7+1=43。所以试验的操作系统为：配备单核i5-3570、3.40 Hz CPU的PC机。

3.3 与先进算法之间的比较

在这一节，将使用了形状索引的DoG特征的GPRT与以下最先进的方法进行比较：形状回归(ESR)[13]，鲁棒的级联构成回归[14]、碱度下降法(SDM)[15-16]。其中文献[13]提出一种形状到形状的显式形状回归方法，利用丰富的几何形状先验定位人脸特征点。并且引入一种射影不变量—特征数(CN)去描述和刻画人脸固有的几何形状结构。提出一种鲁棒、有效的特征点检测器。通过构建特征数与形状之间的映射关系，建立从局部到全局的形状回归模型。LFPW人脸关键点部分检测结果如图4所示。文献[14]重点对鲁棒关键点定位技术进行了对比研究，并设计实现了一个综合鲁棒表情关键点定位演示系统。文献[15]提出了基于人眼拓扑结构的人眼特征点跟踪。在LFPW人脸数据集进行试验，对比几种方法，结果如表1所示。

图4 LFPW人脸关键点检测

方法准确率(100%)形状回归(ESR)77.64鲁棒的级联构成回归74.46碱度下降法(SDM)68.68本文方法84.93

从表1可以看出，本文方法取得了84.93%的准确率，而其他几种方法均低于80%。LFPW数据库的实验结果表明GPRT的性能明显优于其他方法。当使用形状检索特征时，过度拟合会更重要。形状检索特征与形状评估紧密相关：形状检索特征决定了形状评估，而形状检索特征又是从基于图像评估的像素坐标中提取出来。拟合率之间的差异导致预测过程中提取出来的形状检索特征都不相关，进而导致提取出的特征更不相关。其中文献[13]提出的基于形状回归(ESR)的方法以及文献[15]提出的基于碱度下降法(SDM)的方法均依赖于建立模型，对于存在遮挡或者模糊状态下的面部图像往往难以建立准确的模型，制约了方法的使用。而文献[14]提出的基于鲁棒的级联构成回归的方法，在定位鲁棒关键点时，易受到算法本身计算成本过高的干扰，对于复杂场景中的面部图像准确率还有待进一步提升。

4 结论

本文提出了一种基于形状索引的DoG特征与GPRT相结合的人脸关键点检测算法。GPRT由GPRT集合组成，并以一种贪婪分布式方法学习。GPRT的预测均值可在CRT框架中计算，泛化性能更佳。而且，本文也描述了形状索引DoG特征。参考形状评估，在局部视网膜模式上计算高斯滤波响应差异，并由此来设计上述的形状索引DoG特征。使用该特征的GPRT在LFPW数据库获得最佳性能。为了验证本文方法的有效性，将其与现有的几种方法进行比较，实验结果证明了本文方法的有效性。未来希望对该算法做出进一步完善。