时间:2024-05-04
李金蔓,汪剑鸣,2,金光浩
(1.天津工业大学 电子与信息工程学院,天津 300387; 2.天津工业大学 计算机科学与技术学院,天津 300387)(*通信作者电子邮箱jinguanghao@tjpu.edu.cn)
深度学习和机器学习等技术的发展,可以使网络自动学习并选取多种特征用于分类或识别,从而达到很高的精度。在人脸检测领域,因为人脸包含着丰富而又复杂的信息,往往会提取多种面部特征信息进行融合并筛选,从而实现更高的检测精度。在交友或面试等很多社交场合,人脸吸引力作为第一印象,发挥着很重要的作用。区别于简单的人脸检测,人脸吸引力的检测不仅涉及到人脸的多种特征的融合,更包含个人的审美和大众审美偏好等决策因素。目前人脸可用于吸引力分析的特征可分为两大类:一类是脸型轮廓、几何比例、肤色、对称性等全局特征;一类是皮肤纹理、五官尺寸等局部特征[1]。Eisenthal等[2]提出基于人脸的37个距离特征和头发颜色、面部平滑程度、人脸对称性作为人脸吸引力程度的表征特征,这是在人脸吸引力预测领域的最初探索。Mao等[3]提出了一个17维的面部吸引力几何特征表示,在分类问题上取得了不错的结果。Zhang等[4]将几个低级别的人脸特征和高级特征相结合,提出了一个基于数据驱动的面部美丽程度分析框架。依靠手动标注和典型的特征,面部吸引力程度研究已经取得了很好的效果。但是仅仅手工获取的特征级的信息融合已经难以对人脸吸引力这一研究达到实际的应用需求精度。Gan等[5]则在不依赖人工特征选择的情况下,通过卷积限制玻尔兹曼机(Convolutional Restricted Boltzmann Machine, CRBM)对面部吸引力特征进行自动学习。另外,Gan等[6]提出了一种基于自适应去卷积网络(Adaptive Deconvolutional Network, ADN)的面部美丽程度预测模型,通过卷积网络来实现图片特征的层次化表达。上述的研究方法还仅限于单一层面上的特征融合,还没有利用决策级融合的互补性,无法直接用于个性化的人脸吸引力检测。通过决策级融合能够充分利用多模态信息,更加精确地预测结果。Simonyan等[7]通过时空双流网络输出两个分数,通过决策级融合,对动作的识别精确度有显著提高。何刚等[8]曾尝试将特征级和决策级信息融合进行场景分类,并且取得了不错的结果。
本文借鉴了多层次融合的思想,针对仅依靠特征级融合在个性化人脸吸引力预测中精度不高的问题,提出了一个基于特征级和决策级信息融合的个性化人脸吸引力预测框架。该方法能够充分利用多模态信息,发挥信息融合在特征级和决策级的互补性优势,不仅在特征级融合了具有代表性的人脸吸引力特征,同时在决策级上融合进大众主流审美偏好信息进而进行个性化预测。实验结果表明,所提方法相比于其他关于个性化人脸吸引力问题研究的算法,在个性化预测精确度上有显著的提高。
人脸吸引力特征提取对于最终的分类预测结果至关重要,本文主要提取17维全局特征[9]、Gabor纹理特征[10]作为面部吸引力的全局和局部特征的典型代表。17维全局特征是通过获得72个面部特征点,计算一些重要的面部特征点之间的距离,归一化距离特征得到的。Gabor特征则是采用多方向多尺度的滤波器对人脸图片提取纹理信息进行描述。由于获得的特征维数过高,本文采用了用于降维的线性判别分析(Linear Discriminant Analysis, LDA)算法[11],其基本思想是将数据投影到较低维空间上,将这些获得的特征作为深度网络特征提取后的特征补充。
多层次信息融合分为数据级融合、特征级融合和决策级融合[12]。数据级融合作为一个正式的研究领域也称为多传感器融合,主要是通过多个来源的数据,可以比单一数据提供更有意义、准确且可靠的消息,在军事安全和民用领域有诸多应用。特征级融合则是将来自于同一个对象的不同特征进行融合,根据融合策略不同而有不同的融合方法。决策级融合则是由不同的判别器都先得到一个结果,然后再进行融合决策。而本文则是利用了同一张图片提取的多种代表性特征进行特征级融合后进行第一轮预测,再与大众主流审美偏好信息评分进行决策级融合,最终实现个性化人脸吸引力预测。
本文提出的基于多层次信息融合的人脸吸引力预测框架如图1所示。首先,对输入图像提取全局特征和局部特征;然后,进行特征级融合,同时通过卷积神经网络(Convolutional Neural Network, CNN)的卷积层进行自动特征提取,再将所提取特征和第一次融合的特征进行特征级再融合,得到图像最终的特征表达输入到全连接层;最后由网络最终输出的决策分数和输入图像的大众偏好评分进行决策级融合得到预测结果。
图1 系统框图Fig.1 System framework
大众审美偏好信息代表了公众视野中具有吸引力的面孔的共同特征。由于大数据相关研究的发展,可以通过各种社交网站轻松获取公共评分数据。在本文中,已经公开的SCUT-FBP-500数据库[13]已经带有人脸吸引力标签;另一个FaceScrub 数据集[14]是没有吸引力的标签。因此,本文设计了一个在线评分系统来收集FaceScrub子集的评分。
本文根据研究标准选择了FaceScrub数据库的图像,这些图像是女性的面孔,脸部没有被遮挡,没有强烈的光线变化,没有强烈的表情变化。同时邀请了测试人员通过在线评分系统对子集进行评分,获得每张照片的评分和分布。然后通过平均所有测试者的评分来计算每张图片的标签。标签通过整体概率密度分布进行分析,评分分布接近高斯分布,评分在2.5附近有较高的分布。这意味着一般的面孔比非常漂亮或不引人注目的面孔更普遍,这也反映了现实世界的情况。事实上,在社交生活中,非常有吸引力的人脸数量是少数,普通的人脸最常见。
本文通过标准偏差分布来验证标签的有效性,如图2所示,其中横坐标为平均吸引力评分,1代表非常不漂亮,5代表非常漂亮。由图2可以看出:当评分接近1和5时,偏差很小;在2.5和3.5之间的区间,偏差最大。这也表明人们的偏好对于非常有吸引力的、没有吸引力的面孔是非常一致的,但是对于一般的面孔而言是非常主观的。
图2 标准偏差分布Fig. 2 Distribution of standard deviation
同时,数据库通过设计实验进行验证。另外将测试者随机分成两组,计算两组之间的平均Pearson相关系数(Pearson Correlation coefficient, PC)[15]。将此过程重复多次得到平均系数为0.89,结果如表1所示。表1结果表明数据库标签具有高度一致性。
表1 FaceScrub数据标签一致性验证Tab. 1 Consistency verification of FaceScrub data label
特征融合和信息融合已广泛应用于人脸识别、运动识别、场景识别和分割等领域[16-18],目前也已应用于人脸吸引力程度分析。本文提出了一种融合全局和局部特征来表示人脸吸引力的方法。为了融合特征,选择了典型相关分析(Canonical Correlation Analysis, CCA)[19]特征融合方法。典型相关分析是对两个变量之间相关性的统计研究,也是一种降维技术。典型相关分析的实质是在两组随机变量中选择几个具有代表性的综合指标(变量的线性组合)。两个指标之间的相关性用于表示两组变量之间的相关性。在两组变量的相关分析中,它可以在简化变量中发挥合理的作用。当典型相关系数足够大时,另一组变量的线性组合可以根据回归分析值中的一组变量值来预测。
CCA算法的具体步骤为:
1)寻找具有最高相关系数的典型变量的线性组合。这个组合不是唯一的,它可能涵盖变量的所有特征。
2)继续寻求每组变量的线性组合,并且这次需要两组变量之间具有最大相关性的线性相关性,并且与1)中组合无关。
3)这两种线性组合的关系与正交组合的关系相似。每组变量的线性组合产生一个新的变量。
X′=ωx1x1+…+ωxmxm=ωXTX
(1)
Y′=ωy1y1+…+ωymym=ωYTY
(2)
其中:X和Y被称为典型变量,X′、Y′为X、Y投影到一维上的结果。然后将融合后的特征与CNN所提取的图像特征进行特征级再融合。
本文通过支持向量机(Support Vector Machine, SVM)、随机森林(Random Forest, RF)和多元线性回归(Linear)这几种传统机器学习算法验证了特征融合在面部吸引力预测中的有效性,同时对比了融合了典型特征的CNN和简单CNN的性能。
本文提出了几种个人和大众审美偏好信息决策级融合的方法,用于个性化人脸美学评价研究,并对其性能进行了比较,通过大量的实验验证了所提方法的有效性和可靠性。通过CNN来自动提取图像的层次化特征,并将其与特征级融合后的面部吸引力典型代表特征进行二次特征融合,然后通过网络的全连接层输出第一次的决策结果;基于所提出的决策级融合方法对第一次决策结果与大众偏好信息进行决策级融合,最后输出个性化预测结果。根据对现有方法的研究分析,本文提出了如下几种决策级融合方法:
1)CNN+平均(AVErage, AVE) 融合。将CNN输出的第一次决策结果与数据库的大众偏好评分进行决策级融合。AVE融合是取第一次的决策结果和大众偏好评分的平均,也就是,第一次的决策结果和大众偏好评分按照相同的权重参与评分决策。
2)CNN +线性自动赋权(Linear Automatic Empowerment, LAE)融合。由于不同个体受群众影响程度的差异,模型应该是适应性的。由于个人审美与大众审美偏好高度相关,因此该模型应具有普遍一致性。个人审美偏好评分和大众审美偏好评分是线性的关系。基于最基本的线性模型来设计和改进本文的模型,建立了一个称为LAE的自适应模型,使用残差作为损失函数,目的是为了最小化解决模型参数的残差。损失函数的具体形式如下:
(3)
其中:m是样本数量;yi是真实值;f(xi)是预测值。本文使用了LAE来建立决策级融合模型:
R=αRC+βRP
(4)
α+β=1
(5)
其中:α,β是权重系数,0<α,β<1;R表示最终个性化预测分数;RC表示图片的大众评价分数;RP表示图片的第一次决策输出的分数。这里的权重因子根据每个不同的个体自动选择。
3)CNN+支持向量回归(Support Vector Regression, SVR)融合。通过SVR建立决策级融合模型,将CNN输出的第一次决策结果和数据库大众偏好评分的标签融合。SVR是通过构建高维空间中的线性决策函数来构造的,并通过核函数来实现,最终实现个性化面部吸引力评分预测。
4)CNN融合。本文尝试直接在CNN结构中添加了融合层,网络结构如图3所示。融合层被用来将个人审美偏好信息和大众审美偏好信息融合在一起,并最终通过全连接层来输出预测评级。通过这种方式,可以实现端到端自动提取测量图像的特征以进行个性化的人脸吸引预测,比现有的方法更有效率。
图3 融合CNN网络架构Fig. 3 Fusion CNN architecture
本文在两个公开的人脸数据集上进行了评估:第一个是SCUT-FBP[13],其中包括500张具有吸引力评分的亚洲女性照片;第二个是FaceScrub[14],其中包含6 195位公众人物的141 130张人脸照片。对于这两个数据集,利用所提的融合框架进行实验。
本文基于Pearson相关系数(PC)[15]、残差(RESidual, RES)[20]和决定系数(Coefficient of Determination, R2)[21]评估不同算法的预测性能。
(6)
(7)
(8)
其中:m是样本数量;yi是真实值;f(xi)是预测值。相关系数接近于1或-1,相关性较强;相关系数接近0,相关性较弱。通常,相关系数为0.8~1.0是强相关的。残差包含有关模型基本假设的重要信息,如果回归模型是正确的,可以使用残差作为误差的观测值,它应该符合模型的假设并具有误差的一些性质。决策系数反映了因变量的整体变化,可以用回归关系来解释。如果R2越接近1,则表示拟合程度越好。
本文使用的机器学习方法包括SVM回归(SVR)、线性回归(Linear)、随机森林(RandomForest),比较了不同算法在预测面部吸引力评分方面的表现。通过用10%数据集作为测试的交叉验证实验获得相关结果。同时,为了验证特征融合比仅使用单个几何特征更有效,使用CCA算法融合F17特征和Gabor滤波器获得的局部特征。最后,再将融合了全局和局部特征的CNN与简单CNN的性能进行对比。实验结果如表2所示。
表2 基于SCUT-FBP数据库特征融合结果对比Tab. 2 Comparison of feature fusion results based on database SCUT-FBP
从表2可以看出:最好的相关系数(PC)是通过CNN实现的;线性回归在PC、RES和R2上也表现出良好的性能。此外,组合特征显示比单特征具有更好的性能,这表明几何特征和皮肤纹理特征对于面部美感的感知是重要的。在以后的研究中,考虑将不同信息的更多特征融合来比较它们的有效性。
本文利用CNN自动提取特征,再与面部典型特征进行特征级融合,并将其输入决策级融合模型以预测最终评分。通过实验对比了单一方法和决策级融合方法的性能,结果如表3所示。单一方法SCNN(Single CNN),网络只输入个人主观评分。决策级融合方法包括CNN融合、SVR融合、AVE融合和LAE融合。
从表3中看出,由CNN+SVR融合得到的Pearson相关系数(PC)是最好的。此外,实验验证了共识性和主观性信息融合取得了更好的结果。
在验证了融合模型的有效性之后,再次在FaceScrub子集上进行测试实验,比较了四种融合策略的性能,结果如表4所示。与SCUT-FBP不同,FaceScrub子集中的图像都是西方女性的面孔,这也是模型预测的一个不确定因素。本文构建的子集标签通过自洽性和一致性验证,数据分布符合一般人脸吸引力程度分布规律。
从表4可以看出,由FaceScrub子集结果可以得到与SCUT-FBP数据库相同的结论,由CNN+SVR融合得到的Pearson相关系数(PC)是最好的。在单一随机实验中,SVR 融合可以达到PC为0.99、RES为0.01。
表 3 不同方法在SCUT-FBP数据库的结果对比Tab. 3 Result comparison of different methods on database SCUT-FBP
表 4 不同方法FaceScrub子集上的结果对比Tab. 4 Result comparison of different methods on subset FaceScrub
将本文所提出框架的实验结果和现有关于个性化人脸吸引力研究和共识性人脸吸引力研究的相关成果[4,13,22-26]进行对比,结果如表5所示,表中最后两行代表分别基于SCUT-FBP数据库和FaceScrub子集的实验结果。由表5可知,在个性化人脸吸引力研究问题中,本文所提出框架能够实现更高的相关系数和更小的误差,甚至优于共识性人脸吸引力算法所达到的最好指标。
表5 不同方法实验结果对比Tab. 5 Comparison of experimental results of different methods
针对特征级融合对于个性化人脸吸引力预测这个问题预测相关性不够的问题,本文提出了一个集合特征级融合和决策级融合的个性化人脸吸引力预测框架,有效地将关键性的大众审美偏好融入模型中,提高了个性化相关性系数,从而达到了很高的个性化预测精度。在基于SCUT-FBP-500和FaceScrub两个公开数据库的实验中,该框架相比其他关于个性化人脸吸引力问题研究的算法表现出突出优势。将更典型的代表性特征纳入框架并采用更有效的方法得到大众审美及个性化预测信息,是下一步需要改进的方向。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!