时间:2024-07-28
钱勇生, 邵 洁, 季欣欣
(上海电力学院 电子与信息工程学院, 上海 200090)
人脸表情含有极度丰富的人体行为信息,不仅是个人情绪的自我表达,更是人们在非语言交流中传递情感信息和协调彼此关系的重要方式。在人工智能时代,人脸表情识别更是一个重要的组成部分。近年来,随着人工智能和人机交互的高速发展,智能化和舒适化生活的逐渐实现以及人脸表情识别需求的增加,推动了人脸表情技术的快速发展,吸引了众多国内外学者和大量科技公司的高度关注,成为现阶段热点研究领域之一[1]。
人脸表情识别技术的关键在于从面部区域中提取有效和独特的表情特征,并据此实现人脸表情图像的分类。由于面部表情的变化细微而复杂,尽可能地获取完整、紧凑和高区分度的表情特征显得尤为重要。目前,提取的表情特征主要包含整体统计特征、局部特征或频率域特征[2]。 周书仁等人[3]提出了基于独立分量分析(Independent Component Analysis,ICA)与 隐马尔可夫模型的表情识别,利用ICA分离多个未知源信号混叠,得到了人脸表情的深层隐藏特征。YANG M X等人[4]提出了基于局部二进制模式(Local Binary Patterns,LBP)和支持向量机(Support Vector Marchine,SVM)的人脸表情识别方法,利用描述图像的纹理特征的LBP,可以有效地提取和测量灰度局部纹理特征图像特征。ZHOU J等人[5]提出了基于Gabor和二维非负矩阵分解法的人脸表情识别方法,通过Gabor小波变换提取表情特征,采用基于距离的最近邻分类器进行分类识别。
Gabor小波变换在频域和时域上具有最佳的局部化特性,对图像旋转变化较敏感[6],因此在图像处理、计算机视觉和模式识别等领域得到了广泛的应用与发展。然而多尺度多方向的 Gabor 变换后的数据计算量大,冗余度和特征维数都较高。若纯粹选用一种特征,则无法捕捉表情图像多方面的识别信息,基于融合多种互补特征信息的表情识别是一种新颖的研究方法[7]。易积政等人[8]提出了基于特征点矢量与纹理形变能量参数融合的人脸表情识别方法,融合了特征点矢量的特征点距离比例系数和纹理形变能量参数。 唐恒亮等人[9]提出了一种融合LBP和局部稀疏表示的人脸表情识别方法,在表情图像非均匀分区提取局部 LBP特征,再根据各局部子区域的影响因子,通过加权融合局部特征进行表情分类。
本文首先从人脸的局部特征角度出发,针对Gabor小波直接抽取人脸特征数据存在冗余,产生鲁棒性不足的缺点,提出了基于局部Gabor排序模式(Local Gabor Rank Pattern,LGRP)和多特征融合人脸表情的识别方法。在提取人脸表情图像的 Gabor幅值特征的基础上,对特征进行局部排序编码,捕捉了一组像素的相对顺序或排序。利用相对强度信息而不是原始强度值,这样不会因为外界噪声(光照变化)而改变。在保留 Gabor小波局部特征的基础上,通过融合描述纹理图像的Haar特征以及人脸轮廓特征,可以增强其全局特征表征能力,减少高维数据冗余,具有良好的鲁棒性和精确的分类效果。
1.1.1 Gabor特征
Gabor 特征是通过二维 Gabor滤波器卷积人脸表情图像得到的,主要包含空间尺度、空间位置以及方向选择等图像局部纹理信息。本文采用5个尺度和8个方向的Gabor滤波器组卷积人脸图像获得的Gabor幅值特征,如图1所示。
图1 人脸表情图像的 Gabor 幅值特征
二维Gabor小波变换表达式为
(1)
式中:α,β——Gabor 滤波器的方向和频率;
z——像素坐标,z=(x,y);
i——复数算子;
σ——滤波器的带宽,σ=2π;
‖·‖——模。
若一幅图像的灰度值为I(x,y),那么I(x,y)和Gabor滤波器的卷积可定义为
F(x,y,α,β)=I(x,y)*Gα,β(x,y)
(2)
式中:*——卷积运算。
1.1.2 局部Gabor排序模式
经过 Gabor变换后的表情图像将转化成40个不同尺度与方向的图像,提取出高达原始图像特征维数40倍的表情特征,由此造成特征数据冗余且特征淹没。 本文提出基于局部Gabor排序模式来表征,将获得更具鲁棒性的人脸表情描述。人脸表情图像的LGRP排序模式如图2所示。
图2 人脸表情图像的LGRP排序模式
该模式是在Gabor响应的幅值信息中局部排序编码,对幅值信息中的每个点的相邻像素采样并且分配不同的序号,包括比较相近的像素,然后将序列(某种排列顺序)映射到 LGRP码。 这不同于局部 Gabor二值模式[10],利用中心像素与其相邻像素之间的排序关系,但不考虑相邻像素之间的排序关系。 在本文的方法中,所提出的 LGRP编码可以直接得到而不产生中间二进制串,并利用样本点的方差作为加权函数来提高编码的鲁棒性。 该方法可以使图像纹理丰富,并显示出与空间位置的缓慢偏差,因此可以抵抗一些局部变化。 其编码过程如图3所示。
LGRP编码步骤如下:使用Gabor变换图像中P-P邻域中样本像素值的相对顺序,为每个像素生成一个序数码。令G(x,y)为Gabor小波变换后的幅值响应图像,Z=(xa,yb) 为幅值响应图像中的某个采样点,Δ(z) 表示z处N个相邻点的排序集合,即
图3 LGRP编码过程
Δ(z)={s1,s2,s3,…,sN}
(3)
对于z点的编码模式与周围邻域的像素点si∈Δ(z)紧密相关,其计算公式为
(4)
式中的CN,R(z)表示在矩形局部邻域中使用等间隔的N个取样点计算z的排序模式,所述N个取样点在角度方向上相距R个像素,但N的采样值包含中心像素作为采样点之一。c为像素点s下的顺序采样点。δ(sc)函数提供了序列Δ(z)中点的相对顺序,可以取值为
(5)
(6)
其中si和sj∈Δ(z),邻域内N个像素点经过比较,得到了各自不同的表示数值。
一般来说,所有编码被认为是相等的,并且权重1被分配给每个LGRP码。然而,用更多不相似的样本点生成的代码可以被认为对图像中的随机像素变化更具有鲁棒性。由于标准差可以判别信息的差异程度,这样利用样本点的标准差作为衡量编码稳定性的一个指标,因此可以采用标准差作为权重函数来提高描述符的鲁棒性,最终生成的LGRP排序模式为
LN,R(z)=μ·CN,R(z)
(7)
式中:μ——标准差。
(8)
(9)
当人表达出不同的情感表情时,面部眼睛、鼻子、嘴巴和下颚的轮廓也不同,这是不同人脸表情分类的重要依据[11]。 通过形态学运算可以提取这些轮廓特征。首先,对人脸图像采取直方图均衡化以提高全局对比度;然后,针对直方图均衡化大致相同的脸颊和前额,使用Otsu阈值分割法分割成二进制图像,这种图像分割过程是将相近像素组合在一起,以实现进一步处理的目的;最后,相近像素的脸颊和前额被分成一个区域,眼睛、嘴巴和下颌的像素被分成另一区域。本文采用一种类间方法最大化的Otsu方法,用来找到分割灰度图像的最佳阈值。 人脸表情轮廓特征如图4所示。
图4 人脸表情轮廓特征
假设图片包含L个灰度级(0,1,2,…,L-1),灰度值i的像素点数为Ni,图像总的像素点数为N=N0+N1+N2+…+NL-1,灰度值i的概率为Pi=Ni/N,则类间方差的定义为
(10)
Haar小波变换是常用的一种提取图像特征方法[12]。以各种分辨率分析给定图像,获得有关不同尺度图像的变化信息。通常,采用低通和高通滤波器分解原始图像。高频分量主要包含图像细节信息,而低频分量主要包含图像形状信息,相对于边缘信息更加有效和稳定,并且也符合人类的视觉特点[13]。假设原始人脸表情图像的大小是N×M,经过二维离散小波变换后,分解为4个子图像,每个子图像都是大小为(N/2)×(M/2),分别是低频部分分解系数、水平方向分解系数、垂直方向分解系数和对角线方向分解系数。由于低频部分包含了最重要的信息并且丢弃了噪声和不相关部分的影响,因此,本文采用第一级分解的低频部分提取特征。人脸表情原始图像的一层分解如图5所示。
图5 人脸表情图像的一层分解
SVM在统计学理论的基础上发展起来的[14],最大特点是结构最小化原则。基本模型是定义在特征空间上的间隔最大的线性分类器,在解决小样本、非线性和高维度等问题上具有一定的优势。在生物识别、文本识别和图像识别等领域得到了广泛应用[15]。
SVM一般解决二分类问题。 SVM的目标是要构造一个分类超平面wX+b=0,用来区分两类不同的样本,并且使得超平面距两类样本的分类间隔最大化、错误率最小。将超平面用于未知样本进行分类问题可以转化为最小化问题,其计算式为
(16)
s.t.yi(wxi+b)-1≥0,
i=1,2,3,…,N
(17)
求得最优解w′和b′,得到最优分类超平面w′·x+b′=0, 即最大间隔超平面,如图6所示。
图6 SVM的最大间隔超平面
本文人脸表情数据库包含7类表情,采用多个SVM分类器对人脸表情进行识别。通过构建k个二类分类器实施一对多分类策略,其中每个分类器区分一类(正类)和其他所有类(负类)。对人脸表情进行分类时,分别计算各个分类器的判别函数值,最后选择最大判别函数值来测试数据的类别[16]。
本文提出了一种基于LGRP和多特征融合人脸表情识别方法,其流程图如图7所示。
图7 多特征融合人脸表情识别流程
具体步骤如下:
步骤1 对N张人脸表情图像分别提取描述纹理的 LGRP特征和一级 Haar小波分解得到4个子图特征以及描述边缘和形状的人脸轮廓特征;
步骤2 采用主成分分析以降低这些特征的维数,再以串联的方式将这3种特征进行融合,形成融合表情特征向量;
步骤3 采用融合后的表情特征训练 SVM多分类器模型;
步骤4 利用训练后的 SVM多分类器模型进行表情分类。
多分类器融合方法作为一种新方法,在图像处理与模式识别领域得到广泛的应用[17]。目前,多分类器的融合主要有特征级融合和决策级融合。特征级融合是对原始图像信息中目标对象进行特征提取,然后对所提取的多种特征信息进行综合分析处理。在特征级融合时,可以对特征信息进行一定程度的压缩,以降低特征信息的维数。本文采用的是特征级融合,将LGRP特征、Haar小波特征和人脸表情轮廓特征串联成一个新特征。
将本文方法在Extended Cohn-Kanade(CK+)表情数据库[18]上进行试验仿真。该数据库共 10 708 张表情图像,选取带标签的 327 个表情序列中每个序列的最后一张峰值表情图像作为试验图像。首先,利用MATLAB 2016a计算机视觉工具箱实现人脸检测,裁剪出大小为 128×128(像素)的纯脸图像,并且将彩色图像转化为灰度图像。CK+表情数据库和表情图像预处理如图8和图9所示。
图8 CK+表情数据库
图9 CK+表情图像预处理
对预处理后的表情图像分别提取LGRP特征、人脸表情轮廓特征和Haar特征,并将这3种特征按顺序进行串联,得到了融合之后的表情特征。
将CK+表情数据库中327个表情序列的随机抽取样本90%作为训练集,样本10%作为测试集,每类表情的识别结果如表1所示。
表1 本文方法每类表情的识别结果
由表1可知,平均识别率达到90.49%。其中,高兴和惊讶表情的识别率明显高于其他表情,其原因是它们有着明显区分其他表情的特征,更容易被区分出来;而愤怒、蔑视和悲伤的误判可能性比其他表情要略微严重,其原因在于它们之间有着较为相似的细节特征信息,导致分类效果不佳。
为了验证本文所提出的多特征融合特征方法的有效性,在表情图像中分别提取Gabor 特征、LGRP特征、人脸表情轮廓特征和Haar特征,并采用 SVM多类分类器进行表情识别。不同特征融合的识别率对比结果如表2所示。
表2 不同特征融合的识别率 %
由表2可知,与单独采用 Gabor 特征、人脸表情轮廓特征、Haar特征相比,本文所提出的融合LGRP 特征、Haar特征和人脸表情轮廓特征的方法,在 CK+表情库上的识别率达到 94.36%,表明具有更好的表情识别能力,进一步验证了融合特征的有效性。
将本文所用的方法与近年来学者们所提出的方法的识别结果进行了对比,对比结果如表3所示。表3中:AAM为主动外观模型(Active Appearance Model);DBN为深度信念网络(Deep Belief Net);VAR为方差(Variance);HOG为方向梯度直方图(Histogram of Oriented Gradient);SAE为堆叠自动编码器(Stacked Autoencoder);CPL为公共补丁学习(Common Patches Learing);ITBN为区间时间贝叶斯网络(Interval Temporal Bayesian Network)。
表3 不同方法识别率对比 %
由表3可知,与CK+表情库中其他不同方法相比,本文所提出的表情识别方法具有较好的识别效果。虽然本文方法的识别率略低于文献[23]方法2.34%,然而文献[23]需要构建 80 个 DBN 模型,就大大增加了计算的复杂度与计算时间;与文献[21]采用的方法相比,识别率提高了2.96%;与文献[22]采用的方法相比,识别率提高了3.25%;与文献[24]采用的方法相比,识别率提高了5.94%。
本文采用LGRP和多特征融合进行人脸表情的识别。提取人脸表情图像的局部Gabor排序模式,有效减少了Gabor特征的冗余信息,提高了人脸表情描述的鲁棒性。将 LGRP 特征、Haar 特征与人脸表情轮廓特征中的3种特征进行串联融合,获得了人脸图像的纹理特征与形状、边缘特征等丰富的表情信息,保证了有效决策信息不会丢失。将本文所提出的LGRP特征、Haar特征和形态学运算特征融合方法应用于CK+表情库,识别率可以达到 94.36%,表明了本文所提方法的有效性。与其他表情识别方法相比,该方法也有着明显的优越性。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!