基于面部块运动历史直方图特征的视频表情自动识别

时间：2024-05-04

郭振铎路向阳徐庆伟高广帅

(中原工学院电子信息学院河南郑州 450007)

郭振铎路向阳徐庆伟高广帅

(中原工学院电子信息学院河南郑州 450007)

为了自动识别视频中的表情类别，提出基于面部块表情特征编码的视频表情识别方法。检测并精确定位视频中人脸关键点位置，之后以检测到的关键点为中心，提取面部显著特征块；对面部各特征块提取运动历史直方图动态特征描述子，这些描述子被当作表情特征输入Adaboost分类器进行训练和识别；最终预测视频表情类型。通过在国际通用表情数据库BU-4DFE的纹理图像上进行测试，取得了83.2% 的平均识别率，充分证明了所提算法的有效性。跟同领域其他主流算法相比，所提算法具有很强的竞争性。

表情识别人脸配准 MHH 面部显著块 Adaboost分类器

0 引言

人脸通常包含人类重要的身份信息，同时也包含了丰富的情感信息。面部表情识别FER(Facial Expression Recognition)是人脸分析中的一个重要研究分支，作为人类日常生活中一种常见的情感表达方式，人类内心情感状态通常都会由面部表情直观表现出来。通过对面部表情进行研究可以深入了解人的内心状态，研究对人类内心世界的表达和相互了解具有重要意义。随着计算机计算能力的极大提高，FER技术已经成为图像处理领域一个重要的研究热点，并被广泛应用于智能机器人、远程医疗、远程教育、智能游戏、精神状态分析、疲劳驾驶等领域[1]。

Ekman[2]等的工作指出，常见的面部表情主要包含以下六种：生气、厌恶、恐惧、开心、悲伤和惊讶，这些常见表情的表达通常可以跨越不同的人种和文明，具有一定的普适性。在过去几十年，FER作为一个热点研究领域被越来越多的研究者所关注。早期的FER研究工作主要对静态人脸或视频序列中的人脸进行研究，随着现代计算机计算能力的迅速提升以及三维数据获取设备的快速发展，研究者开始尝试利用三维数据识别人类表情，提出了许多解决FER问题的新思路[3-5]。

在利用二维数据进行的FER研究工作中, 一些工作采用基于面部特征点距离分类表情，此类方法通常要求精确地追踪面部特征点的时空位置，无法满足一些实际应用需求。此外，由于不同人面部特征点之间的距离各异，基于特征点距离的方法易受训练样本影响。面部表情常造成面部纹理发生变化[6]，FER问题常被当作图像纹理分类问题来处理，常见的局部滤波器如Gabor小波、局部二值模式(LBP)等被用来编码整个图像或局部图像纹理区域。虽然Gabor小波特征存在计算耗时、特征空间维度较长、不具有图像旋转不变性等问题，但已经被证明比基于距离的方法有更高的分类识别精度。LBP[7]被证明了是一种有效的图像纹理编码方式，在低分辨率图像上具有更好的鲁棒性，因此被广泛的用来进行纹理分类。Dhall等[8]提出利用梯度金字塔直方图和局部相位量化LPQ(Local Phase Quantization)编码形状和纹理特征、利用局部约束模型CLM(Constraint Local Model)追踪面部关键特征点、利用K-Means聚类选取表情序列中的关键帧和SVM 分类器进行表情聚类识别。

现阶段，FER的研究大多利用面部整体信息，只有少量工作考虑利用面部块信息对表情进行识别。Lajevardi等[6]证明将面部划分为不同的区域，利用各区域特征融合的方法比利用整个面部区域进行FER的方法更有效。Lin等[9]将面部区域划分成64块，并将这些块分成对一般表情有效的和对特殊表情有效的块，结合多任务稀疏学习方法，最终使用若干面部块的特征进行表情分类。Shan等[10-11]将面部区域被划分为不同的子块(7×6)，通过Adaboost算法选择对分类表情最有效的LBP直方图(7×6×59 维特征)进行表情分类。 Song等[12]利用八个特殊点位置的面部块来观察面部皮肤变化产生的表情，选择对表情识别有主要贡献的区域提取特征进行FER。作者使用一个二值分类器来判别面部是否产生褶皱，然而选择的这些块并没有包含对FER有重要影响的嘴角部分纹理，并且对正面图像存在的自身遮挡(如头发)也没做有效处理。该工作基于训练数据，由于训练数据的不同造成关键区域的位置和大小选择也会不同，使用这些方法很难训练一个通用的FER系统。Zhang等[13]提取了面部不同尺度的Gabor特征，并利用Adaboost算法选择对表情识别有效的面部块，然而当训练不同人脸库时由于样本选择面部块的大小和位置不同，没有建立统一标准来识别未知图像面部表情。

本文提出了一种新颖的视频表情自动识别方法，如图1所示。对于视频表情序列图像，首先利用人脸检测算法检测定位人脸位置，之后采用LBF算法[14]快速精确定位面部关键点位置并将人脸分割成不同区域块。不同面部块的MHH(Motion History Histogram)特征被用来描述面部表情变化，通过Adaboost算法对各特征序列训练预测表情，本文的主要贡献如下：(1) 提出了一种全自动的二维视频表情识别框架，可以快速有效地识别二维视频表情类型；(2) 提出通过精确定位视频帧中面部各关键点位置定位提取与表情有关的表情面部区域，利用面部关键区域而非整张人脸进行视频表情预测；(3) 通过在国际通用数据库BU-4DFE的纹理图像上进行测试，有效说明了所提算法的性能。

图1 视频表情特征提取流程图

1 面部表情块选择

表情是由不同的面部肌肉块协同运动产生的，Lin等[9]分析了对各表情有效的面部活动单元AU(Action Unit)，指出对表情有影响的面部活动块通常位于眼睛下部、眉间、鼻子周围区域和嘴巴周围区域。为了提取这些区域，就需要首先精确地定位关键点位置。关键点通常为面部特殊区域点，如眼角、鼻尖、嘴角等，这些关键点的精准检测对人脸识别和表情识别都有很重要的意义。面部关键点定位研究是人脸分析中的又一热点问题。Luis等[15]提出一种鲁棒的、无需学习、轻量级的通用人脸拟合方法来定位关键点位置。该方法通过局部梯度分析寻找面部特征，并调节三维人脸形变模型在图像上的投影方向来匹配特征点，进而达到五官分割的目的。Ren等[14]在2014年提出了一种快速的基于回归局部二值特征的方法LBF(Regressing Local Binary Feature)来精准定位面部68个关键点位置，并且达到了3 000 fps的定位速度。

为了提升算法的运算速度，文中采用了文献[14]的LBF关键点定位方法，如图2(a)所示。除了LBF 检测到的第18～68个关键点(如图2(b)所示)之外，本文额外选取了点(2,42)，(3 41)，(4 40)，(4 32)，(41 32)，(41 30)，(42 32)，(3 32)，(16 47)，(15 48)，(14 43)，(14 36)，(47 36)，(47 30)，(48 36)，(15 32)的中点作为面部关键点(如图2(c)所示)，本文最终选取的面部关键点如图2(d)所示。在关键点定位的基础上，以各关键点为中心，80×80像素大小为半径，在面部提取图像块，图2 所示为本文选用的面部特征块提取示意图。(a) 是LBF算法检测到的68个面部关键点；(b) 是第18-68关键点组成的面部特征块；(c) 是额外选用的16个面部关键点；(d) 是本文所选用的面部特征点及提取的面部特征块。

图2 面部特征点及特征块定位示意图

2 视频表情序列动态特征描述

动态纹理的描述与识别一直是视觉领域的一大研究热点，它将图像纹理描述从二维空间扩展到时间域。提取动态纹理特征主要有以下几个方面的考量：(1) 运动特征和外观特征的结合;(2) 局部处理以获取时域和空域的过渡信息;(3) 对图像的变换(如旋转)具有鲁棒性;(4) 对光照变化不敏感;(5) 计算简单;(6) 多分辨率分析。现阶段对动态纹理的描述方法主要有VLBP[16]、LBP-TOP等，这些算法的思想主要是通过对视频序列在三个方向(XY、XT和YT)上进行LBP编码刻画纹理的动态变化。与上述方法不同，本文提出首先计算连续图像序列的MHH 特征，提取得到的特征利用EOH(Edge Orientation Histogram)和LBP(Local Binary Pattern)对时序空间细节进行描述。

MHH常用来刻画视觉运动中的时序信息，它描述了视频序列图像各像素点的颜色变化，该算法在最初的人类动作识别任务中取得了较好的效果[17]。跟传统的运动特征相比, MHH包含了像素点更多的动态信息并且具有计算负载较低的特点。在运算过程中，M代表运动幅度，M越大表明运动越激烈，反之则表明运动缓慢。如：M=3表明四帧中像素值连续改变三次，根据实验经验M=5已足够捕获视频中表情的变化。为了突出MHH的动态编码细节，在M个MHH图像上分别使用EOH和LBP算子。EOH可以简单看做方向梯度直方图HOG(Histogram of Oriented Gradients)[18]的简化版本，可用来刻画图像的边缘和局部形状信息。EOH在计算机视觉的很多领域都有广泛的应用，如手势识别、物体追踪和面部表情识别[19]等。图3为视频表情序列在M=1,2,…,5下得到的MHH特征。图4所示为EOH的计算过程，对于图像f(u,v)，首先通过使用Sobel算子检测图像水平和垂直方向边缘Ku和Kv：

Gu(u,v)=Ku×f(u,v)

(1)

Gv(u,v)=Kv×f(u,v)

(2)

边缘强度S、方向θ分别为：

(3)

θ=arctan(Gu(u,v)/Gv(u,v))

(4)

图4 EOH特征提取示意图

将角度划分为N个bin，相同bin强度被用来构造直方图。整个图像被划分成不同的cells，每个cells划分成不同的blocks。连接各blocks直方图生成EOH 特征。LBP(Local Binary Pattern,局部二值模式)是一种用来描述图像局部纹理的算子，它具有旋转不变性和灰度不变性等优点，利用LBP提取的特征图像称为图像的局部纹理特征。提取图像LBP特征向量主要包括如下步骤：(1) 首先将检测窗口划分成N×N个小区域(cell);(2) 对于cell中的每个像素，将相邻的8个像素灰度值与其进行比较，若周围像素值大于中心像素值，则将该像素点的位置标记为1，否则记为0。这样3×3邻域内8个点经过比较可产生8位二进制数，将二进制转化为对应的十进制即得到该窗口的中心像素点的LBP值；计算每个cell的直方图，即每个数字出现的频率，并对该直方图进行归一化处理；将得到的每个cell的统计直方图进行连接形成一个特征向量，也就是整幅图的LBP纹理特征向量。为了刻画局部和时空信息，基于MHH的各图像被划分为不同的blocks，将从各block图像块提取的EOH和LBP特征顺次连接，分别用MHH-EOH 和MHH-LBP表示。MHH-EOH和MHH-LBP拼接成更有效的时空描述子，进而描述表情纹理的动态变化。

3 实验结果分析

1) BU-4DFE数据库介绍

BU- 4DFE数据库是美国纽约州立大学宾汉顿分校发布的世界上第一个以科学研究为目的的面部动态表情高清数据库。该数据库包含了亚洲人、黑人、白人、西班牙、拉丁裔等不同的人种数据，其中包含了男性43人，女性58人。该数据库中包含了六种基本表情：生气、厌恶、恐惧、开心、悲伤和惊讶。每个表情序列持续时间约4秒(约100帧)，该数据库中共有表情序列606个，共约60 600帧。该库中公布的二维纹理的分辨率约为1 040×1 329像素，库中人脸全部为正面人脸，非常适合用来分析二维人脸表情。图5给出了BU-4DFE数据库中某HA表情视频数据。

图5 开心表情的视频数据

2) 实验设置

本文从BU-4DFE数据库101个体中每次随机选择60个体，其中54 个个体数据用来做训练，6个个体数据用来做测试，实验采用10折交叉验证和Adaboost分类器分类表情序列，实验独立重复100 次。在面部关键点检测过程中，利用LBF算法精确定位特征点位置，以特征点为中心，在周围80 像素窗口内提取面部特征块。在利用MHH算法描述动态表情纹理变化过程时，取M=5。

3) 实验结果分析比较

Meguid等在文献[20]中提出了一种全自动的面部表情检测和分类框架，通过使用PittPatt面部检测算法结合RandomForest 和SVM分类器来预测表情，取得了73.1%的识别率。

Xu等在文献[21]通过使用局部运动词汇描述子表示面部运动，提出了一种完全自动的面部表情识别算法。通过改善光流特征，该算法对测试者的种族特征、面部头发等情况具有一定鲁棒性。该算法在600人的视频序列中取得了63.8%的识别率。Dapogny等在文献[22]中针对表情视频的特性，结合静态和不同时间段表情之间的迁移信息，利用基本的几何和纹理特征通过训练图像对之间的迁移分类器来识别视频表情类型。该方法最终取得了75.8%的识别率。Dapogny等在文献[23]中引入了PCRF(Pairwise Conditional Random Forests)框架，通过沿时间轴均化成对条件树来结合使用高维、底层时序信息，达到实时识别视频表情的效果，取得了76.1% 的识别结果。

图6所示为本文算法在BU-4DFE数据库上取得的识别结果，横坐标依次表示了六种不同表情，纵坐标表示了对应表情的识别率。表1为对应表情的识别率混淆矩阵，表2 给出了本文算法和其他算法的比较结果。

图6 BU-4DFE数据库上最终识别结果

%ANDIFEHASASUAN80.13.94.62.87.21.3DI4.683.24.13.42.91.8FE2.95.875.24.24.77.1HA2.21.52.790.42.80.4SA7.12.56.92.679.90.9SU2.60.81.52.61.990.5平均范围83.2±3.9

表2 本文算法跟其它算法比较结果

4 结语

本文提出了一种全自动的视频表情识别方法，首先通过在表情视频帧中精确定位面部特征点来定义分割面部表情块(大小80×80像素)，对各面部块分别提取MHH特征，通过Adaboosting算法进行加权计算，最终预测表情类别。本文将面部划分为不同的区域，利用面部区域信息取得了比利用整脸信息更高的识别率，充分证明了面部表情的产生是由特定面部区域驱动的。利用这些区域的共同作用将能够更好的分析面部表情，深入分析面部各块对各表情的影响将是我们下一步的研究问题。本文在国际通用的BU-4DFE表情数据库的纹理数据上进行100次独立交叉验证实验。实验结果跟其他主流的视频表情分类算法相比，具有很强的竞争性，最终83.2% 的识别率也充分证明了所提算法的实用性。

[1] Sandbach G,Zafeiriou S,Pantic M,et al.Static and dynamic 3D facial expression recognition:A comprehensive survey[J].Image & Vision Computing,2012,30(10):683-697.

[2] Ekman P,Friesen W.Facial Action Coding System:A Technique for the Measurement of Facial Movement[ M].Salt Lake City:Consulting Psychologists Press,1978.

[3] Jan A,Meng H.Automatic 3D facial expression recognition using geometric and textured feature fusion[C]//IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.IEEE,2015:1-6.

[4] Hayat M,Bennamoun M.An Automatic Framework for Textured 3D Video-Based Facial Expression Recognition[J].IEEE Transactions on Affective Computing,2014,5(3):301-313.

[5] Song M,Tao D,Sun S,et al.Joint sparse learning for 3-D facial expression generation[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2013,22(8):3283.

[6] Lajevardi S M,Hussain Z M.Automatic facial expression recognition:feature extraction and selection[J].Signal Image & Video Processing,2012,6(1):159-169.

[7] Happy S L,George A,Routray A.A real time facial expression classification system using Local Binary Patterns[C]//International Conference on Intelligent Human Computer Interaction.IEEE,2013:1-5.

[8] Dhall A,Asthana A,Goecke R,et al.Emotion recognition using PHOG and LPQ features[C]//IEEE International Conference on Automatic Face & Gesture Recognition and Workshops.IEEE,2011:878-883.

[9] Zhong Lin,Liu Qingshan,Yang Peng,et al.Learning active facial patches for expression analysis[C]//IEEE Conference on Computer Vision and Pattern Recognition,2012:2562-2569.

[10] Shan C,Braspenning R.Recognizing Facial Expressions Automatically from Video[M]//Handbook of Ambient Intelligence and Smart Environments,2010:479-509.

[11] Shan C,Gritti T.Learning Discriminative LBP-Histogram Bins for Facial Expression Recognition[C]//British Machine Vision Conference 2008,Leeds,September.DBLP,2011.

[12] Song M,Tao D,Liu Z,et al.Image ratio features for facial expression recognition application[J].IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics A Publication of the IEEE Systems Man & Cybernetics Society,2010,40(3):779-88.

[13] Zhang L,Tjondronegoro D.Facial Expression Recognition Using Facial Movement Features[J].IEEE Transactions on Affective Computing,2012,2(4):219-229.

[14] Ren S,Cao X,Wei Y,et al.Face Alignment at 3000 FPS via Regressing Local Binary Features[C]//Computer Vision and Pattern Recognition.IEEE,2014:1685-1692.

[15] Unzueta L,Pimenta W,Goenetxea J,et al.Efficient generic face model fitting to images and videos[J].Image & Vision Computing,2014,32(5):321-334.

[16] Zhao G,Pietikainen M.Dynamic texture recognition using local binary patterns with an application to facial expressions[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2007,29(6):915-28.

[17] Meng H,Pears N,Bailey C.A Human Action Recognition System for Embedded Computer Vision Application[C]//Computer Vision and Pattern Recognition,2007.CVPR’07.IEEE Conference on.IEEE,2007:1-6.

[18] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005:886-893.

[19] Meng H,Romera-Paredes B,Bianchi-Berthouze N.Emotion recognition by two view SVM_2K classifier on dynamic facial expression features[C]//IEEE International Conference on Automatic Face & Gesture Recognition and Workshops.IEEE,2011:854-859.

[20] Meguid M K A E,Levine M D.Fully automated recognition of spontaneous facial expressions in videos using random forest classifiers[J].IEEE Transactions on Affective Computing,2014,5(2):141-154.

[21] Xu L,Mordohai P.Automatic Facial Expression Recognition using Bags of Motion Words[C]//British Machine Vision Conference,BMVC 2010,Aberystwyth,UK,August 31-September 3,2010.Proceedings.DBLP,2010:1-13.

[22] Dapogny A,Bailly K,Dubuisson S.Dynamic facial expression recognition by joint static and multi-time gap transition classification[C]//IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.IEEE,2015:1-6.

[23] Dapogny A,Bailly K,Dubuisson S.Pairwise Conditional Random Forests for Facial Expression Recognition[C]//IEEE International Conference on Computer Vision.IEEE,2016:3783-3791.

AUTOMATICFACIALEXPRESSIONRECOGNITIONBASEDONMOTIONHISTORYHISTOGRAMFEATURESOFFACIALSALIENCYBLOCKS

Guo Zhenduo Lu Xiangyang Xu Qingwei Gao Guangshuai

(SchoolofElectronicandInformationEngineering,ZhongyuanUniversityofTechnology,Zhengzhou450007,Henan,China)

In order to automatically identify the expression category in the video, we proposed a fully automatic video FER framework. Firstly, the location of the key points of a human face in the video was detected and precisely located, and then the significant feature block was extracted with the key points detected as the center. Secondly, we extracted motion history histograms and feature descriptor from each feature block. These dynamic expression descriptors were input into Adaboost classifier to train and predict the expression type finally. We carried out experiments on BU-4DFE dataset and got a state-of-art 83.2% average performance which indicates the validity of the proposed approach. Compared with other mainstream algorithms in the same field, the proposed algorithm is highly competitive.

Facial expression recognition Face alignment MHH Facial saliency blocks Adaboost classifier

2017-01-10。国家自然科学基金项目(61202499，61379113)；河南省基础与前沿技术研究计划项目(142300410042)；郑州市科技领军人才项目(131PLJRC643)。郭振铎，讲师，主研领域：图像处理与模式识别，嵌入式系统。路向阳，讲师。徐庆伟，讲师。高广帅，硕士生。

TP301.6

10.3969/j.issn.1000-386x.2017.11.036