当前位置:首页 期刊杂志

融合纹理增强和注意力图的面部属性编辑方法

时间:2024-09-03

项家伟,王 伟,刘沫萌

(西安工程大学 计算机科学学院, 陕西 西安 710048)

0 引 言

面部属性编辑是在保证不修改与给定属性无关区域的前提下,正确编辑面部图像使其具有给定的面部属性[1]。近年来,随着深度卷积神经网络和大规模数据集的发展,面部属性编辑技术被广泛应用于数字媒体娱乐[2]、影视制作、虚拟现实和增强现实技术[3]等多个领域。

生成对抗网络[4](GAN)是一种非监督式学习方法。近年来,人们已经提出了多种使用生成对抗网络进行面部属性编辑的方法[5]。最初,研究人员通过成对的训练样本把面部属性编辑问题看作回归问题。文献[6]训练了一个多变量回归模型,其数据集来自戴眼镜和不戴眼镜的面部图像;文献[7]以面部图像为输入,通过最小化像素与像素之间的损失回归目标人脸图像,提出了一种人脸正面化方法。不过,这些方法的性能很大程度上取决于成对的训练数据,而成对的训练数据往往很难获得,如女性“有胡须”和“无胡须”属性。

GANR 面部属性编辑方法主要有基于样式转移和基于面部语义特征等2类。基于GAN的样式转移方法通常是将输入域转移到输出中另一个域的一种选择方法,例如从照片生成艺术家的“真迹”。Cycle-GAN[8]已成为图像域传输中的典型方法,在训练中使用了来自单个图像输入的循环一致性损失,其训练过程不受监督。在对潜在编码没有任何限制的情况下,Att-GAN[9]和Star-GAN[10]仅通过采用必要的对抗性损失、属性分类损失和重构损失提高属性编辑性能;ST-GAN[11]和Rel-GAN[12]通过使用目标向量和源向量之间的差异限制对选定属性的编码,进一步提高了面部编辑能力。文献[13]的研究以条件生成对抗网络为框架主干,将属性输入作为生成器的条件,生成器将编码器与图像分割网络U-Net[14]结合,并添加了属性分类器,得到的图像具有高保真度和用户编辑的灵活性;文献[15]提出了一种在预训练的无条件生成对抗网络和线性分类模型的帮助下,通过编辑潜在变量编辑人脸属性的方法。然而,上述方法都不可避免地改变了除特定属性区域之外的区域,编辑结果无法获得良好的视觉效果。

为了更改特定属性区域和获得良好的视觉效果,一些学者提出了基于面部语义特征的方法。文献[16]把稀疏残差图像定义为输入面部图像和所需编辑图像之间的差异,学习面部属性编辑模型;文献[17] 使用PA-GAN预训练网络从单个图像生成动态纹理,该纹理可以应用于生成伪身份信息或与其他面孔组合。文献[18]采用补充注意力特征的概念识别输入图像中不存在的属性区域的方法(CAFE-GAN),借助补充注意力特征,其鉴别器可以生成和利用所有属性的空间关注特征图;文献[19]提出了用于高分辨人脸属性编辑的面部蒙版引导的生成对抗网络(Mag-GAN),使用来自预先训练的面分析器的语义蒙版指导新的图像编辑过程;文献[20]提出具有空间关注度的生成对抗网络(SA-GAN),生成器包含一个用于编辑人脸图像的属性操纵网络(AMN)和一个用于定位特定属性区域的空间关注网络(SAN),该区域限制了区域内AMN的交替。但是,针对细粒度特征空间提取,这类方法的面部属性编辑结果通常缺乏真实感和精细的面部细节。

本文提出一种融合纹理增强和注意力图的面部属性编辑方法,该方法的特点可以归纳为2个方面:1)在SA-GAN的基础上引入了纹理增强模块和注意力图模块,同时采用多尺度鉴别器改进原始网络架构;2)提出一种交替训练策略提高整个网络架构编辑属性时的鲁棒性。实验验证结果表明,提出的方法能够生成清晰的面部属性图像,优于许多同类网络。

1 面部属性编辑方法

1.1 网络框架

理想的属性编辑生成器仅编辑与属性相关的区域,同时保持与属性无关的区域完整,以最大程度地减少伪影。但在SA-GAN在面部属性编辑过程中,面部会出现严重的伪影,如图1(a)、(b),而且经常错误提取无关属性区域,如图1(c)、(d)。导致上述情况出现的原因是空间关注网络(SAN)在提取空间特征时,提取了与特定属性无关区域的特征空间。

(a) 脸部伪影 (b) 嘴部伪影

(c) 错误提取眼部特征 (d) 提取眼部特征不完整图 1 SA-GAN编辑结果Fig.1 SA-GAN editing results

针对空间特征提取不明显和提取错误无关属性区域问题,提出了一种网络结构框架模型,如图2所示。图2中,纹理增强模块使得原图像的属性特征更明显,更容易区分各区域属性特征;注意力图模块增强属性特征空间注意力,从而有利于提取空间属性特征;多尺度鉴别器使网络在多个分辨率的图像上捕获更多的细节信息和语义场信息,有利于指导编码器和解码器生成更好的细节,掌握生成图像的全局信息。

图 2 网络结构框架Fig.2 The proposed network structure framework

1.1.1 纹理增强模块 纹理特征是图像的一个重要视觉特征。图像纹理是纹理基元按照某种特定规律排列组成的,可以反映出图像亮度的空间变化情况,并且整体和局部具有相似性。图像纹理特征与纹理基元的空间大小有关:如果纹理基元的尺寸较大,则图像表现出比较粗的纹理;反之则细。纹理的粗糙程度可以用空间自相关函数描述。

然而,现有面部属性编辑方法或多或少会产生伪影。伪影通常在浅层特征图的纹理信息中很明显,此处的纹理信息表示浅层特征的高频分量。因此,为了保留更多的纹理信息以方便属性特征提取,本文引入纹理增强模块[21],如图3(a)所示。

在该模块中,首先对浅层特征图使用局部平均池化,从特定的浅层特征图进行下采样,获得非纹理特征图D。类似于空间图像的纹理表示,非纹理特征图D在特征级别定义残差,以表示浅层特征图的大部分纹理信息。其次,浅层特征图与非纹理特征图D在像素级别上作差,用⊖表示。最后,使用3层紧密连接的卷积块增强纹理信息,把获得的结果标记为文本特征图。

1.1.2 注意力图模块 注意力图能够指导低级结构特征和高级语义特征的生成。为了使网络空间关注度作用于不同的潜在区域,采用了注意力图模块[21],如图3(b)所示。该模块利用深层语义特征预测多个空间注意力图。理想情况下,注意力蒙版Ma(见图2)特定于属性的区域像素应为1,其余区域应为0。实际上,优化后的取值可以是0到1之间的任何值。因此,非零值区域被视为属性特定区域,而零值区域被视为属性无关区域。在注意力图的引导下,网络将属性特定区域移向目标属性,而其余区域保持不变,并保持与原始图像的一致性。

(a) 纹理增强模块

(b) 注意力图模块图 3 纹理增强模块和注意力图模块Fig.3 Texture enhancement module and attention map module

注意力图模块是一个轻量模型,由1个1×1卷积层,1个批量归一化层和1个非线性激活函数ReLU组成。从特定层提取的特征图将被馈送到该注意块中,以获得多个注意力图,每一个注意力图都会对应一个特定的判别区域,如眼睛、嘴巴、胡须等。

1.1.3 多尺度鉴别器 为了捕获更多的语义场信息和细节信息,采用了两级鉴别器[13],如图2黑框所示。2个鉴别器的网络结构相同,但是输入图像的大小不同。鉴别器D2的输入是128×128的原始图像,代表用于处理较大分辨率图像的鉴别器;鉴别器D3的输入是原始图像下采样后的64×64图像,代表用于处理较小分辨率图像的鉴别器。D2可以在原始图像上捕获更多细节信息,有利于指导编码器和解码器生成更好的细节;D3可以获得有关原始图像的更多语义场信息,可以掌握所生成图像的全局信息。

1.2 网络模型的损失函数

(1)

(2)

(3)

式中:a为真实图像Xa的属性值标签。

(4)

(5)

(6)

式中:a是输入图像Xa的源属性。在这种损失中,当将属性编辑的图像Xb=G2(Xa,b)转换回具有源属性a的图像G2(G2(Xa,b),a)时,期望生成与源属性相同的图像Xa。在这里,采用L1范数可以更清晰地重构图像。最后,实现优化G的总体目标函数如下:

(7)

同理,鉴别器D2,3的损失如下:

EXb[ln(1-Dsrc(Xb))]

(8)

(9)

(10)

1.3 交替训练策略

为了使生成器网络G1和属性操作网络G2在编辑属性过程中对用户输入目标属性的各种变化更加鲁棒,交替训练策略可以在训练时间内对原图像的编辑行为进行建模。交替训练方法要求有训练的生成器网络G1以及重新开始训练的鉴别器D2,3。本文的训练流程可以分为2个阶段(见图2):在第1阶段,加载生成器网络G1的预训练模型,更新一次G1;在第2阶段,G1被分为2个结构,一个表示为属性操作网络G2,另一个表示为空间注意力网络G3。属性操作网络将面部图像Xa和给定的目标属性b作为输入,而空间注意力网络将原图像Xa作为输入,并预测空间注意力蒙版Ma。该蒙版用于限制该区域内属性操作网络的交替,G2和G3等2个模块分别生成Fb和Ma。交替训练策略算法如下:

初始化:预训练好的生成器网络G1

输入:Xa,a,b

1) while模型迭代且不收敛

2) 选择一个批量的N对原图像Xa,源属性向量a和N个目标属性向量b

4)Fb=G2(Xa,b)

5)Ma=G3(Xa)

6)Xb=Fb·Ma+(1-Ma)·Xa

8) 利用式(7)、(10)更新Xb=Fb·Ma+(1-Ma)·Xa

9) End while

2 实验结果及分析

2.1 数据集以及实验环境

本文使用CelebA数据集[22],其中包含10 177个人的202 599张人脸图片,每张图片都做了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记。用CelebA的图像对齐并裁切后的版本,所有图像的大小均调整为128×128。使用了样本数量最多的8 177人训练,其余2 000人测试。在整个实验中,训练数据包含191 649张图像,测试数据包含10 950张图像。其中,选择了13 个具有强烈视觉冲击力的属性,包括“秃顶”“刘海”“黑发”“金发”“棕发”“眉毛”“眼镜”“女性”“张嘴”“胡须”“无胡须”“苍白的皮肤”和“年轻”,涵盖了现有面部属性编辑方法中使用的大多数属性。

所有模型的参数均根据正态分布随机初始化,平均值为0,标准差为0.02。在网络结构的优化过程中,采用ADAM[23](λ1=0.5,λ2=0.999,学习率lr=2×10-4)作为优化器。本文在CelebA数据集上进行400次迭代训练,批处理大小为16。在训练了一半时间之后,学习率线性下降。整个框架在TITAN GPU上训练了大约20 h,最终生成器和鉴别器模型达到收敛。

在相同的实验设置下,将本文所提出的方法与SA-GAN[20]、ATT-GAN[9]和PA-GAN[17]进行比较。除了SA-GAN以外,其余模型可以使用一个模型处理实验中所有属性。设置SA-GAN、ATT-GAN和PA-GAN实验环境后,获得实验结果与本文方法的实验结果相对比。在设置原实验过程中,上文提及的3个网络在输入时将图像裁剪和放缩以进行人脸对齐。因为在实验过程中均维持原实验的设置,所以在输出结果会使图像大小不一,但并不影响属性编辑效果。

2.2 定性分析与评估

为了验证文中提出面部属性编辑方法相比于其他方法能够产生视觉感官良好的图像,在SA-GAN、ATT-GAN和PA-GAN上采用同一张图像进行编辑,结果如图4。图4(a)和图4(b)分别为不同属性编辑方法对面部属性“眼镜”和“张嘴”的编辑结果。从图4(a)、(b)可知:SA-GAN和本文提出网络保留了大多数与属性无关的区域不变,二者是类似的。但是,SA-GAN在特定于属性的区域上,特别是在编辑“张嘴”上,面部存在一些伪影;ATT-GAN在编辑“眼镜”属性时出现编辑不完全的情况,比如只编辑一个眼镜框。相对于SA-GAN和ATT-GAN,PA-GAN的编辑效果稍微好点,但也会意外更改面部的其他属性。比如在编辑男性“眼镜”的情况下“皮肤”属性也发生了变化。本文的网络结构在特定于属性的区域上实现了良好的处理,实现细粒度准确编辑面部特征,主要归功于纹理增强模块和注意力图模块。该模块的加入使得网络在提取空间特征和形成注意力图的时候变得更加专注,更加鲁棒和健壮。

SA-GAN在原实验中只设置了3个属性进行编辑,反映出SA-GAN在编辑方法上的局限性。本文在对比实验选定的13个属性中,并未与SA-GAN进行对比。图4(c)对比了ATT-GAN、PA-GAN和本文提出的网络编辑方法处理相同原图像的效果。从图4(c)可以看出:在编辑“金发”这个属性时,前2种方法都不可避免的更改了原图像的其他属性信息,比如衣服的颜色。本文的框架结果也会适度的修改图像,例如在编辑“金发”时,也会对衣服进行更改。但相对于前2种方法,所提出方法获得了更好的视觉质量,证明了其有效性。

2.3 定量分析与评估

为了进一步说明所提出的面部属性编辑方法能够生成高质量和视觉良好的图像,从2个方面定量地评估属性编辑的性能,即图像质量和属性编辑正确率。属性编辑正确率用于评估指定的属性是否正确显示在图像上。本文使用预训练的属性预测器(属性预测正确率为95%)判断属性编辑是否正确。图5显示了本文所有对比方法的属性编辑正确率。由于SA-GAN在原实验设计中只有3个属性,且与本文提及的13个属性重合,因此,本文在SA-GAN上只评估了这3个属性编辑准确度。

从图5可以看出,ATT-GAN,PA-GAN和本文提出了方法都达到了可比的属性编辑正确率,优于SA-GAN,证明了本文提出的模型可以生成具有高属性编辑正确率的图像。ATT-GAN和PA-GAN实现了较高的属性编辑正确率,但都会影响属性无关区域;所提出的方法实现了更好的不相关性保留,在图4中也被证实。

峰值信噪比(peak signal-to-noise ratio,PSNR)表示信号最大可能功率和影响其表示精度的破坏性噪声功率之比。图像更改之后,输出的图像会在某种程度与原始图像不同。为了判断经过处理后的图像质量,通常参考PSNR值衡量处理过程能否令人满意。结构相似性指数度量(structural similarity index measure,SSIM)主要用于预测相似图片和视频之间感知质量的相似度。SSIM 是一种基于感知的模型,它将图像退化视为结构信息的感知变化,同时还结合了重要的感知现象,包括亮度掩蔽和对比度掩蔽项。

图 5 面部属性编辑正确率Fig.5 Attribute editing accuracy

为了证明提出方法能够生成高质量的图像,本文将目标属性向量和源属性向量保持一致,重建原图像。表1中列出重建的峰值信噪比[24](PSNR)和结构相似性指数(SSIM)测试结果。受益于引入的3个模块和交替训练策略,本文所提出的架构实现了更好的重建。ATT-GAN和PA-GAN受训练过程的限制,它们的重建能力有限。SA-GAN也获得了较好的重建结果,在峰值信噪比和结构性相似指数上超越了ATT-GAN和PA-GAN。但SA-GAN的模型是针对每个属性特定训练的,有局限性。定量实验和定性实验的结果都表明本文提出的方法能够准确的编辑所需更改的属性和实现细粒度面部属性编辑的有效性。

表 1 面部属性编辑任务中几种方法的重建结果Tab.1 Reconstruction results of different methods

2.4 消融实验

为了验证使用纹理增强模块、注意力图模块、多尺度鉴别器和交替训练策略的有效性,分别评估了删除它们之后的图像编辑准确率和图像生成质量。选择了原始网络框架及无纹理特征增强、无注意力模块、无多尺度鉴别器、取消交替训练策略等4个变体进行消融实验,结果见表2。

表 2 删除关键模块后消融实验结果Tab.2 Results of ablation experiments by deleting key modules

使用正常卷积层替换相应的纹理特征增强和注意力图模块,验证删除2个模块后的编辑效果,以此验证纹理特征增强和注意力模块的作用。属性编辑正确率(attributes editing accuracy,AEA)是目标属性b′和源属性b的海明距离与总属性个数的比值。AEA能够直接体现出网络结构在准确修改面部属性方面的能力。准确率越高,说明设计的网络结构越好。从表2中可以看出,将纹理增强模块和注意力模块分别删除,属性编辑正确率(AEA)随着模块的删除分别下降到89.9%和89.6%,证明了2个模块的有效性和必要性。

证明交替训练策略的必要性和有效性。取消交替训练策略后,通过仅在CelebA数据集上一直训练与原实验相同的次数代替交替训练,评估其重要性。结果表明,与完整的方法相比,不采用交替训练策略会导致属性编辑准确性下降1.2%,峰值信噪比和结构性相似指数也有所下降。说明交替训练策略提高了属性保持能力的鲁棒性,表现出更好的评估分数。

3 结 语

本文提出一种融合纹理增强和注意力图的面部属性编辑方法:1)纹理增强模块和注意力图的引入,使得在量化原始图片和重建图片的结构相似性指标上,本文提出的结构相比现有方法提高3%;2)交替训练策略的提出,使得整个网络在衡量最大值信号和背景噪声之间的峰值信噪比上达到32.85 dB,表明图像质量的失真损失在可接受的范围之内,人眼难以察觉真实图像和伪造图像之间的差异;3)应用能捕获更多细粒度信息和语义场信息的多尺度鉴别器,使得“眼镜”“秃顶”和“无胡须”等3个属性编辑效果相比其他属性效果更佳。在编辑“年轻”和“眉毛”2个属性时效果不理想,这是本文后续需要研究的问题。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!