一种基于正交约束的隐空间多语义学习方法

时间：2024-05-04

周琦量卢育钦

摘要：探索生成对抗网络隐空间的语义信息是当前生成对抗网络图像可控生成方向的研究热点。目前的研究在探索隐空间的语义时往往每次只学习某一个属性对应的语义方向，而这种方式没有考虑不同语义方向之间可能发生纠缠的问题，因此在控制生成图像某一属性变化时会影响到其他属性。为了解决此类问题，提出了一种基于正交约束的多语义学习方法，该方法在同时学习多个语义方向的训练过程中加入正交约束以减少不同语义方向之间的关联性，从而避免了不同语义方向间的纠缠问题。基于大规模生成对抗网络（BigGAN）模型在ImageNet数据集进行了水平平移、垂直平移和亮度等多语义方向的同步学习实验。实验结果表明，提出的方法能有效同时学习隐空间的多个语义方向，实现图像多个属性可控生成，同时能有效地保持不同语义方向之间的独立性。

关键词：图像生成;生成对抗网络;隐空间;可控生成

中图分类号：TP391 文献标识码： A

文章编号：1009-3044（2022）06-0042-04

开放科学（资源服务）标识码（OSID）：

1 概述

在計算机视觉领域中完整而多样的图像数据可以使分类、检索等下游任务的结果更加精确，生成对抗网络作为一种无监督生成模型，因其不依赖任何先验假设以及良好的生成效果而受到了广泛的关注[1-7]，目前生成对抗网络（GANs）在图像合成的质量和多样性方面已经远超于其他生成模型。通常，GANs通过对抗训练使得生成器可以学习从隐空间到图像领域的映射关系。训练完成后，GANs在隐空间随机采样经过生成器能产生接近真实数据的图像。早期关于生成对抗网络的工作[8-14]主要集中在稳定训练过程以及提高生成图像的质量上并已取得了较大进展，但在图像属性可控生成方面的研究相对较少。一些工作初步探索了如何控制图像的属性变化[7，15-18]，Radford等人[7]首次对隐空间中的输入向量进行简单的向量运算实现了图像领域一些连续的语义变化。CGAN[15]通过在生成对抗网络训练的目标函数中加入条件向量作为约束条件来控制生成图像，但它只适用于离散的属性并且需要数据提供标签。StyleGAN[17]通过结合两幅图像的隐向量来控制图像的风格内容，然而它只能调整风格向量改变图像的风格内容不能具体指定控制图像的某些属性。目前，如何通过改变隐向量实现图像变化仍是一个极具挑战性的问题。

找到人类可理解的语义方向是研究GANs隐空间的关键[19-24]，通过将隐向量向某个语义方向移动可以相应地改变生成图像中出现的语义信息。这种控制生成图像的方法可以使图像编辑更加直接，目前关于如何在隐空间中学习有效的语义方向已成为生成对抗网络的一个研究热点。文献[21]从几何学的角度将数据分布视为一个方向性的k维流行分布，将隐向量沿切线平面移动可以控制对应于图像域中可解释的变化。Jahania等人[23]通过生成图像和编辑图像之间的损失函数在隐空间中训练线性的语义方向，通过将隐向量沿着语义方向游走可以控制生成图像，从而实现一些简单的图像转换。Härkönen等人[24]首先通过在生成器前几个传播层进行特征分离，然后对随机采样的隐向量进行主成分分析（PCA）来寻找有意义的方向，但每个方向对应的语义信息需要手工区分。现有的方法在隐空间中学习语义方向通常每次只训练一个属性方向，没有考虑图像变化时会出现多个语义信息同时变化从而导致控制一个属性变化会影响到其他的属性，又或者是采用了同时学习多个语义方向的方法但无法知晓语义方向所控制的属性。为了解决这些问题，本文提出了一种在隐空间中同时学习多个语义方向的方法，通过在多个语义方向同时学习的训练过程中加入正交约束减少不同语义方向之间的关联性，从而实现避免属性纠缠问题。本文的主要工作包括以下几个方面：

（1）提出了一种在GAN的隐空间中同时学习多个语义方向的方法，利用这些语义方向我们可以同时控制生成图像的多个属性。

（2）在多语义方向同时学习过程中加入正交约束，减少了隐空间中学习多个语义方向时不同方向之间的相关性，从而实现在控制生成图像某一属性变化时降低对其他属性的影响。

（3）基于BigGAN[6]模型在ImageNet数据集[25]进行了水平平移、垂直平移和亮度等属性方向的同步学习实验，通过实验验证了本文方法的有效性。

2 本文方法

2.1 生成对抗网络

生成对抗网络是一种无监督的生成模型，其目的是通过对抗训练的方式使生成器可以合成与训练集相似的图像。生成对抗网络主要由生成器[G]和判别器[D]两部分构成，生成器在隐空间中随机采样高斯噪声输出合成图像，判别器负责对接收的图像进行真假判别。在训练过程中，生成器不断优化自身的生成能力以合成相似于训练数据的图像，判别器则是提高自己的鉴别能力，随着时间的推移，两个模型通过对抗训练的方式相互博弈最终达到纳什均衡，此时生成器可以捕捉到真实数据的分布生成逼真的图像骗过判别器，而判别器再也无法区分生成图像真假。整个优化过程实际是先后优化判别器和生成器两个网络的优化目标函数之和，生成对抗网络的优化目标函数为：

[minGmaxDV（D，G）=Ex～Pdata（x）[log（D（x））]+Ez～Pz（z）[log（1-D（G（z）））]] （1）

其中[x]代表来自训练集的真实数据，[z]表示随机噪声，[Pdata（x）]表示真实数据的分布，[Pz（z）]表示随机噪声分布，通过这样一个对抗式的训练，当最终生成器完全捕捉真实数据分布时即[Pdata（x）=Pz（x）]，生成对抗网络达到了其全局最优解。

2.2 隐空间特性

解释生成对抗网络的隐空间对于深入了解其如何学习无监督的数据表示至关重要，对于一个训练好的生成对抗网络，在其隐空间中随机采样一个隐向量，经过生成器便可得到一张与真实数据相近的图像，这表明此时隐向量与图像之间已具有良好的映射关系。DCGAN[7]發现在隐空间中的两个隐向量之间进行线性插值，可以观察到生成图像平滑过度变化到另一个生成图像。此外，对已学习具有图像含义的隐向量进行一些简单的向量运算也能在图像上获得相应的变化，这都表明了GAN的隐空间能捕捉真实图像的重要表征，图像领域的一些语义变化可以通过在隐空间中游走来实现。为了进一步说明改变隐向量对于图像合成上所带来的影响，图1显示了在BigGAN隐空间中将隐向量向随机方向移动所引起合成图像地变化，其结果表明隐向量的随机移动确实会给图像的合成带来了一些平滑的变化，但是这种变化往往在语义上无法解释或者是在变化过程中几个属性之间是相互影响的。本文的目标是在GAN的隐空间中学习可解释的方向，同时在学习多个语义方向时降低它们之间的相关性，这些方向可以进一步被用来独立控制生成图像的一些特定属性。然而由于隐向量高维的特性，它所编码的图像语义也极为多样，因此在隐空间中寻找有意义的方向具有很大的挑战性。

2.3 单个语义方向的学习

为了在GAN的隐空间中发现一个语义方向，本方法首先对随机生成的图像进行目标属性转换，用仅在目标属性上有差异的图像构建我们的训练数据集，在训练过程中利用训练数据图像与沿语义方向移动后生成图像之间的目标函数不断优化以学习目标语义方向，具体操作如下，先根据目标属性和变化的程度对随机生成的图像[G（z）]进行目标属性变换。假设目标属性变换操作表示为[T]，变换的步长表示为[α]，对生成图像[G（z）]目标属性变换后得到目标图像[T（G（z），α）]。例如[T]代表平移操作，将整个图像水平移动，[α]则定义了以像素为单位的移动距离，对生成图像进行若干次目标属性变换则可得到一个仅有水平变化的图像数据集。若一个初始隐向量[z]沿着特定的语义方向[d]移动步长[α]后可以生成与目标图像[T（G（z），α）]相似的图像，则可认为方向向量[d]即为我们期望学习的语义方向。我们通过在训练数据集与沿着语义方向[d]移动[α]后所生成的图像之间建立目标函数来优化方向向量[d]，目标函数的数学公式如下：

[d=argmindEz，α[L（G（z+αd），T（G（z），a））]] （2）

式中我们使用了L2损失作为我们的损失函数[L]，它衡量了[G（z+αd）]和[T（G（z），α）]之间的距离，训练过程中，最小化此目标函数会引导生成图像[G（z+αd）]向目标图像[T（G（z），α）]逼近，它们之间距离为0时则表示两张图像几乎相同，此时的方向向量[d]就可作为我们所要学习的语义方向，通过将隐向量沿学习的方向移动即可控制生成图像根据特定的属性变化，其简单的演示过程如图2所示。

2.4 基于正交约束的多语义方向学习

当存在多个属性时，通过单独学习得到的语义方向之间通常存在纠缠情况，因此在利用其中一个语义方向进行图像属性编辑时，可能会影响其他属性。为了实现更精确的控制，我们期望在同时学习多个语义方向时尽量降低不同属性方向之间的相关性。因此，本文提出在多语义学习过程中加入正交约束，以实现各语义方向之间相互正交。假设d1，d2，......，dn为要学习的多个不同语义方向，T1，T2，......，Tn表示相应的目标属性变换，T1，2，......，n表示对图片进行所有目标属性的联合转换，首先将每个方向向量标准化并排列组合成一个向量矩阵A=[d1，d2，......，dn]，之后在训练过程中学习语义方向时我们通过建立如下的目标函数对方向向量进行优化：

[d1，d2，…，dn=argmind1，d2，…，dnEz，α1，α2，…，αn[L（G（z+α1d1），T1（G（z），α1））+…+L（G（z+αndn），Tn（G（z），αn））+L（G（z+α1d1+…+αndn），T1，2，…，n（G（z），α1，…，αn））+λ（AAT-E）]] （3）

相对于原有的公式（2），我们在联合学习多个语义方向时加入了[l（AAT-E）]作为约束项，[λ]为控制参数决定约束项的影响程度，在训练过程中目标函数的值会不断减小约束项也会随之变小。理想情况下，当[（AAT-E）=0]时，A则会变成一个正交矩阵，矩阵中的每一维向量之间相互正交，即表示我们所学习的各个语义方向之间相互正交，通过本方法可以尽量减少不同属性间的相关性，从而使得我们在利用其中某一个语义方向控制生成图像变化时能减少对其他属性的影响。

3 实验与分析

为了证明本文提出方法的有效性，我们分别进行了多个语义方向学习实验和相关性分析实验。本文基于BigGAN模型在ImageNet数据集上进行了一系列实验来验证有关多个属性的控制和正交约束的有效性。BigGAN是一个条件型生成对抗网络，其生成器需要两个向量作为输入：一个128维的隐向量和一个表示条件代码的one-hot向量。ImageNet是一个大型的视觉数据库，包含来自一千种不同类别的120万张自然图像。

3.1 多个语义方向学习实验

我们预设需要控制的多个目标属性，分别是水平位置、垂直位置和亮度，在实验中，设定初始训练样本数为10000，首先随机初始化三个属性方向向量，并使用公式（3）联合训练，为了获得更好的控制效果，我们不断调试每个属性最合适的<H：＼飞翔打包文件＼电脑2022年第六期打包文件＼7.03xs202206＼Image＼image43.pdf>取值范围，例如，控制生成关于鸟类的图像时，对于水平位置为了让图片中的目标物体尽量保持在图像内，设定的[α]取值为[-60， -40， -20， 0， 20， 40， 60]。图3显示了利用所学习得到的三个语义方向同时控制水平位置、垂直位置和亮度三个属性的图像变化效果。对于每个样本，我们将其隐向量同时沿这三个语义方向移动，隐向量沿语义方向的每一次移动都会导致生成图像变化，当我们同时沿三个方向移动隐向量时，即可以控制生成图像的多个属性。从结果中可以看出，本文方法可以有效同时控制生成图像的多个属性，这也表明在隐空间中成功地学习到了特定的语义方向。

3.2 语义方向的相关性实验

在学习多个属性方向时，由于不同属性方向的训练过程是相互独立的，因此会出现不同语义方向相互纠缠的问题。为了验证本文方法在学习多属性方向时对减少不同属性之间相关性的效果，我们测量了不同語义方向之间的余弦相似度，余弦相似度的值越靠近0表示两个方向之间的相关性越小。在实验中，先通过本方法同时学习水平位置、垂直位置和亮度三个属性方向，再提取其中的每个单独属性方向，测量它们两两方向之间的余弦相似度。比较实验为联合学习多个语义方向时目标函数中未加正交约束所学习得到的语义方向，只需重复上述的实验步骤测量即可，结果如表1所示，表中<H：＼飞翔打包文件＼电脑2022年第六期打包文件＼7.03xs202206＼Image＼image45.pdf>对应水平位置，[d2]对应垂直位置，[d3]对应亮度。可以看到，相较于未添加正交约束所学习的语义方向，加入正交约束所学习到的语义方向之间余弦相似度更小，这表明利用我们的方法可以更加有效减少不同属性方向之间的关联性。

此外，我们还展示了利用加入正交约束时学习单一属性方向所控制生成的图像，从图4可以看出，通过本方法学习的语义方向可以很好地利用其中的单个属性方向控制生成图像，并且不会改变其他属性，这说明我们的方法可以有效地分解不同的属性信息。

4 结论

针对生成对抗网络控制生成图像属性变化时会出现影响其他属性的问题，本文提出一种基于正交约束的多语义并行学习方法。该方法在生成对抗网络隐空间学习多个语义方向时加入正交约束以降低不同属性方向之间的相关性。经过实验验证，本方法可以有效控制生成图像根据特定的多个属性同时变化，同时也能减少不同属性之间的相关性，使得在控制单个属性变化时可以减少对其他属性的影响。未来，我们将会考虑尝试更多复杂的特征变化，并且在更多的数据集上进行实验，以实现更加广泛的应用场景。

参考文献：

[1] I. J. GOODFELLOW， J. POUGET-ABADIE， M. MIRZA， et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems-Volume 2. Cambridge， MA： MIT Press， 2014： 2672-2680.

[2] ARIOVSKY M， CHINTALA S， BOTTOU L. Wasserstein generative adversarial networks[C]//International conference on machine learning. Cambridge， MA： JMLR， 2017： 214-223.

[3] GULRAIANI I， AHMED F， ARJOVSKY M， et al. Improved training of wasserstein GANs[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2017： 5769-5779.

[4] SALIMANS T， GOODFELLOW I， ZAREMBA W， et al. Improved techniques for training gans[J]. Advances in neural information processing systems， 2016， 29： 2234-2242.

[5] KARRAS T， AILA T， LAINE S， et al. Progressive Growing of GANs for Improved Quality， Stability， and Variation[C]//International Conference on Learning Representations， 2018.

[6] BROCK A， DONAHUE J， SIMONYAN K. Large Scale GAN Training for High Fidelity Natural Image Synthesis[C]//International Conference on Learning Representations，2018.

[7] RADFORD A， METZ L， CHINTALA S. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks [EB/OL]. 2015[2022-01-04]. https：//arxiv.org/abs/15 11.06434.

[8] Zhu J Y， KRäh HENBühHL P， SHECHTMAN E， et al. Generative visual manipulation on the natural image manifold[C]//European conference on computer vision. Berlin： Springer， 2016： 597-613.

[9] MA F， AYAZ U， KARAMAN S. Invertibility of convolutional generative networks from partial measurements[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2018： 9651-9660.

[10] BAU D， ZHU J Y， WULFF J， et al. Seeing what a gan cannot generate[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. California： IEEE， 2019： 4502-4511.

[11] GU J， SHEN Y， ZHOU B. Image processing using multi-code gan prior[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. California： IEEE， 2020： 3012-3021.

[12] DUMOULIN V， BELGHAZI I， POOLE B， et al. Adversarially Learned Inference[EB/OL]. 2016[2022-01-04]. https：//arxiv.org/abs/1606.00704.

[13] DONAHUE J， KRAHENBUHL P， DARRELL T. Adversarial feature learning[EB/OL]. 2016[2022-01-04]. https：//arxiv.org/abs/1605.09782.

[14] ZHU J， ZHAO D， ZHOU B， et al. Disentangled Inference for GANs with Latently Invertible Autoencoder[EB/OL]. 2019[2022-01-04]. https：//arxiv.org/abs/1906.08090.

[15] MIRZA M， OSINDERO S. Conditional Generative Adversarial Nets[EB/OL].2014[2022-01-04]， https：//arxiv.org/abs/1411.1784.

[16] CHEN X， DUAN Y， HOUGOOFT R， et al. Infogan： Interpretable representation learning by information maximizing generative adversarial nets[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. MA： MIT Press， 2016： 2180-2188.

[17] KARRAS T， LAINE S， AILA T. A style-based generator architecture for generative adversarial networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. California： IEEE， 2019： 4401-4410.

[18] KARRAS T， LAINE S， AITTALA M， et al. Analyzing and improving the image quality of stylegan[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. California： IEEE， 2020： 8110-8119.

[19] GOETSCHALCKX L， ANDONIAN A， OLIVA A， et al. Ganalyze： Toward visual definitions of cognitive image properties[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. California： IEEE， 2019： 5744-5753.

[20] BAU D， ZHU J Y， STROBELT H， et al. GAN Dissection： Visualizing and Understanding Generative Adversarial Networks[C]//International Conference on Learning Representations，2018.

[21] MöLLENHOFF T， CREMERS D. Flat Metric Minimization with Applications in Generative Modeling[C]//International Conference on Machine Learning. Cambridge， MA： JMLR， 2019： 4626-4635.

[22] SHEN Y， ZHOU B. Closed-form factorization of latent semantics in gans[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. California： IEEE， 2021： 1532-1540.

[23] JAHANIAN A， CHAI L， ISOLA P. On the" steerability" of generative adversarial networks[C]//International Conference on Learning Representations， 2020.

[24] PLUMERAULT A， LE BORGNE H， HUDELOT C. Controlling generative models with continuous factors of variations[C]//International Conference on Learning Representations，2020.

[25] RUSSAKOVSKY O， DENG J， SU H， et al. Imagenet large scale visual recognition challenge[J]. International journal of computer vision， 2015， 115（3）：211-252.

【通聯编辑：梁书】