当前位置:首页 期刊杂志

基于CycleGAN的图像风格迁移

时间:2024-05-04

马赫 张涛 卢涵宇

摘要:随着深度学习的不断发展与应用,图像到图像的风格迁移成了计算机视觉领域的研究热点之一。该文运用Cycle-GAN网络对图像进行风格迁移,能够在无匹配的源图像和风格图像的情况下进行。使得CycleGAN网络中的生成器由编码器、转换器及解码器组成,能起到保留原始图像特征和转换图像数据的作用。该文尝试通过Inception与ResNet进行结合,并与原CycleGAN网络进行对比训练,结果表明,修改后的CycleGAN能够比CycleGAN训练后得到更加逼真的图像,具有更佳的视觉效果。

关键词:CycleGAN;图像风格迁移;转换器;ResNet模块;深度学习

中图分类号:TP183 文献标识码:A

文章编号:1009-3044(2020)27-0018-03

开放科学(资源服务)标识码(OSID):

随着计算机技术和人工智能技术的发展,深度学习应用越来越广,其中计算机图形学与深度学习的结合,产生了许多优秀的算法,并在后来的图像风格迁移、图像分割、自然语言生成等诸多领域得到广泛应用[1-4]。

随着GAN网络的应用也产生了一系列如难以收敛、训练不稳定、模型不可控等问题,促使了大量学者对该类问题的研究,如MARTIN等[5]针对GAN网络训练不稳定的问题,提出了WGAN(Wasserstein GAN),该方法使用Earth-Mover距离代替JS散度作为判别器D的目标函数,使得训练稳定性得到有效提升。Zhu等[6]人为解决GAN网络的一些限制,提出了循环一致性对抗网络(CycleGAN)网络,该网络能够根据不成对的数据集训练出能够满足不同风格的图像的转换;随后,刘哲良等[7]针对采用CycleGAN网络进行图像风格迁移中,表现出泛化能力差等问题,提出了一种FCN-CycleGAN的图像风格迁移方法,结论证明该方的网络在稳定性法具有较好的表现能力。杜振龙等[8]针对GAN网络进行图像风格迁移中收到数据集限制的问题,对CycleGAN进行了改进,通过利用DenseNet来代替Cycle-CAN网络中的ResNet,改进、收敛速度及对减少数据集的限制等方面都有很大进步。

本文运用CycleGAN网络对图像进行风格迁移,通过Incep-tion与ResNet进行结合,并与原CycleGAN网络进行对比训练,结果表明,修改后的CycleGAN得到更加逼真的图像,具有更佳的视觉效果。

1 图像风格转换

图像风格转换(又称作图像风格遷移)是深度学习领域内一中新兴的技术。由于图像风格概念非常抽象,计算机对图像的处理过程中仅是一些像素点,不能像人类一样对不同风格进行分辨,所以人们期望通过对图像进行风格特征的提取来解决这一问题。随着深度学习的发展,现已可以使用深度神经网络来学习图像里面的抽象风格特征。

Gatys等人开启了深度学习方法应用于图像风格迁移的先例,其论文中采用卷积神经网络对图像进行风格提取,虽然相对于传统非参方法来说能够对低层信息进行提取,但是对于高层的抽象特征而言并没有取得良好的效果。直到CAN网络的引入,该类问题得到很大的改进,该类方法能够学习到大量样本之间的风格及其特征。比如实际应用中将黑白图像转为对应的彩色图像、苹果与橘子之间的转换等问题,需要对大量样本进行训练提取其中的风格,然后完成不同图像风格的转换。

2 网络结构

CycleCAN模型是从GAN网络发展而来,其原理是基于对偶思想的图像风格转换,该方法不需要对成对的数据集进行训练,就能完成对风格的迁移。

2.1 GAN

GAN由两个相互竞争的神经网络组成:一个是神经网络是生成器网络( Generator,G),用于生成样本图像;另一个神经网络是判别器网络( Discriminator,D),用于区分真实样本和生成样本。CAN网络其核心思想来源于博弈论的纳什均衡,该网络由生成器G和判别器D组成,其中G网络是通过将一个噪声矢量包装为与真实数据高度相似的样本,D网络是对输入的数据进行判断其来自真实样本还是通过G网络所生成的假数据;它们之间是一个动态的过程。图1展示了其基本原理,图中X表示是真实图片的概率。GAN网络的优化问题其实是一个极小一极大化问题,即先将生成器G进行固定,优化判别器D,使得D的判别准确率最大化;然后固定判别器D,优化生成器G,使得判别器准确率最小;当两者相等时,达到全局最优。其目标函数如公式(1)所示:

2.2 Cycle GAN

CycleCAN使用两个生成器与两个判别器网络来实现对两个图片X与Y之间的相互映射,其原理图如图2所示。本质上是两个镜像对称的GAN所构成的环形网络。模型设计了两对生成网络和判别网络,通过训练后可以将不同的图像之间进行转换,但是在这个过程中要求循环的一致性,故而在其中设置了一个循环损失函数(Cyclic loss)。CycleGAN模型有两个生成网络和两个判别网络,共4个生成损失函数。

上图中表示X通过映射G实现X中的图片x到Y中图片G(x)的映射关系,对应生成判别器为Dy,由于CycleGAN是基于对偶思想的原理,故而Y需要通过一个映射F实现Y中的图片y映射到X中的F(y)的映射关系,对应生成判别器为Dx;如果G(F(x))≈x和F(G(y))≈y则CycleGAN模型的转换过程就完成。

2.3 CycleGAN的改进

原CycleGAN生成器中采用残差网络,通过全卷积连接,由编码器、转换器和解码器组成。残差网络在图像识别领域尤其是目标检测方面具有很大的优势,但是更大的优势需要在很深的网络结构中才能够展现,而传统的CycleGAN网络其生成器网络对于大小为256X256的图像采用的是9层的残差模块,并未有很深的网络。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!