基于对抗网络的彩色图像置乱方法研究

时间：2024-05-04

鲍震杰，薛茹

(西藏民族大学信息工程学院，陕西咸阳 712082)

1 引言

网络技术的迅速发展，促使图像、声音等能直观表达信息的多媒体传输需求越来越高，而这些图像、声音等多媒体可能会涉及安全、机密、隐私等方面问题，如何确保这些信息安全、准确的传送给接受方，是网络安全研究的基本内容。置图像乱通过将一幅图像的像素位置、颜色等进行随机分布，隐藏图像部分原有的信息，转化为无意义的图像，从而使图像传输过程的安全性提高，因此广泛被应用在图像信息隐藏和图像加密中。

作为信息隐藏图像预处理的重要手段，图像置乱的目的是将图像像素值与像素位置打乱，使人以为是位置随机分布的图像或是像素随机分布的图像。近些年来，研究者们从多个角度实现了图像置乱。Hou C等[1]提出了一种通过交换电路复杂度较低的量子比特实现的基于离散Baker映射的量子图像置乱算法，并说明该置乱算法有周期长的特点。Zubair等[2]提出了基于二维外极权元胞自动机的图像置乱方法。Xiong等[3]提出了非负基整数到相应基整数的变换算法，并针对三个参数的不同值，计算了局部负基变换的最小变换周期和逆变换算法。数值实验表明，局部负基变换是一种有效的置乱变换。随着深度学习的发展，用深度学习的方法实现图像置乱为传统领域注入了新的活力。Masayuki等[4]提出了可学习的图像加密算法，对图像进行加密，使人们无法理解图像。Koki等[5]将可学习加密算法扩充，加入了分块置乱密钥，并引入自适应网络来识别置乱图像。

Arnold变换是一种被广泛使用的图像置乱方法[6]-[8]，然而其置乱后图像无法改变像素值统计分布，与原始图直方图相似度高，易受统计攻击，本文设计改进对抗网络，实现彩色图像的自动化置乱，提升了视觉置乱效果，并且降低了置乱后图像与原图直方图的相似度。

2 对抗网络

2.1 生成对抗网络

生成对抗网络(Generative adversarial nets，简称GAN)是Ian J. Goodfellow[9]等于2014年提出通过训练生成模型(Generative Model)捕获数据的分布，判别模型(Discriminator Model)估计训练数据样本概率，利用生成模型和判别模型的对抗估计生成模型。生成对抗网络用从目标域和生成域图像的分布取样，判别使两个图像域接近的方法，代替了传统使用最大似然估计的方法来拟合估计目标图像域分布。

为了使建立的对抗模型容易应用，生成器G和判别器D都是多层感知器。根据真实数据(正样本)x学习生成器的生成图像分布pdata，输入噪声变量z(负样本)的先验概率为pz，将噪声z映射到数据空间表示为G(z)，对真实数据的分布进行拟合，即使pdata和pz足够接近，G的目的是使它们足够像，那么D就无法将来自于G的数据鉴别出来。输入单个标量图的多层感知器D(x)表示来自真实数据x的概率，为了更好的使生成器G伪造的数据更接近真实分布，训练D使其能最大程度正确的判别真实数据与伪造数据，同时训练G以最小化伪造概率log(1-D(G(z)))，D的目的是正确判断出G(z)，即D(x)足够大同时D(G(z))足够小。D和G使用损失价值函数V(G，D)，进行极大极小博弈：

+Ex～G[log(1-D(x))]

(1)

式(1)中，Ex～data表示目标域图像分布期望，Ex～G表示生成图像期望分布。

使用交替随机下降梯度SGD可以分两个阶段找到生成器G和鉴别器D：(a) 训练辩别器以区分生成器生成的真样本和假样本。(b)训练生成器，以便用生成的样本欺骗过辨别器。实际中上式可能无法为G提供足够的梯度使其伪造的更真实。在训练的开始，当G值较低时，D可以高置信度地剔除样本。在这种情况下，对数log(1-D(G(z)))饱和，训练G使log(1-D(G(z)))最大，而不是训练G使log(D(G(z)))最小。

2.2 对抗自动编码器

Makhzani A等[10]提出了对抗自动编码器(Adversarial Autoencoders)，将生成对抗网络应用在自动编码器上。在一个自动编码器中加入了匹配自动编码器潜在表现的聚合后验分布，与任意的先验分布的对抗损失训练。训练结果是编码器会将数据分布转化为先验分布，解码器学习深度生成模型，将图像还原。假设x为输入，z为自动编码器的隐含向量，p(z)是z目标存在的先验分布，q(z|x)是一个编码分布，p(z|x)是解码分布。pd(x)是数据分布，p(x)是模型分布，编码函数q(z|x)决定在自动编码器的隐含向量聚合后验分布q(z)。如式(2)所示

(2)

对抗自动编码器目的是将聚合后验分布q(z)匹配到任意先验分布p(z)中。自动编码器的目的在于减小重塑误差。生成对抗网络的生成器就是自动编码器q(z|x)的编码器。该编码器确认聚合后验分布可以骗过对抗生成网络的判别器，认为隐含向量q(z)来自先验分布p(z)。该生成对抗网络和自动编码器一起训练，减小重塑误差和生成器骗过判别器，判别器分辨是否来自先验分布的对抗损失，解码器则将先验分布p(z)投射到数据分布中。

3 对抗自动彩色图像置乱网络

本文通过改进对抗网络，设计编码网络—解码网络的结构学习图像置乱过程，将彩色图像经过编码网络生成均匀分布像素的随机图像，用图像分块判别的辨别网络鉴别生成的图像是否是均匀分布噪声，通过解码网络重塑原图像。具体框架如图1所示。

对抗自动图像置乱网络的损失函数与原始的对抗自动编码器相像并因为任务特殊性，原始对抗自动编码器的网络结构与损失函数并不能适用，本文方法在原始对抗自动编码器的基础上构建编码网络—解码网络和判别网络结构。在损失函数上，将对抗损失的负对数似然改为最小二乘损失[11]，并对本方法的三个损失函数分别交替优化。

定义x是原始图像，y是像素均匀分布图像，x～pdata(x)是原始图像x所在的分布，y～pdata(y)是均匀分布。编码网络G，解码网络F和判别网络D，根据图片x经过一对编码网络后能复原的目标，本文方法提出编解码损失，如式(3)所示

L(F，G)=‖F(G(x))-x‖2

(3)

Arjovsky等[12]指出生成对抗网络使用JS散度来衡量生成图像域和目标图像域间距离的缺陷，及因此造成生成对抗网络模型训练易崩塌，提出用Wasserstein距离替代JS散度。据此，本文方法生成对抗网络中的对抗损失改进为式(4)

图1 对抗自动彩色图像置乱网络的结构

L(F，G，D)=Ex～pdata(x)[(1-D(G(x)))2]

+Ey～pdata(y)[(D(y)-0)2]

(4)

本文方法的损失函数由自动编码器的编解码损失和对抗网络的对抗损失组成。其中对抗损失的目标函数为式(5)所示

(5)

在实际操作中，编码网络和解码网络的对抗损失函数为式(6)所示

Ladv(F，G)=Ex～pdata(x)[(1-D(G(x)))2]

(6)

编码网络和解码网络的对抗损失函数的目标函数如式(7)所示

(7)

判别网络的对抗损失函数为式(8)所示

Ladv(D)=Ex～pdata(x)[(1-D(G(x)))2]

+Ey～pdata(y)[(D(y)-0)2]

(8)

判别网络的对抗损失函数的目标函数为式(9)所示

(9)

自动编码器的编解码损失的目标函数为式(10)所示

(10)

本文使用梯度下降法交替减小式(3)，式(6)和式(8)所表示的损失函数计算出的损失值并进行相应模型参数优化。如，对于式(3)，θj是编码网络G或解码网络F的参数θ在第jth迭代次数时的值，α是学习率，∨J(θj)是经过损失函数计算损失值传给参数θj的梯度。那么，式(3)的梯度下降和相应模型参数优化的过程可以表示为式(11)

(11)

特别地，对于式(6)编码网络和解码网络的对抗损失优化时，判别网络的参数保持不变。

图像置乱和复原都可以用提取图像特征(编码)，生成目标图像(解码)的过程模拟。因此本文方法网络结构中的编码网络和解码网络都是由编码部分和解码部分构成，而编码网络与解码网络构成了自动编码器。根据图像输入输出分辨率大小都为，本文神经网络的结构借鉴了CycleGAN模型[13]的神经网络结构，使用改进的Johnson等[14]提出的生成模型作为本文方法的编码网络和解码网络。其中InstanceNormalization为Dmitry等[15]提出的神经网络层间数据输入标准化方法。本文编码网络和解码网络的结构都如图2所示。本文编码网络和解码网络的编码部分由三个步长为2，卷积核大小为3*3的卷积层，每个卷积层后跟着一个InstanceNormalization操作和一个Relu激活函数实现。而解码部分则通过两次上采样-零填充-卷积核3*3，步长为1的卷积操作-InstanceNormalization操作-Relu激活函数和一次零填充-卷积核7*7，步长为1的卷积操作-Tanh激活函数构成，在编码部分与解码部分中通过了9个残差块的操作，残差块结构如图3所示。

根据图像置乱的图像像素值分布均匀要求，本文方法的判别网络使用Isola等[16]提出的patchGAN的判别网络，判别网络有16×16大小的实际输出，其中每一个数值输出都具有70×70的感受视野，相当于对图像分块判别，更好地判别图像像素值是否均匀随机分布。判别网络的具体结构为图4所示。本文判别网络先经过1个卷积核4*4，步长为2的卷积层后接一个LeakyRelu激活函数，再经过三个卷积核4*4，步长为2的卷积层后接一个InstanceNormalization操作-一个LeakyRelu激活函数，最后经过一个卷积核3*3，步长为1的卷积层输出判别结果。

图2 编码网络和解码网络结构图

图3 残差块结构图

图4 判别网络结构图

4 实验结果与分析

4.1 实验环境

实验中选用分辨率为256×256的彩色图像，将图像像素值映射在[0，1]范围内，并对其使用改进的对抗自动彩色图像置乱网络进行置乱。对抗自动彩色图像置乱网络的参数优化器选择Adam，初始学习率为0.0002。实验在windows10操作系统，GPU NVIDA RTX2070环境下运行。

4.2 模型收敛性

使用本文方法对彩色Lena图像进行图像置乱，并记录模型式(3)、式(6)和式(8)表示的三个损失函数的损失值随着迭代次数的变化，绘制损失曲线。其中，对于判别网络的对抗损失，为了数值相对平衡，本文根据式(12)计算判别网络的平均对抗损失来绘制损失曲线。

Lmeanadv(D)=

(12)

从图5、图6与图7可以看出，大约经历16200次迭代后，下降学习率至原来的一半，判别网络的平均对抗损失与编码网络和解码网络的对抗损失值都稳定在0.25左右，这说明判别网络对于编码网络生成的置乱图像有一定几率判别不出是否为来自像素均匀分布域，而编解码损失则下降稳定至0.0001以下，及解码后图像与原始图像的均方误差值(按比例缩小后)在0.0001之内，说明经过本文方法的置乱，解码后的图像几乎和原图像一致，本文模型在训练中具有一定的稳定收敛性。

图5 判别网络的平均对抗损失

图6 编码网络和解码网络的对抗损失

图7 编解码损失

4.3 实验结果

本文选择了六幅不同的彩色图片(图8第一列和图8第四列)，采用对抗自动彩色图像置乱网络的编码网络部分置乱(图8第二列和第五列)，然后用解码网络部分复原图像(图8第三列和第六列)。

从图8可以看出对抗自动彩色图像置乱网络对不同图像内容的图像都可以达到置乱效果，还原后的图像能恢复原图像的色彩、纹理等基本特征，具有较强的适应性。

图8 对抗自动彩色图像置乱网络的图像置乱效果

对于同一张256×256像素大小的彩色图像，本文的方法与传统的Arnold，Logistic图像置乱的方法进行比较。Arnold置乱使用文献[17]方法分别在彩色图像三个通道对图像像素位置进行置乱，然后在迭代448次后进行Arnold变换复原。Logistic图像混沌置乱中混沌映射产生值在(-1，1)区间的混沌序列，然后映射在[0，255]整数数列上，最后与原始图像像素逐位异或。置乱后效果如图9所示。图9第一行为Arnold变换后置乱与恢复的图像。图9第二行为Logistic混沌置乱后与还原后的图像。图9第三行为对抗自动彩色图像置乱网络的编码网络编码与解码网络解码后的图像。

图9 置乱效果比较

从图9可以看出Arnold变换后图像隐约可以看到规则的纹理，像素值分布不均匀；Logistic混沌置乱后图像像素点的位置分布不均匀，而本文提出的置乱方法像素点位置和颜色分布更为均匀，比Arnold变换和Logistic混沌置乱的置乱效果更好。

图10第二、三、四、五列分别为原图、Arnold变换后置乱图像、Logistic混沌置乱后图像、对抗自动彩色置乱网络置乱后图像在RGB三个颜色分量上的灰度直方图，灰度直方图的横坐标为像素值，纵坐标为像素值的个数。

对以上灰度直方图进行比较，从图10中看出，Arnold变换并没有改变图像的统计特性，而Logistic混沌置乱和本文方法都改变了图像的统计特性。在原图像素值统计位置相同处，Logistic混沌置乱后图像灰度直方图与原图像灰度直方图同时出现了两个波峰。而改进后的对抗自动置乱网络灰度直方图全图只存在一个波峰，无原始图像特征。

采用文献[18]提出的置乱图像与原始图像直方图相似度为图像置乱程度的评判标准。设置乱图像与原始图像的直方图为h1(x)和h2(x)，b为像素点的值，取值范围为{0，1，…，G-1}，则直方图相似度的定义为式(13)。

(13)

置乱图像与原始图像直方图的相似度越大，则两幅图像相似度就越高，置乱度越低。对本文提出的方法与Arnold变换，Logistic混沌置乱三种方法得到的置乱图像的直方图与原图的直方图计算相似度进行比较，结果如表1所示。

图10 原图与三种方法置乱后的图像在R，G，B三通道的灰度直方图

表1 直方图的相似度比较

由表1的数据可以看到，Arnold变换后置乱图像和原图灰度直方图并没有改变。Logistic混沌置乱后，置乱图像的灰度直方图与原图直方图相似度减小，本文提出的方法置乱图像直方图与原图直方图的相似度减小，在R和B通道比Logistic混沌置乱分别减小0.0448和0.1071，在G通道比Logistic混沌置乱增大了0.0175。在R和B通道，本文方法与原图直方图相似度最低，在G通道，本文方法比Logistic混沌置乱方法的置乱效果稍差，但基本相差无几。

巴氏距离衡量两个直方图像素概率分布间的相似度，巴氏距离越大，直方图相似度越低。根据巴氏距离的式(14)

(14)

将置乱后的图片与原图像直方图的巴氏距离进行对比，结果如表2所示。

表2 与原图直方图的巴氏距离

从表2可以看出，Arnold变换后置乱图像与原图直方图的巴氏距离为0，Logistic混沌置乱后图像与原图像直方图的巴氏距离增大。而在B和R通道，本文方法比Logistic混沌置乱后图像直方图与原始图像直方图巴氏距离分别增大了0.1011和0.441。在G通道，本文方法比Logistic混沌置乱后图像直方图与原始图像直方图巴氏距离减小了0.073。

对于Arnold变换，Logistic混沌置乱方法和本文方法图像置乱后的图像效果，从直观上看，Arnold变换与Logistic混沌置乱方法都有视觉上的可觉察性，而本文方法隐蔽性最好。从置乱后图像与原始图像直方图的相似度上看，本文方法比Arnold变换与Logistic混沌置乱方法，相似度更低，置乱效果更好。

5 结论

本文针对图像置乱将图像转化为人们无法识别的图像目的，分析对抗网络的改进方向，设计了对抗自动彩色图像置乱网络。对抗自动彩色图像置乱网络使用编码网络和解码网络的组合模拟图像置乱和复原过程，并使用patchGAN判别网络，判别图像像素值是否分布均匀。在图像置乱的实验上，首先本文方法在不同场景不同主体的图像上测试，都具有良好的置乱效果。其次，将本文方法与Arnold变换，Logisitic混沌置乱算法进行对比，得到了与原图直方图相似度更低的置乱图像并且置乱图像在视觉上的置乱性最好。而本文方法在置乱图像与像素均匀分布图像的相似度上还有很大的提升空间，未来可以针对如何使对抗自动彩色置乱网络编码后置乱图像的像素值分布更为均匀的问题进行研究和改进。