基于积神经网络的图像着色方法研究

时间：2024-05-04

张政姚楠方利

摘要：图像着色是对灰度图像进行彩色化的过程。随着深度学习技术的发展，卷积神经网络的应用在图像处理算法中取得了巨大的成功。对于灰度图像着色问题，由于同一个实体可以对应不同的颜色，这种“实体-颜色”不确定性，容易导致语境混淆和边缘色彩混合，并且网络的训练不易收敛。为了解决这个问题，本文提出一种全新的基于卷积神经网络并结合图像语义分割的自动着色方法，结合图像的局部特征和深层语义特征用于指导着色，并采用联合双边过滤方法增强着色效果，实现了端到端的处理。实验结果表明，本文方法能够实现很好的着色效果，达到了较先进的性能。

关键词：图像着色；语义分割；卷积神经网络；联合双边过滤

中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2019）06-0198-03

1 相关工作

灰度图像彩色化在历史照片和视频处理、文艺品修复以及医学影像方面有广泛的应用前景。传统的图像着色算法主要分为两种类型，基于局部颜色扩散[1]的方法，基于参考图的[2]方法，这两种传统方法都需要用户的参与才能完成。其中，前者需要用户指定整张图片的颜色，并且在目标图片上标注一定数量的彩色筆刷作为着色的参考依据，再扩展着色。这类方法的优点是着色效果较好，但是缺点在于需要处理复杂的图像纹理和用户干涉；后者在着色过程中尽可能消除用户干涉，但是这类方法需要一张彩色图片作为参考图来传递颜色信息，得到跟参考图像类似的着色效果。但是要找到一张合适的参考图并不容易。

随着深度学习技术的发展，卷积神经网络用来处理图像着色和分割已经成为了一种趋势。最近的着色算法[3][7][9]都采用神经网络来提取灰色图像的语义特征，并参考图像的语义特征进行着色。如Iizuka等人[4]提出利用卷积神经网络结合图像的全局特征和局部特征进行着色，对于户外景观照片取得了令人满意的结果； Cheng 等人[5]提出一种通过卷积神经网络对图像提取高层次特征进行图像自动着色的算法，同时结合双边过滤来提升效果；另外Larsson 等人[6]提出利用深度网络结合图像的底层细节特征和高层语义特征，实现图像的自动着色。但是，当灰度图片包涵复杂场景和实体对象时，往往经典算法着色效果不佳，如Iizuka的方法，容易产生语境混淆和边缘色彩混合的现象，因为往往一个实体可以有不同颜色，比如背包可以是黑色也可以是红色，如图1所示。

针对这个问题，本文提出一种全新的基于卷积神经网络并结合图像语义分割的自动着色方法，设计双路卷积神经网络，分别用于提取图像底层特征和深层语义特征用于指导着色，采用联合双边过滤方法增强着色效果。并在PASCAL VOC 2012数据集上进行验证，结果表明本文方法达到了较先进的效果。

2 结合语义分割的图像着色网络

为了结合低级特征和深层语义特征指导图像自动着色，本文设计了如图2的网络结构：

网络的输入是灰度图片，如图所示，首先经过一系列的卷积操作，提取图像的低级特征。在每次卷积运算之后，会生成相应的特征图，这里本文使用步长位2的卷积运算，使得每次卷积操作之后特征图分辨率缩小为原来的二分之一。四次卷积运算之后，能够得到有效的特征图。然后将网络结合语义分割，用图像的语义类别标签作为监督信息，指导网络训练并提取图像的深层语义特征，完成分割之后再结合着色网络进行着色。最后结合分割的结果和原始的绘图图片生成彩色图片，并采用联合双边过滤来增强着色效果。

2.1 结合语义分割的损失函数

本文采用[CIELab]颜色空间处理着色，因为Lab空间只需要学习a和b两个通道信息。高为H宽为W的亮度通道L定义由输入 [X∈RH×W×1]和输出[Y∈RH×W×2]来表示a，b两个通道。着色问题的本质是要学习一个函数映射关系：[f：X→Y]，这里本文参考Richard Zhang等人[7]的方法，本文将颜色ab分为Q=313，这里Q是具体的ab取值的数量。图2的网络结构给出[Z=GX]为可能的颜色概率分布[Z∈0，1H×W×Q] 。给定真实图片作为参考，一个结合分类再平衡的多尺度交叉熵损失函数L可以定义为：

2.2 语义特征提取和双边过滤

为了提取图像的深层语义特征，本文在网络结构中结合了语义分割，并使用图像的分类标签作为监督信息，指导着色。如图2所示，在四层卷积之后，语义分割网络用于提取深层语义特征，结合着色网络共同生产彩色图片。两部分网络都采用加权交叉熵损失函数训练，Iizuka等人[5]的论文里，这种分类标签作为监督信息提取的特征叫作全局特征，本文主要是指语义特征。

此外，本文使用了联合双边过滤来提升着色效果，因为通常使用点估计或者是平均分布都会产生不饱和的效果。本文在Richard Zhang等人[7]的基础上尝试采用双边过滤来解决这个问题，它结合了初始特征图上的空间过滤核和灰度图片的范围过滤核来评估颜色值。对于一个像素p，在颜色通道ab的过滤结果是：

[Jcp=1kpq∈ΩIcqfp-qgIp-Iq]

这里f是空间类似于高斯核的空间过滤核，g是以灰度图片[I]在p处的强度值为中心的过滤核，[Ω]是f的空间支持，[kp]是归一化向量。采用这个方法，边缘得以保持，并且使得着色更饱满更自然。

3 实验结果及分析

3.1 实验环境和设置

本文采用PASCAL VOC 2012作为数据集，训练网络并且验证着色结果。而且由于PASCAL VOC 2012数据集是一个常用的语义分割数据集，它包含20个对象类别（车，人等），本文实验基于17125张图片训练，1440张图片用于测试和验证。

本文训练网络时采用联合语义分割和着色损失函数来训练，并设置权重[αc：αs=1：100]，因为这样两个损失在量级上基本相等。实验基于的GPU是NVIDIA Tesla K10。

3.2 着色结果展示

本文着色算法得到的结果如下图3如所示，可以看出，本文方法的着色结果语境混淆现象基本消失，并且实体边缘着色效果也较好，对实体的着色合理并且减少了语境混淆和边缘混合的现象。

3.3 实验评估

为进一步评估实验结果，对于双边联合过滤采样，本文给出一个大概的在三种情况下的峰值信噪比PSNR对比结果，分别是没有语义分割和JBF采样、仅有语义分割以及同时进行分割和JBF采样。其中PSNR由均方差MSE得到，定义如下：

从上表实验结果看出，三种不同设置的方法得到的PSNR值基本相等，说明联合双边上采样对于着色图片的质量没有影响，但是却增加了着色结果的自然度和丰富度，并且有助于保持图像实体的边界色彩信息，是可行的。

3.4 用户研究

为进一步评估和验证本文算法的着色效果，我们邀请了50位年龄在20岁到30岁的用户参加用户研究，并随机挑选了原始灰度圖片作为输入，和经典算法Iizuka等人[4]、Larsson等人[6]的着色结果进行对比，进行了用户测试实验。

4 结论

灰度图像彩色化有很大的应用价值和发展前景，在文物修复和医学影像应用方面有很大的前景。本文在基于深度学习的经典着色方法基础上，提出了一种基于卷积神经网络并结合图像深层语义特征的自动着色方法，它增加了图像分割网络，提取图像的深层语义特征用于指导图像着色，并结合联合双边过滤上采样，对着色结果进行平滑处理，提升了灰度实体着色的准确度，减少了语境混淆和边缘色彩混合的现象。实验结果表明，本文方法在对灰度图像进行自动着色时有较好的效果。

参考文献：

[1] Welsh T， Ashikhmin M， Mueller K. Transferring color to greyscale images[J]. Acm Transactions on Graphics，2002，21（3）：277-280.

[2] Levin A， Lischinski D， Weiss Y. Colorization using optimization[J]. Acm Transactions on Graphics，2004，23（3）：686-691.

[3] Deshpande A， Rock J， Forsyth D. Learning Large-Scale Automatic Image Colorization[C]. IEEE International.

Conference on Computer Vision. IEEE Computer Society，2015：567-575.

[4] Iizuka S， Simoserra E， Ishikawa H. Let there be color！： joint end-to-end learning of global and local image priors for automatic image colorization with simultaneous classification[J]. Acm Transactions on Graphics，2016，35（4）：1-11.

[5] Cheng， Z， Yang， Q， Sheng， B. Deep colorization[C].Proceedings of the IEEE International Conference on Computer Vision，2015：415-423.

[6] Larsson G， Maire M， Shakhnarovich G. Learning Representations for Automatic Colorization[J]. 2016：577-593.

[7] Evan Shelhamer， Jonathan Long， and Trevor Darrell， Fully Convolutional Networks for Semantic Segmentation， IEEE Transactions on pattern analysis and machine intelligence，2017，39（4）.

[8] Zhuo Su， Xiangguo Liang ， Jiaming Guo ，et al. An edge-refined vectorized deep colorization model for grayscale-to-color images. Neurocomputing，2018（311）：305-315.

【通联编辑：唐一东】