基于多孔卷积神经网络的图像深度估计模型

时间：2024-05-04

廖斌李浩文

摘要：针对在传统机器学习方法下单幅图像深度估计效果差、深度值获取不准确的问题，提出了一种基于多孔卷积神经网络（ACNN）的深度估计模型。首先，利用卷积神经网络（CNN）逐层提取原始图像的特征图;其次，利用多孔卷积结构，将原始图像中的空间信息与提取到的底层图像特征相互融合，得到初始深度图;最后，将初始深度图送入条件随机场（CRF），联合图像的像素空间位置、灰度及其梯度信息对所得深度图进行优化处理，得到最终深度图。在客观数据集上完成了模型可用性验证及误差估计，实验结果表明，该算法获得了更低的误差值和更高的准确率，均方根误差（RMSE）比基于机器学习的算法平均降低了30.86%，而准确率比基于深度学习的算法提高了14.5%，所提算法在误差数据和视觉效果方面都有较大提升，表明该模型能够在图像深度估计中获得更好的效果。

关键词：多孔卷积;卷积神经网络;条件随机场;深度估计;深度学习

中图分类号： TP391.413

文献标志码：A

Abstract： Focusing on the issues of poor depth estimation and inaccurate depth value acquisition under traditional machine learning methods， a depth estimation model based on Atrous Convolutional Neural Network （ACNN） was proposed. Firstly， the feature map of original image was extracted layer by layer using Convolutional Neural Network （CNN）. Secondly， with the atrous convolution structure， the spatial information in original image and the extracted feature map were fused to obtain initial depth map. Finally， the Conditional Random Field （CRF） with combining three constraints， pixel spatial position， grayscale and gradient information were used to optimize initial depth map and obtain final depth map. The model usability verification and error estimation were completed on objective data set. The experimental results show that the proposed algorithm obtains lower error value and higher accuracy. The Root Mean Square Error （RMS） is averagely reduced by 30.86% compared with machine learning based algorithm， and the accuracy is improved by 14.5% compared with deep learning based algorithm. The proposed algorithm has a significant improvement in error reduction and visual effect， indicating that the model can obtain better results in image depth estimation.

Key words： atrous convolution; Convolutional Neural Network （CNN）; Conditional Random Field （CRF）; depth estimation; deep learning

0 引言

圖像中包含的深度信息能够广泛运用于与图像处理相关的计算机视觉应用场景，在现实生活中具有十分重要的意义，提取图像中的深度信息有利于在三维空间上帮助计算机理解现实场景，而不仅仅是在二维平面的图像维度上进行感知。在此之前，已经有许多科研人员对单幅图像的深度估计及其应用进行了研究[1-2]，包括目标检测[3]、目标跟踪[4]、自动驾驶[5]等技术的实现，但是存在准确度较低的问题。能够准确地获取图像的深度信息，既是从二维平面理解三维空间的必要条件，也是未来计算机视觉技术发展的重要基础[6-7]。

受Chen等[8]对图像语义分割的相关研究的启发，本文将多孔卷积运算引入卷积神经网络（Convolutional Neural Network， CNN）[9-10]，构建了多孔卷积神经网络（Atrous Convolutional Neural Network， ACNN）模型。该模型能够在底层特征的基础上，加入原始图像中的空间位置信息，使深度图中包含更多的细节特征。在求解网络参数的过程中，本文引入相对熵近似计算，降低了计算复杂度。在条件随机场中加入三个高斯项，分别从像素的位置、灰度以及梯度三个方面对深度图在像素级别上进行优化，从而得到了更好的估计结果。在已有的图像深度估计的方法[11-15]中，与Karsch等[13]

引用至文献10之后，就引用了文献13、15，文献11、12、14未引用，这不符合规范，需按照顺序进行引用。鉴于调整顺序修改工作量较大（因后面的图形、表格中引用了文献13、15），所以此处的修改，建议增加文献11、12、14的引用文字（适当增加几句即可），这样就符合引用规范了。

提出的基于机器学习的方法以及Liu等[15]提出的基于深度学习的方法相比，本文的方法在误差分析中获得了与图像真实深度值相差最小的误差值和最高的准确率，并且在视觉观察中更接近于图像真实深度图给出的效果。

1 相关工作

目前已有的深度信息获取方法主要有两种：一种是利用硬件设备直接获取，如微软公司的Kinect相机能提供室内小范围场景的深度信息数据，激光测距仪可以提供室外场景的深度数据，但是其价格较为昂贵。

另一种是利用对同一场景拍摄的单幅或者多幅图像进行深度估计。在已有的图像深度估计方法中，基于深度线索的方法如Battiato等[11]利用线性透视这一深度线索进行场景深度估计，并将室内与室外场景分别处理，该方法的缺点在于所估计的场景中必须要有可用于透视的规则几何物体，具有一定的局限性;Chang等[12]结合物体的运动与相互遮挡关系这两种深度线索进行深度估计，该方法需要场景中存在运动的物体，否则就无法使用。基于机器学习的方法如Karsch等[13]在2014年提出了使用最邻近搜索（k-Nearest Neighbors， k-NN）的方法从数据库中选取候选图像，进行前景与背景信息融合，从而获得测试图像的深度图。该方法需要对数据库中所有数据进行分析计算，计算量大，深度估计效率低，并且受到数据库完善性的局限。基于深度学习的方法如Eigen等[14]在2014年提出了使用卷积神经网络的深度估计方法，该方法提出了多尺度的CNN模型，在以AlexNet作为粗尺度网络的基础上，增加了细尺度优化网络进行图像的深度估计。由于该方法利用神经网络主动地学习提取图像深层特征，并结合原始图像进一步优化，所以获得了不错的深度估计效果。Liu等[15]使用深度学习模型与概率图模型有效结合的策略，将CNN与条件随机场（Conditional Random Field， CRF）结合使用，完成了端到端的训练，获得了较好的单目图像深度估计结果。

2 多孔卷积神经网络

本文将卷积神经网络与条件随机场相结合，并在此基础上引入多孔卷积结构，提出了多孔卷积神经网络（ACNN）图像深度估计模型，其中神经网络具有优越的特征提取和学习能力，能够从大量样本数据中获取一系列的特征图用于后续处理，可以将其视为一个回归函数。条件随机场是一种概率无向图模型，属于判别式模型，能够建立局部与全局的关系。本章中将重点介绍模型的结构及训练与预测过程。

2.1 模型概述

在一幅图像输入到CNN之前，利用提升小波变换阈值算法对其进行增强处理，目的在于减少图像中存在的噪声信号，并改善图像质量。增强过程首先将二维图像I按奇偶性分裂为两个子集合Ie、Io;其次以Ie对Io进行预测，预测误差为D（i， j）=Io-F（Ie），其中F（·）为预测算子，在选定的预测因子作用下，便能够由预测误差及Ie完全恢复出Io;再进行子集合数据的更新，使其与原始的图像数据具有相同的特征，即Ie=Ie+U（D（i， j）），表示将更新后的Ie值放入变量Ie中，其中U（·）为更新算子;最后可以对变换后的子集合进行重构。本文通过自适应的预测算子与更新算子获取图像中的高频信息和低频信息，对高频系数采用半软阈值去噪算法去除图像中包含的噪声信息，该处理方法有效地保持了图像的平滑性，又不会导致图像边缘模糊，与其他阈值去噪方法相比能够更好地去除图像中的混合噪声，保持图像特征完整性，至此完成了图像的预处理工作[16]。

在本文所提出深度估计模型的CNN部分中，以视觉几何组16层网络（Visual Geometry Group 16， VGG16）[17]为基础，如图1所示，保留原始VGG16网络的第1个到第12个卷积层，在第12个卷积层输出512维的特征图之后，去掉原网络中最后的全连接层，将其卷积化为卷积核大小为1×1的卷积层，使得最后生成一个通道数为1的特征图。网络的输出结果由此转换为一个二维的特征图，即图1中所示的输出1，而不是原网络结构中输出的一维特征向量。神经网络中的5个卷积块最后分别各包含1个池化层，池化操作采用最大池化的方式，在隐藏层中用ReLU函数[18]进行非线性激活，在最后一个卷积层中采用DropOut的训练方法防止模型过拟合。

为了融合更多的细节信息，使得输出的深度图更加精确，模型中将CNN输出的结果输出1通过连接层与第二个池化层输出的特征图进行融合，此时特征图的大小仅为原始图像大小的1/4，需要经过上采样得到与原始图像1/2大小相同的特征图，这里使用反卷积操作进行上采样，得到特征图输出2。将上采样后的特征图继续与第一个池化层输出的结果进行融合，再进行上采样操作，获取到与原始输入图像大小相同的特征图输出3。两次融合过程使得输出结果输出3中包含了大量的图像细节特征。

在此基础上，引入多孔卷积结构，多孔卷积能够通过改变卷积核扩张率的大小得到不同大小的卷积视野，将原始图像中的局部信息融合到由神经网络提取的特征图中，从而进一步丰富了图像的细节信息。其中，多孔卷积的优点在于能够使网络不增加参数、图像不损失分辨率的条件下，获取更大的感受野，对比一般的卷积运算，多孔卷积运算可以从图像中获得更多的局部位置信息，常被应用于图像分割中提取图像中物体的相对位置信息。

从图2中一般卷积运算与多孔卷积运算的结果对比可以看出，普通3×3大小的卷积核的感受野是3×3的大小;但是扩张率为2的多孔卷积运算的感受野扩大为7×7，扩张率为3的多孔卷積运算的感受野增大到9×9，尽管它们的卷积核大小还是3×3。在本文提出的模型中，使用了一个包含3个不同卷积核，扩张率分别为6、12、18的多孔卷积模型，从原始图像中分割提取出空间位置信息，并通过连接层将输出结果融合在一起。

将融合后的特征图输入到条件随机场中，经过随机场的优化，最终生成原始图像的深度图，网络模型中ACNN输出的结果如图3所示，图中地面区域由远及近、建筑物区域由近及远颜色逐渐加深，可以看出多孔卷积结构以及底层特征的引入能够有效地提取到深度信息，同时能够保留物体的空间结构信息。

对于深度估计模型中所示的用于优化处理的条件随机场，定义I表示单幅图像，可以看作是定义在{I1，I2，…，In}上的随机场，D为在以该图像为条件下的随机场深度图，可以看作是定义在{D1，D2，…，Dn}上的随机场，其中Di表示像素点i处在随机场中对应的深度值，是一个非负的实数，且取值连续，则条件随机场（I，D）服从条件概率分布：

其中Z为规范化因子，定义为：

E（D，I）为能量函数，由一元势函数S和二元势函数T构成，表示为：

其中：N表示单幅图像中所有像素的集合;i是集合N中的任意一个像素点;i、 j是集合N中空间位置相邻的两个像素点。其中一元项表示回归得到的像素点深度，一元势函数S描述了CNN输出估计得到的深度值与真实值之间的平方误差，其表达式为：

其中：di（W）为CNN输出得到的像素i处的深度值;W为网络参数。

二元项能够使空间上相邻的像素获得近似的深度值，势函数T描述了像素点i、 j在深度值为Di、Dj时图像相对空间结构的损失，其公式如下：

其中：包含三个高斯核函数，分别记作Gα1、Gα2和Gα3。第一项Gα1核函数的作用是使得位置相邻的像素i、 j有相似的深度;第二项Gα2核函数中函数g（·）描述了某一像素点处的灰度值，该函数项的作用是使得颜色相近的像素具有相近的深度;第三项Gα3核函数描述了像素点灰度的梯度，其作用在于更好地反映某一像素邻域上的灰度分布;α1、α2、α3是从训练中学习到的参数。

2.2 模型训练与预测

使用负对数似然函数作为网络模型的损失函数，其中对数函数以e为底，定义为：

网络模型的训练过程是获取参数ξ=（W，α）并将损失函数最小化的过程，即可得：

本文使用随机梯度下降算法求得模型参数。二元势函数的权重α应当为正实数以保证模型可用，于是可作变换α=exp（β）以确保正实数这一约束条件。对损失函数L（ξ）求导可得：

由于能量函数E（D，I，ξ）的形式较为简单，且与ξ线性相关的此处不通顺，是否应该为“线相关”或“线性相关”？请明确，所以能量函数求导部分的计算过程相对简单，后一部分的求导过程为：

由于要计算条件随机场P（D|I），其计算的复杂度为O（n3）[19]。为了降低计算复杂度，根据相对熵理论，构建条件概率分布Q（D|I）来近似估计条件随机场P（D|I）的概率分布，Q与P的近似程度可以用相对熵的大小DKL来衡量，当DKL（Q‖P）取得最小值的时候，可认为得到了待求随机场P（D|I）的最佳近似值，这种计算方法有利于降低计算的复杂度。于是可得：

式（15）中，可将∑j≠iGα μj高斯核与期望的卷积运算，由于一般高斯滤波的计算复杂度为O（n2），为了再次降低计算复杂度，采用快速高维高斯滤波算法[20]对计算复杂度进行降维，使得高斯滤波的计算复杂度降低到O（d2n），其中d为高斯核中特征向量的维度，并可以得到最终的计算复杂度为O（md2n）。该方法用近似计算的方式降低了计算复杂度，能够有效地加快模型的训练和预测过程。

3 实验结果及分析

在本章中，详细介绍了所提方法的实验过程及数据分析，并在Make3D及NYU v2[21]这两个标准数据集上将本文方法与目前常见的两类经典方法进行了对比：一类是传统的方法，如Karsch等[22]基于最邻近算法的图像深度估计方法，Saxena等[23]基于监督学习的方法，Liu等[24]基于非参数学习的方法;另一类是基于深度学习的方法，如Liu等[15]、Eigen等[14]提出的基于神经网络的图像深度估计方法。由于两种类型的方法都常用来处理单目图像深度估计问题，都是具有代表性的主流方法，所以本文主要与这两类方法进行图像深度估计的效果对比，以验证本文方法的可行性。

3.1 实验设置

本文的实验过程在一台配有Intel core i5处理器、NVIDIA GTX 1060显卡和8GB内存的电脑上完成，使用Matlab 2017a版本以及MatConvNet工具包作为软件环境。

实验过程中设置动量为0.9，权值衰减系数为0.0005，模型训练过程首先训练CNN的参数，学习率初始化为0.001，经监督训练，每次在当前学习率下损失曲线不再下降时，便将学习率衰减至原来的10%，直至CNN收敛;其次，固定CNN的参数，训练ACNN参数，待网络收敛后，对两部分网络参数同时更新直至ACNN收敛;最后，设置学习率为10-8，在已训练好的ACNN上加入CRF层，对ACNN的参数W与CRF的参数α进行联合优化，此时模型的损失函数为式（6）。整个训练过程在Make3D数据集上需要大约20h，在NYU v2数据集上需要约40h。

本文使用平均相对误差Rel、均方根误差（Root Mean Square Error， RMSE）、对数平均误差（对数以10为底，计算结果标记为lgAle）以及准确率这四个常用指标来对深度估计的结果进行衡量评价，并且与具有代表性的传统方法和基于深度学习的方法进行了对比。四个指标的计算表达式分别如下所示：

3.2 模型评价

为了比较ACNN较CNN结构的优势，在图4和图5中对比了未引入多孔卷积结构的CNN深度估计结果和引入多孔卷积结构的ACNN深度估计结果，其中ground truth子图为数据集提供的真实深度图。

从两组（图4～5）对比中可以看出，多孔卷积结构的引入给模型的深度估计效果带来了诸多优势，图像中物体的边界被清晰地保留下来，使得某些区域的深度估计值发生重大变化。例如图4中第一行图片中的天空、房屋和树林之间的边界更加清晰，这可以使獲取的深度图中避免出现不必要和不准确的深度估计区域。另外，在表1和表2中列出了本文两个分解模型与全模型输出深度图的误差数据和准确率数据，分别为Make3D数据库和NYU v2数据库的数据结果。对表1和表2中的数据分别进行分析可以看出，两个分解模型，即仅由本文CNN模型输出估计深度图和不包含CRF的ACNN模型输出的估计深度图，以及包含CRF的ACNN全模型输出的深度图的误差结果对比中，“ACNN+CRF”全模型经实验得到了最小的误差数据，并且ACNN的预测结果中所有误差均低于CNN预测结果的误差值，说明了全模型在深度估计中有更好的表现。

从图6中可以看出，本文所提出的深度估计方法能够准确地估计图像大部分范围的深度值，并且不会在物体的边界处产生剧烈的深度值跳跃。这也从另一个方面表明，多孔卷积结构的引入提高了模型对图像细节的保留程度。

3.3 Make3D数据集实验结果

Make3D数据集中提供了400张室外场景的RGB图像及其对应的深度图作为训练数据，还提供了134组用于测试的图像—深度对数据。为了解决训练样本缺乏的问题，实验中使用多尺度的训练方法[17]，先将输入图像大小变换为320×240大小，再从中截取出分辨率为64×64、128×128以及192×192的图像区域及其对应的深度图，并将其均调整为128×128作为输入数据，最终产生了20000个图像—深度对用于模型训练。

在Make3D数据集上的实验结果如表3所示，C1误差仅计算了真实深度值低于70m的图像区域，C2误差将全部图像区域用于误差计算。本文与文献[15]和文献[22-24]的方法进行误差结果对比，并将其列在表3中，其中文献[23]未提供该方法的C1误差与C2误差的均方根误差（RMSE），故未在表中列出，与文献[15]及文献[22]方法的深度图比较结果如图7所示，从表3误差数据及图7深度图结果对比中得出几点结论：1）在对输入图像进行增强处理之后，CNN的输出结果较文献[15]及文献[22-24]的误差结果有了提升，说明提升小波的阈值降噪处理确实能够在去掉噪声的同时突出图像的细节特征;2）在多孔卷积结构加入模型训练过程后，神经网络在误差对比中有了更好的表现，可以证明多孔卷积神经网络确实具有融合原始圖像中空间信息参与模型训练，并提高深度估计准确性这一事实;3）在结合条件随机场进行联合优化训练后，融合图像梯度信息的高斯项可以进一步提升深度估计的准确性，使本文提出的网络模型获得了最好的深度估计结果。

通过比较表3中的误差数据，可以看出本文的方法各项指标取得较好的成绩，C1误差中的平均相对误差、均方根误差和对数平均误差比文献[22]分别降低了20.28%、21.09%、15.75%，计算全部图像区域的C2误差对比中，本文的误差结果比同样基于深度学习方法的文献[15]分别降低了9.45%、24.28%和17.6%，本文的准确度超越对比文献给出的结果。

将训练好的模型用于图像的深度提取，在Make3D数据集上任意选取5幅图像进行深度估计，与文献[15]和文献[22]所提出方法的深度估计结果对比，二者使用了不同类型的方法处理深度估计问题，其中文献[15]采用了深度学习算法，使用神经网络对数据集进行学习，文献[22]采用机器学习方法，使用K最邻近算法从图像—深度对数据中计算选出候选深度图，估计精确度受到数据集图像的限制。对比结果如图7所示，并在图7中的最后一列给出数据集提供的真实深度图ground truth作为参考标准。图7中以第四行为例，文献[22]结果图像中左侧的植物区域中没有准确估计，由于没有空间信息的引入，图像中的物体没有被很好地区分开。与之相比，文献[15]能够较好地估计出图像深度。本文方法引入ACNN结构，能够较好地将物体的边界区分开，可以清晰看出本文结果中左侧的植物区域及天空区域有较清晰的边界划分，并且可以将右侧的建筑物深度与左侧植物深度区分开。

3.4 NYU v2数据集实验结果

NYU v2数据集包含1449个室内场景RGB图像及其对应的深度图，其中包含795个用于训练的图像深度对，其余654个图像深度对用于模型测试。本文选取了部分训练集数据，使用等距离采样的方法生成了大约15000张图像，对这些图像进行旋转变换，尺度变换后，最终产生了大约200k张图像用于网络训练。

NYU v2数据集上的实验结果如表4所示，其中包含了误差数据和准确率两项指标。通过结果对比，可以看到本文提出的方法在各项指标上都取得了更好的结果。从表4的误差值及准确率数据中可以看出，在加入图像预处理、多孔卷积结构以及条件随机场优化后，整个网络能够更好地完成图像深度估计任务，相比文献[13-15]以及文献[24]的方法，本文所提出的方法的误差值与对照方法相比获得了最低的误差值和最高的准确率，与具有最优对照结果的文献[15]相比，本文方法的平均相对误差、均方根误差以及对数平均误差分别降低了22.17%、19.3%和29.47%，同时，本文方法的三组准确率也较文献[15]分别提升了14.5%、5.4%和1.44%。

在NYU v2数据集上任意选取4幅图像进行深度估计，本文方法得到的结果与文献[15]方法得到结果的对比如图8所示，可以看出本文方法的准确度相对较高，例如第一行卧室的图像中，本文方法结果中对床及其相邻地面的深度估计值比文献[15]方法得到的结果更接近于真实深度。同样，第二行书架图像中，本文方法对书架深度的估计值也比文献[15]方法得到的结果更接近于真实深度值。

从表3和表4的数据结果中可以看出，本文方法的误差值均低于所有对比方法给出的误差值，准确率也高于所有对比方法给出的准确率，取得了最好的深度估计结果。在对Make3D数据库及NYU v2数据库的对比分析中，文献[22]的方法由于依赖图像—深度对数据库，所以获得的深度图仅能够粗略地反映出图像的深度信息，精度不高。该方法要求对整个数据库进行分析和计算，计算量大，深度估计效率低，受数据库完整性的限制。与之对比，本文提出的方法不需要任何数据先验信息，仅需要图像数据库即可获得更好的估计结果，这与卷积神经网络强大的特征提取与学习能力密不可分。

与文献[14]中提出的方法相比，本文在融合CNN网络隐藏层特征图的基础上，又加入了多孔卷积结构，融合了原始图像中的图像空间特征，使得特征图中包含了更充分的底层图像特征。在文献[14]方法中，粗尺度网络的参数是固定不变的，并且在网络训练收敛之后不再更新。与之相比，首先训练CNN参数，然后是多孔卷积结构，最后同时更新CNN和ACNN的参数，整个网络通过CRF进行端对端训练，该训练过程可以使CNN参数获得更好的局部最小值。从表4可以看出，本文方法的网络结构和训练过程使得ACNN预测结果优于文献[14]方法的结果。从图8所示的深度提取结果中可以看出，加入CRF后的完整模型对图像边缘作了更好的处理，并且视觉效果更加理想，该模型在深度提取时能够产生更好的效果。

与文献[15]所提出的方法相比，本文的方法在像素级别上进行深度估计，保留了更高的图像精度，不再需要对图像进行超像素分割和复杂的矩阵运算，并且加入了多孔卷积结构，在融合后的特征图保留了更多图像细节信息，同时通过相对熵理论的近似计算提高了预测计算效率。本文提出的方法在融合局部特征和全局特征的基础上，通过CRF进行细节优化，可以看出，在融合以上特征后得到的结果中同时展现出更为细致的整体与细节部分的深度估计结果;同时也说明了在引入多孔卷积结构具有扩大了感受野又不损失图像分辨率的作用，能够准确地将图像中的物体分隔开，有效地提取图像的深度信息。

4 结语

本文针对单目图像的深度估计问题提出了一种基于多孔卷积神经网络的单幅图像深度估计模型。该模型将多孔卷积结构融合到一个全连接的VGG16卷积神经网络中，并通过条件随机场完成端到端训练。在模型训练之前，本文采用提升小波阈值去噪算法完成了图像增强的预处理工作，使得神经网络的输入图像具有更清晰和易于提取的图像特征。实验结果表明，预处理后的图像在深度估计中可以获得更好的结果。通过引入多孔卷积结构，原始图像中的像素空间信息被融入到特征图中，在条件随机场对像素位置、像素灰度和像素梯度这三个条件的约束作用下，最终生成的深度图中物体的边界更加清晰，这同时避免了一些易于估计不准确区域出现。模型优化过程中使用相对熵理论来近似计算，该算法大幅度降低了模型参数的计算复杂度。与文献[13-15]及文献[22-24]中提出的基于机器学习以及深度学习的方法相比，本文提出的模型在误差分析中取得了最小误差，在視觉效果上能够更清晰地将物体边缘区分开，得到更接近于真实深度的估计深度图，但是，在本文所给出的模型中没有引入数据先验项，进一步可以引入先验约束来增强模型的深度提取能力;其次，可将多孔卷积结构进一步扩展，加入多孔空间金字塔池化方式，在尽可能多的尺度上使用不同采样率获取图像中的细节特征信息，产生准确度更高的深度估计结果。

参考文献（References）

[1] SAXENA A， CHUNG S H， NG A Y. Learning depth from single monocular images[C]// Proceedings of the 2005 International Conference on Neural Information Processing Systems. Cambridge， MA： MIT Press， 2005：1161-1168.

[2] 胡良梅，姬长动，张旭东，等.聚焦性检测与彩色信息引导的光场图像深度提取[J].中国图象图形学报，2016，21（2）：155-164.（HU L M， JI C D， ZHANG X D， et al. Color-guided depth map extraction from light field based on focusness detection[J]. Journal of Image and Graphics， 2016， 21（2）：155-164.）

[3] HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2016： 770-778.

[4] KRISTAN M， PFLUGFELDER R， MATAS J， et al. The visual object tracking VOT2013 challenge results[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision Workshops. Washington， DC： IEEE Computer Society， 2013：98-111.

[5] SANTANA E， HOTZ G. Learning a driving simulator[J/OL]. ArXiv Preprint， 2016， 2016： 1608.01230[2017-08-03]. https：//arxiv.org/abs/1608.01230.

[6] SZELISKI R. Computer vision [J]. Springer-Verlag GmbH， 2010， 12（8）：1741-1751.

[7] CHEN C H. Handbook of Pattern Recognition and Computer Vision [M]. Singapore： World Scientific， 1993：697-698.

[8] CHEN L C， PAPANDREOU G， SCHROFF F， et al. Rethinking atrous convolution for semantic image segmentation [J/OL]. ArXiv Preprint， 2017， 2017： 1706.05587[2018-01-17]. https：//arxiv.org/abs/1706.05587.

[9] 杨帆，李建平，李鑫，等.基于多任务深度卷积神经网络的显著性对象检测算法[J].计算机应用，2018，38（1）：91-96.（YANG F， LI J P， LI X， et al. Salient object detection algorithm based on multi-task deep convolutional neural network[J]. Journal of Computer Applications， 2018， 38（1）： 91-96.）

[10] 孫毅堂，宋慧慧，张开华，等.基于极深卷积神经网络的人脸超分辨率重建算法[J].计算机应用，2018，38（4）：1141-1145.（SUN Y T， SONG H H， ZHANG K H， et al. Face super-resolution via very deep convolutional neural network[J]. Journal of Computer Applications， 2018， 38（4）： 1141-1145.）

[11] BATTIATO S， CURTI S， CASCIA M L， et al. Depth map generation by image classification[C]// Proceedings of the 2004 Three-Dimensional Image Capture and Applications VI. Bellingham， WA： SPIE， 2004：95-104.

[12] CHANG Y L， FANG C Y， DING L F， et al. Depth map generation for 2D-to-3D conversion by short-term motion assisted color segmentation[C]// Proceedings of the 2007 IEEE International Conference on Multimedia and Expo. Piscataway， NJ： IEEE， 2007：1958-1961.

[13] KARSCH K， LIU C， KANG S B. Depth transfer： depth extraction from video using non-parametric sampling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2012， 36（11）：2144.

[14] EIGEN D， PUHRSCH C， FERGUS R. Depth map prediction from a single image using a multi-scale deep network [J/OL]. ArXiv Preprint， 2014， 2014： 1406.2283[2017-12-09]. https：//arxiv.org/abs/1406.2283.

[15] LIU F， SHEN C， LIN G， et al. Learning depth from single monocular images using deep convolutional neural fields [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2016， 38（10）：2024-2039.

[16] ABHAYARATNE G C K， PESQUETPOPESCU B. Adaptive integer-to-integer wavelet transforms using update lifting[C]// Proceedings of the SPIE Wavelets： Applications in Signal and Image Processing X. Bellingham， WA： SPIE， 2003：813-824.

[17] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J/OL]. ArXiv Preprint， 2015， 2015：1409.1556[2017-04-10]. https：//arxiv.org/abs/1409.1556.

[18] GLOROT X， BORDES A， BENGIO Y. Deep sparse rectifier neural networks[C]// Proceedings of the 2011 International Conference on Artificial Intelligence and Statistics. Fort Lauderdale： PMLR， 2011：315-323.

[19] RADOSAVLJEVIC V， VUCETIC S， OBRADOVIC Z. Continuous conditional random fields for regression in remote sensing [J]. Frontiers in Artificial Intelligence and Applications， 2010， 215：809-814.

[20] ADAMS A， BAEK J， ABRAHAM DAVIS M. Fast high-dimensional filtering using the permutohedral lattice[J]. Computer Graphics Forum， 2010， 29（2）：753-762.

[21] SILBERMAN N， HOIEM D， KOHLI P， et al. Indoor segmentation and support inference from RGBD images[C]// ECCV 2012： Proceedings of the European Conference on Computer Vision. Berlin： Springer， 2012：746-760.

[22] KARSCH K， LIU C， KANG S B. Depth transfer： depth extraction from videos using nonparametric sampling[M]// Dense Image Correspondences for Computer Vision. Berlin： Springer， 2016：775-788.

[23] SAXENA A， SUN M， NG A Y. Make3D： learning 3D scene structure from a single still image [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2009， 31（5）：824-840.

[24] LIU M， SALZMANN M， HE X. Discrete-continuous depth estimation from a single image[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2014：716-723.