当前位置:首页 期刊杂志

深度导向显著性检测算法

时间:2024-05-04

赵恒 安维胜 付为刚

摘 要:针对目前基于深度卷积神经网络的显著性检测算法存在对复杂场景图像目标检测不完整、背景噪声多的问题,提出一种深度特征导向显著性检测算法。该算法是基于现有底层特征与深度卷积特征融合模型(ELD)的改进,网络模型包含基础特征提取、高层语义特征跨层级引导传递两个部分。首先,根据不同层级卷积特征的差异性,构建跨层级特征联合的高层语义特征引导模型;然后,用改进的网络模型生成初始显著图,利用高层语义特征引导的方式进行显著性聚类传播;最后,用完全联系条件随机场对聚类传播的结果进行优化,使其能够获取更多结构边缘信息和降低噪声并生成完整显著图。在ECSSD上和DUT-ORMON两个数据集上进行实验测试,实验结果表明,所提算法的准确率和召回率(PR)优于ELD模型,其F-measure(F)值分别提升了7.5%和11%,平均绝对误差(MAE)值分别降低了16%和15%,说明了所提算法模型能够在目标识别、模式识别、图像索引等复杂图像场景应用领域得到更加鲁棒的结果。

关键词:显著性检测;深度特征;神经网络;特征引导;显著图

中图分类号: TP391.413; TP18

文献标志码:A

Abstract: As current saliency detection algorithms based on deep convolutional network have problems of incomplete target and noisy background detected from complex scene images, a new algorithm of deep feature-oriented saliency detection composed with basic feature extraction and high-level feature which guided cross-level aggregating delivery was proposed. It was based on the improvement of an extant Encoded Low level distance map with Deep features (ELD) model. Firstly, according to the characteristics of convolutional features at different levels, a cross-level feature fusion network model of high-level feature guidance was established. Then, saliency clustering propagation by using high-level feature guidance on initial saliency map that generated by improved neural network was implemented. Finally, final saliency map with more details and less noise was generated by using fully-connected conditional random field after saliency propagation. The experimental results on ECSSD and DUT-ORMON data sets show that, the Precision-Recall (PR) performance of the proposed algorithm is better than ELD algorithms, and F-measure(F) is increased by 7.5% and 11%, respectively, while its Mean Average Errors (MAE) are decreased by 16% and 15%, respectively,which also can obtain more robust results in complex image scene fields of target recognition, pattern recognition, image indexing, and so on.

Key words: saliency detection; deep feature; neural network; feature guidance; salient map

0 引言

视觉感知是人类接收外部图像信息的主要机制,计算机技术的飞速发展,使得人们面对外部海量图像数据信息时能够借助计算机模拟人类视觉进行处理。研究人员发现,人类视觉注视点会落在图像强烈刺激神经元的区域,根据这一机制逐渐衍生出了显著性检测方法[1]。显著性检测重点突出人们对图像最关注(显著)的目标区域,能够避免信息冗余和降低后续计算复杂度,在图像目标索引[2]、视频压缩[3]等领域应用广泛。

现有显著性检测模型包括视觉显著注视点[4]和视觉显著目标的检测[5]。人们根据数据处理方式分为自底向上和自顶向下的方法:自底向上方法基于底层数据计算,根据颜色对比度、中心或边界先验等区分显著性[6];自顶向下算法模型,需要从大量样本中提取特征并学习经验(本质属性特征)生成目标数学模型,然后利用所生成的模型对输入图像进行处理判断显著性[7]。

近年来深度卷积神经网络逐步在显著目标检测中得到应用。Vig等[8]利用卷积稀疏编码模型学习特征,然后利用支持向量机对图像区域分类。Zhao等[9]提出局部和全局上下文信息联合算法模型。由于这些算法模型在特征提取和传递过程中需要进行池化(pooling)或随机失效(dropout)运算,不可避免地存在图像信息的缺失。Liu等[10]指出在視觉观测早期对图像显著区域定位检测主要由底层数据驱动;在观测后期则由高层语义特征起主导作用,而底层特征通常包含较多的结构细节信息,因此将高层语义特征与底层信息结合可提升算法模型性能。Li等[11]提出多尺度深度特征联合模型;Li等[12]提出多任务深度卷积模型;Lee等[13]在VGG16(Visual Geometry Group Net16)模型[14]基础上提出高层特征和底层特征差异图联合编码模型。这三种算法模型相比早期网络模型卷积层次更高,虽采取不同的策略但都利用了图像底层特征。从总的来看算法性能有所提升,但由于底层特征权重过大,面对一些复杂的场景,仍然存在不足:目标局部区域缺失、结构边缘不清晰、背景高亮的离散噪声等。

因此,为提升显著性检测算法的性能,本文在底层特征编码与高层语义特征融合(Encoded Low level distance map with Deep features, ELD)算法模型[13]基础上进行改进,提出一种深度高层语义特征引导结合底层特征优化的模型。用改进的神经网络生成显著图,然后为保证目标背景区域的均匀一致性,丰富边缘信息和降低噪声,利用底层特征聚类和完全联系条件随机场[15-16]进行优化。

1 深度特征引导的显著性检测

1.1 深度导向神经网络模型

对于给定的数据集Data={(X,G)},Xj为训练图像集,Gj为其对应的真值图像集, j(j=1,2,…,J)为图像数量。ELD[13]网络模型特征联合过程为:

逆卷积运算过程中由于采样间隔jg、滑动步距s和边界填塞pts的存在,卷积后的特征图分辨率或维度不一定完全和被联合的特征图相同,即可利用Crop层可以将逆卷积后的特征图Yjv以Lj为模板进行裁剪,从而使得最终联合的特征图分辨率相同。特征联合层则是相同分辨率的不同层级特征图按照各元素位置相应的连接成同一个特征团(blobs),特征团降维和元素权值融合则是由尺度大小为1×1的卷积核W卷积实现。

根据式(1),将底层特征直接与卷积特征同权值联合,虽能增添局部细节,但权重过大导致与底层数据驱动算法类似的缺陷。文献[10]指出在视觉观测的过程中高层语义特征会逐渐起主导作用,而ELD算法[13]中提到卷积层级更深的模型比早期只利用浅卷积层特征的模型性能更好,说明深卷积层相比浅卷积层获取了更多的高层语义特征,浅卷积层相对包含较多底层特征。综上可知,突出高层语义特征的主导性,以底层特征作为补充增添细化高层语义特征,可以避免底层特征权重过大的缺陷。

因此,本文利用ELD算法底层特征和卷积特征联合的框架,将高层语义特征同其他中间层或浅卷积层进行跨层级的联合传递,然后再增添底层特征细节作为补充。算法模型整体框架如图1所示,VGG16模型主要包括S1、S2、S3、S4、S5的卷积层特征,参考文献[12]的方法在VGG16模型基础上进一步生成S6特征。根据层级特性不同,定义S5和S6为深卷积层;S1和S2为浅卷积层;S3和S4定义为中间层。为突出高层语义特征,首先将高层语义特征向中间层传递,从而引导中间层转变为包含较多高层语义特征的卷积层。定义fjci代表S(i)的卷积层特征,则高层特征对中间层的引导计算过程如下:

式(3)和(4)中对于S6非直接对跨层级特征联合缺少S5,应当改为"对于S6和S5非直接跳跃性的跨层级特征联合"对于S6和S5非直接跳跃性的跨层级特征联合,在文献[17]算法中指出,跳跃性的层级特征联合对于获取高层语义特征的边缘信息有改善作用。将高层语义特征与S2联合生成S2′,然后引导五个高层语义特征与S1联合生成S1′,计算过程如下:

在中间层和浅卷积层特征引导成功后,将所有结果再联合,从而完成卷积神经网络内部不同层级间,利用高层语义特征引导浅卷积层信息优势互补的联合过程,并进一步生成最终的卷积特征图:

式(7)中fjuse为神经网络输出的卷积特征。式(8)中Sig()为Sigmod激活函数。其中式(3)~(7)中所涉及到的卷积核W尺寸大小为1×1,经过Concat layer联合多个层次特征后特征图blobs维度增加,通过尺寸1×1的卷积核,可以降低特征图的维度;涉及到的偏置b为卷积输出学习后附加的常数,初始化为0。式(8)中: fj此处的fj是矢量、向量或矩阵吗?回复:是为全分辨率显著图;Λ为卷积神经网络特征传递涉及到的所有参数集合; fj表示在参数集Λ下生成的显著图。

上述按图1所示模型结构特征传递过程中,不同阶段主要输出特征图的尺度大小如表1所示,在VGG16模型特征传递过程取的是池化前的尺度细节信息,特征联合阶段取的是输出特征的尺度细节信息。

在模型训练阶段,神经网络主要是提取特征并迭代求解模型的最佳参数Λ,参数是否优异通过交叉熵代价函数(Cross-entropy loss function)对输出fj和Gjfj和Gj(j为下标)是矢量、向量或矩阵吗?答:矢量之间的差异作评价,定义如下:

其中:[Xj]為图像像素个数;Gji为像素i的真值标签;γi为真值图像标签为0的像素数目比例; fji(Gji=1|Xj;Λ)为参数集Λ下神经网络输出的图像像素i属于标签为1的概率; fji(Gji=0|Xj;Λ)则为像素i属于标签0的概率。L值越小说明模型输出fj和Gji之间的差异越小,则相对应的参数集Λ就更加优异。通过式(109)代价函数对神经网络模型进行迭代训练,直到整个过程收敛时,求解对应的参数集合Λ,便可生成目标模型。对于输入图像I,经目标模型处理便可生成初始显著图f。

1.2 底层特征优化

卷积神经网络在特征提取时采取较为固定的k×k大小的卷积核,而图像目标形状不一,结构复杂多变,不可避免存在结构边界信息缺失。文献[15]根据图像特征进行聚类保留了图像区域间结构边界细节信息,文献[16]采用完全联系条件随机场根据标记数据和观测数据之间的内在联系,对区域进行了类内平滑和类间边界的分离,有效地平滑了区域和降低了噪声,因此可以利用这两个框架对初始显著图进行处理获取结构边缘信息和降低噪声。

式(1110)代表图像特征聚类优化,为了凸显高层语义特征,参考文献[2215]没有文献22,请作相应调整。要注意在正文中的引用顺序。答:文献15添加局部二值特征(Local Binary Pattern, LBP)特征的原理,将LBP替换为高层语义特征f,在聚类完成后计算超像素显著性平均值,并作为超像素类内像素的显著值,然后以此输出聚类传播后的显著图fy。对于输入图像I和对应的显著图fy,完全联系条件随机场优化的计算过程如下:

pi,pj,Ii,Ij,fs这几个是矢量、向量或矩阵吗?请明确。回复:前面四个符号,表示图像某一元素的空间位置和颜色特征,标量;第五个符号标记整个图像,矢量。

其中: fs代表优化后的输出结果;wik(fyi, fyk)为二元势函数联合代表颜色和空间特征的差异; μ(fyi, fyk)通常等于1,但当i=k时值为0;Tc为高斯核能量项;pi和Ii分别为像素i的空间和颜色特征;ω1,ω2,δα,δβ,δγ等参数控制空间和颜色特征在势函数中的作用。联合式(1211)~(1413)求解能量函数最优解,便可求得最终显著图fs。

1.3 模型细节

本文采用的深度学习框架为Caffe[18],硬件设备基于Intel CPU和Nvidia GTX GPU,以Python和C++语言进行图像处理,Matlab 2014b作为实验结果的数据对比处理。由于MSRA-B[12]数据集,包括5000张自然场景图像,其中图像包含人、动物、植物、房屋建筑等多种不同类别目标物,在显著目标检领域应用广泛,因此以MSRA-B作为训练集。运用随机梯度衰减(Stochastic Gradient Descent, SGD)方式进行优化训练,基础学习率(base learning rate)为10-8,动量(momentum)为0.9,权重衰减系数(weight decay)为0.0005,批处理数量(batch size)为1,初始设置的最大迭代次数为50000。在实验测试中,初始出现的代价损失最大值L约为900000,在迭代步长到达20000时,代价损失L在38000保持平稳波动,最后在迭代次数为20000~25000时,L值平稳收敛没有进一步发生非常大的变化,因此实际选取的目标模型为迭代24000次时的求解模型,对应的损失值水平为36000,训练过程耗时30h。图2为能量损失值L此处应该为“能量损失值L”更为恰当些吧?请明确。答: 能量损失值L随迭代步长的变化。

2 实验对比测试

2.1 算法评价指标

为验证本文改进算法的有效性,将本文算法与强判别区域特征集合(Discriminative Regional Feature Integration, DRFI)算法 [7]、深度显著性(Deep Saliency,DS)算法[12]、底层与高层特征联合编码(Encoded Low level distance map with Deep features, ELD)算法[13]、多尺度深度特征(Multiscale Deep Feature, MDF)算法[11]进行测试对比。由于DRFI是早期学习型的经典算法模型,DS、ELD、MDF是近年基于深度神经网络的算法。由于这几种算法整体性能较好,比较有代表性,因此将本文算法与这几种算法进行对比以体现出算法性能。采用显著性检测领域通用的PR曲线图、F-measure(F)值以及平均绝对误差(Mean Average Error, MAE)值[1]三种客观评价指标来分析算法性能。

1)PR曲线图。显著灰度图根据阈值从0~255进行阈值分割,再计算准确率P和召回率R值,根据不同值的变化在坐标轴绘制就可生成曲线图。召回率R较高时准确率P高水平持续范围广,即PR曲线靠近坐标系右上角区域表征算法性能好。

2)F-measure(F)值。取显著图灰度平均值2倍对显著图进行阈值分割,计算P和R值,然后再计算F:

式(1514)中常设β2=0.3突出准确率,F值越大表示算法性能越优异。

3)MAE值。PR曲线图、F值主要关注目标区域的完整性和均匀高亮程度,而背景噪声也常常影响准确率。平均绝对误差MAE能够综合目标和背景与真值图相似的程度来评价算法性能,计算如下:

其中:M和N代表输入图像的大小。MAE值越小,说明显著图不仅目标区域与真值图相似程度高,而且背景区域噪声也少,反映了算法的整体性能更加优越。

2.2 数据集

测试对比采用的是ECSSD和DUT-OMRON两个大型数据集[12]:ECSSD包含1000幅自然场景图像,来源于BSD和PASCAL VOC两个公开的数据集;DUT-OMRON有5168幅自然场景图像,挑选自140000幅自然场景图像,两个数据集都包含相应的人为标注的真值結果。这两个数据集图像的来源较为广泛,复杂程度高,涵盖了人类社会生活对于图像目标识别定位大部分类别,因此以此两个大型数据集的结果作各个算法性能的对比,可以体现算法泛化的能力。DUT-OMRON图像通常超过一个或多个显著目标,相比ECSSD大多数图像只包含一个显著目标的自然场景更为复杂,显著目标检测的难度更大[12]。

2.3 数据评价指标定量对比

两个数据集多种算法数据定量对比如图3的PR曲线和表2所示。从数据上仔细对比可得:1)在PR曲线图上,本文改进的算法相比DRFI、DS、ELD、MDF算法最接近于坐标右上角区域;ECSSD数据集上,90%以上准确率持续最长,在召回率为70~90%时准确率明显高于其他算法;DUT-OMRON数据集上,由于复杂度提高所有算法性能都有所下降,但本文算法70%以上准确率持续范围较长,在召回率为70%~80%时准确率明显高于其他算法。2)从表2中可知,本文算法的F值相比DRFI、DS、ELD、MDF中值最高的算法,在ECSSD数据集上性能提升了7.5%,在DUT-OMRON数据集上性能提升了11%;本文算法的MAE值相比DRFI、DS、ELD、MDF中值最低的算法,在ECSSD数据集上降低了16%,在DUT-OMRON数据集上降低了15%。F值较高主要体现图像目标检测准确性和完整性,MAE值低则体现目标准确完整性和较少的背景噪声,而本文算法在两个客观评价指标上效果都有大幅度的提升,也从侧面说明了DS、ELD、MDF算法面对复杂场景存在着一定程度的目标局部区域缺失、边缘模糊、背景离散噪声的缺陷,而本文算法则对此缺陷进行了改善,从而在数据指标上有所体现。

2.4 视觉效果

不同显著性检测算法对自然场景图像的处理示例如图4所示,包含人工标记的结果。从图4可以看出:在复杂自然场景下,不同显著性检测算法处理图像的结果与标记图都存在着差异,但整体上基于学习的算法模型结果和真值图最为相似。早期的DRFI多特征集合,目标定位较为准确,但背景噪声未能较好抑制,且目标高亮程度有待提升,本文算法以及DS、ELD、MDF近年较为先进的算法对显著目標定位识别较好,但仔细查看细节,DS、ELD、MDF算法检测的目标局部区域是有缺失的,边缘细节不清晰,含高亮的离散噪声,而本文算法的结果目标均匀一致高亮,结构边缘信息丰富,背景噪声抑制程度最好,最接近于真值图的效果,与2.3节的数据结果定量对比也是相一致的,突显了本文算法的优越性。

3 结语

针对现有的底层特征与深度高层语义特征融合的ELD算法模型存在的目标局部缺失和离散噪声的问题,本文提出深度特征导向的显著性检测算法。根据卷积网络各层级特征特性的不同,为突出高层语义特征在显著性检测中占据的主导性作用,构建了从深卷积层到低卷积层的跨层级特征引导联合网络模型,实现不同层级特征的优势互补。针对卷积神经网络在特征提取时卷积核大小固定的缺陷,利用特征聚类和完全联系条件随机场对初始显著图优化,获取结构边界信息和清晰的边缘并降低噪声。在两个大型数据集上进行实验测试,综合客观评价指标定量分析和视觉效果图的直观对比,表明了本文算法的有效性,在复杂自然场景图像显著目标检测中,能够更加准确地分离目标和背景,并且使目标区域均匀一致高亮,背景噪声少。

从本文数据对比和直观的实验结果可以看出,多目标的图像目标检测效果比单一目标的图像效果相对差一些,进一步的研究方向是探索更佳的网络结构和网络输出特征与底层特征能够更好结合的方式,以求得算法多目标检测性能的提升;同时尝试将底层特征优化的方法直接融合于卷积神经网络训练的过程中,进一步降低Loss损失,提高模型的鲁棒性。

参考文献 (References)

[1] BORJI A, CHENG M M, JIANG H Z, et al. Salient object detection: a benchmark [J]. IEEE Transactions on Image Processing, 2015, 24(12): 5706.

[2] GAO Y, WANG M, TAO D C, et al. 3-D object retrieval and recognition with hypergraph analysis [J]. IEEE Transactions on Image Processing, 2012, 21(9): 4290-4303.

[3] HADIZADEH H, BAJIC I V. Saliency-aware video compression [J]. IEEE Transactions on Image Processing, 2014, 23(1): 19-33.

[4] ACHANTA R, HEMAMI S, ESTRADA F, et al. Frequency-tuned salient region detection [C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2009: 1597-1604.

[5] ZHU W, LIANG S, WEI Y, et al. Saliency optimization from robust background detection [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 2814-2821.

[6] LI X, LU H, ZHANG L, et al. Saliency detection via dense and sparse reconstruction [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2013: 2976-2983.

[7] JIANG H Z, WANG J D, YUAN Z J, et al. Salient object detection: a discriminative regional feature integration approach [J]. International Journal of Computer Vision, 2014, 123(2): 251-268.

[8] VIG E, DORR M, COX D. Large-scale optimization of hierarchical features for saliency prediction in natural images [C]// Proceedings of the 2014 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 2798-2805.

[9] ZHAO R, OUYANG W, LI H, et al. Saliency detection by multi-context deep learning [C]// Proceedings of the 2015 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1265-1274.

[10] LIU N, HAN J W, ZHANG D W, et al. Predicting eye fixations using convolutional neural networks [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 362-370.

[11] LI G B, YU Y Z. Visual saliency based on multiscale deep features [C]// Proceedings of the 2015 IEEE Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5455-5463.

[12] LI X, ZHAO L M, WEI L N, et al. DeepSaliency: multi-task deep neural network model for salient object detection [J]. IEEE Transactions on Image Processing, 2016, 25(8): 3919-3930.

[13] LEE G, TAI Y W, KIM J. Deep saliency with encoded low level distance map and high level features [C]// Proceedings of the 2016 IEEE Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 660-668.

[14] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. ArXiv Preprint, 2014, 2014: 1409.1556.

[15] 李嘯宇,张秋菊.融合局部纹理特征的颗粒图像SLIC超像素分割方法[J].食品与机械,2016,32(12):31-34.(LI X Y, ZHANG Q J. A SLIC-based superpixel segmentation method by using local texture feature for granular image [J]. Food and Machinery, 2016, 32(12): 31-34.)

[16] 刘彤,黄修添,马建设,等.基于完全联系的条件随机场的图像标注[J].计算机应用,2017,37(10):2841-2846.(LIU T, HUANG X T, MA J S, et al. Image labeling based on fully-connected conditional random field [J]. Journal of Computer Applications, 2017, 37(10): 2841-2846.)

[17] HOU Q, CHENG M M, HU X, et al. Deeply supervised salient object detection with short connections [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 5300-5309.

[18] JIA Y Q, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding [C]// Proceedings of the 2014 ACM Conference on Multimedia. New York: ACM, 2014: 675-678.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!