注意力残差多尺度特征增强的显著性实例分割

时间：2024-09-03

史彩娟，陈厚儒，葛录录，王子雯

史彩娟，陈厚儒，葛录录，王子雯

(华北理工大学人工智能学院，河北唐山 063210)

显著性实例分割是指分割出图像中最引人注目的实例对象。现有的显著性实例分割方法中存在较小显著性实例不易检测分割，以及较大显著性实例分割精度不足等问题。针对这2个问题，提出了一种新的显著性实例分割模型，即注意力残差多尺度特征增强网络(ARMFE)。模型ARMFE主要包括2个模块：注意力残差网络模块和多尺度特征增强模块，注意力残差网络模块是在残差网络基础上引入注意力机制，分别从通道和空间对特征进行选择增强；多尺度特征增强模块则是在特征金字塔基础上进一步增强尺度跨度较大的特征信息融合。因此，ARMFE模型通过注意力残差多尺度特征增强，充分利用多个尺度特征的互补信息，同时提升较大显著性实例对象和较小显著性实例对象的分割效果。ARMFE模型在显著性实例分割数据集Salient Instance Saliency-1K (SIS-1K)上进行了实验，分割精度和速度都得到了提升，优于现有的显著性实例分割算法MSRNet和S4Net。

显著性实例分割；注意力机制；残差网络；多尺度；特征增强

视觉显著性即关注场景中最突出、最明显、占有主体部位的对象。利用视觉显著性进行的显著目标检测与显著实例分割生成的显著图只与显著对象相关，符合人类视觉系统的普遍规律[1]。而非显著性任务的目标检测任务和图像分割，则是以整个场景内所有对象为目标。ELAZARY和ITTI[2]对人类视觉系统的研究也证实了最吸引人的对象在视觉系统中更加突出。因此，显著性目标检测(salient object detection，SOD)[3-5]和实例分割(instance segmentation，IS)[6-9]得到了广泛关注和研究，并被应用于图像视频的场景理解[10]、智能车辆的辅助驾驶[11]、人机交互的图像媒体编辑[12]以及工业检测中机器人感知系统[13]等。

显著性目标检测是指检测出图像视频场景中最突出的部分。传统的显著性目标检测[14]方法均依赖于人工提取特征，非常耗时、精度不高、且效率低下。随着深度学习的发展，采用卷积神经网络(convolutional neural networks，CNN)[15]能够自动提取多尺度特征，无需人工干预，且提取的特征更为鲁棒。因此，目前大部分SOD均采用CNN提取的特征。但现有SOD方法仅能对图像场景中突出区域进行框定(bounding box，BBox)，无法将每个实例单独区分，不能满足计算机视觉领域更深入地应用需求。

而IS的提出有效解决了区域内多实例区分的问题。IS能够为图像中每个实例分配掩码，并根据各自掩码属性区分类别信息。最初的IS方法受到R-CNN二阶段目标检测框架的启发，将分割掩码的分支添加到目标检测的框架之中，其中最具有代表性的工作为HE等[16]提出的Mask R-CNN方法。之后逐渐发展出基于直接掩码生成的方法[17]和基于一阶段目标检测框架的方法[18]。

但IS是对场景内所有的实例进行区分，与人的视觉显著性特点不符。因此，为了实现对显著性目标进行实例分割，2017年LI等[19]首次提出显著性实例分割概念，结合SOD及IS的特点，在SOD为主体对象生成目标框(BBox)的基础上，额外为每个主体对象输出准确的掩码(Mask)。图1给出了显著性实例分割示意图。文献[19]设计了MSRNet (multi-scale refinement network)模型，并且创建了显著性实例分割数据集(salient instance saliency-1K，SIS-1K)。MSRNet借助对应的实例对象聚类以及预先计算的边缘图[20]取得实例对象的掩码，最终生成的掩码通过使用准确的像素分割图对每个实例对象进行标记。但MSRNet过于依赖边缘图的精度，时间成本开销较大。2019年FAN等[21]基于Mask R-CNN提出了S4Net(single stage salient instance segmentation)，该网络实现了端到端的训练方式，且受到基于传统图割的分割方法(GrabCut)启发，利用实例对象和周围背景间的关系帮助分割。但是S4Net对场景中较小显著性实例对象不易识别和分割，对较大显著性实例对象分割精度不足。

图1 显著性实例分割

近年，CNN以其良好的特征学习能力得到了广泛研究和应用，其能够提取多层多尺度特征，其中深层特征中包含丰富的语义信息，而浅层特征中包含空间结构细节。为了充分融合利用多层多尺度卷积特征，文献[22]提出了特征金字塔网络(feature pyramid networks，FPN)，此后FPN被广泛应用于目标检测和图像分割等任务。另外，其他许多工作也将多尺度特征进行融合来提升算法模型的精度。如LIU等[23]提出的PANet (path aggregation network)是基于FPN，通过构筑自底向上的信息通路促进特征信息流动；GHIASI等[24]提出的NAS-FPN通过神经网络搜索技术生成最合适的网络模型结构，从而增强特征图所含信息。显著性实例分割面临的挑战性之一就在于图像场景中目标的大小可能相差较大，难以检测到显著性实例，因此本文将基于特征金字塔进行多尺度特征增强，从而提升显著性实例分割的精度。

起源于机器翻译和自然语言处理领域的注意力机制，近年被广泛应用于计算机视觉领域。图像中应用的注意力机制可以分为软注意力[25]和硬注意力[26]。软注意力机制对图像的通道和空间敏感。使用软注意力机制计算出的结果是个[0,1]的区间数值，且可以微分，能够通过CNN计算梯度得到特征权重信息，筛选出对任务有帮助的特征；硬注意力机制则是对图像中各区域进行关注，结果非0即1。对任务有帮助的区域判定为1，其余无效区域判定为0。硬注意力是不可微的注意力机制，训练过程要通过增强学习来完成。本文将利用软注意力机制提升每个显著实例的关注度，使提取的特征信息更加完备，从而克服显著性实例分割面临的另一个挑战，即显著性区域的边界与具有相似特征的其他实例混淆或重叠。

因此，为了解决现有显著性实例分割方法的不足，本文设计了一种新的显著性实例分割模型，即注意力残差多尺度特征增强网络(attention residual multi-scale feature enhancement network，ARMFE)，该模型包括2个模块：①注意力残差网络模块(attention residual network，Att-ResNet)，通过特征权值筛选的方式提升检测分割较大实例对象的精度；②多尺度特征增强模块(multi-scale feature enhancement module，MFEM)，通过特征融合的方式提升较小显著性实例对象的分割效果。

本文模型ARMFE在显著性实例分割数据集SIS-1K上进行了实验，并与现有算法进行了比较，取得了更优的分割精度，提升了分割速度。

1 注意力残差多尺度特征增强网络

本文的显著性实例分割模型ARMFE，其框图如图2所示。由图可以看出，ARMFE主要通过特征提取、特征融合及显著分割3个阶段完成显著性实例分割。

(1) 特征提取阶段。提出基于注意力机制的残差网络模块Att-ResNet进行显著性特征提取。

Att-ResNet是在残差网络(ResNet)[27]基础上引入通道注意力(channel attention，CA)和空间注意力(spatial attention，SA)。通过通道和空间上的不同权值，筛选出属于显著实例的特征，从而克服具有相似特征的不同实例的混淆或重叠问题。

(2) 特征融合阶段。设计了多尺度特征增强模块丰富特征图上的显著实例信息。将Att-ResNet模块提取的特征先采用特征金字塔网络FPN进行初步融合，再使用本文设计的多尺度特征增强模块MFEM。通过跨尺度的特征融合以及增强模块，丰富并提纯每个特征图中显著特征信息，从而解决大小相差较大的不同尺度显著性实例分割的问题。

(3) 显著分割阶段。基于Mask-RCNN实例分割结构，将增强后的显著特征图通过检测分支和分割分支来生成边界框BBox和掩码Mask，最终组合生成显著实例分割的显著图。

图2 ARMFE框图

接下来，本文将对注意力残差网络模块Att-ResNet和多尺度特征增强模块MFEM进行详细介绍。

1.1 注意力残差网络模块

近年，由于软注意力机制相较于硬注意力机制，不仅可微且对空间通道敏感，软注意力机制被广泛应用于计算机视觉领域。软注意力机制可以赋予各类特征不同的权值，实现对特征的筛选，从而令网络模型选择出符合任务目标的相关特征。

因此，本文将软注意力机制引入残差网络，设计了注意力残差网络Att-ResNet模块对特征进行选择。该模块在残差网络基础上引入CA和SA子模块，分别在通道层次和空间层次对特征进行筛选，从而获取空间和通道所包含的显著特征信息。

1.1.1 通道注意力子模块

CA子模块采用了SENet[28]中的挤压激励模块，该模块能够在空间维度上将特征进行压缩，进而对不同通道中的特征进行选择。通过CA子模块实现将包含显著特征的通道特征赋以较大权值，同时抑制其他特征的作用。

CA子模块首先顺着空间维度进行特征压缩，并将每个二维的特征通道转换成一个具有全局感受野的标量，代表在特征通道上响应的全局分布。再通过学习特征通道间的相关参数，为每个特征通道生成对应权值。生成的权值代表了特征图上每个通道包含显著特征的程度，最后每个通道权值依次与原始特征相乘，完成在通道层次上对原始特征的筛选。

CA的具体实现及其结构如图3所示。首先将残差网络提取的初始特征图××经过全局平均池化变换为1×1×的数列，令个维度的特征图同时共享特征信息；然后经过一层全连接层(fully connected layers，FC)将特征维度降低到输入的1/16，然后经过ReLu函数激活后再通过一个全连接层升回到原来的维度。使用Sigmoid函数增强通道间相关性，每个通道计算权值后与原特征图相乘。

图3 通道注意力子模块

1.1.2 空间注意力子模块

Att-ResNet不仅采用子模块CA，实现对不同特征通道的选择。还进一步引入子模块SA，通过关注空间上的特征，进一步提高对显著特征的筛选能力。

SA子模块从空间层次出发，对同一通道的不同位置的像素进行特征筛选，再对显著特征进一步进行选择，从而增强特征提取阶段特征图中显著实例的空间位置信息。

SA子模块首先在列通道的维度通过2步并行的池化操作提取出更加丰富的高层特征，不再改变输入的特征尺寸，而是压缩成通道数为1的特征图，通过卷积核进行空间特征参数学习，进而表征出每个像素在空间位置的权值信息。生成的空间权值再与原输入特征相乘，完成空间上的特征筛选。

SA子模块具体实现和结构如图4所示。SA子模块的输入是通道注意力处理后的特征图，图尺寸为××。通过使用全局平均池化和最大池化操作，于此同时保持通道数不变，得到尺寸为××1的2张特征图。将2张特征图相加后通过卷积核为7×7的卷积层，增强空间相关性后使用Sigmoid函数，为每个通道计算权值并与原特征图相乘。

图4 空间注意力子模块

1.1.3 注意力残差网络模块

图5给出了Att-ResNet结构图，Att-ResNet的每个Block之间都集成了通道CA子模块和SA力子模块。以残差网络的第一个Block为例：初始输入图像由ResNet提取得到特征图1，然后进第一个Block内(图5中的输入)，依次经过CA和SA子模块处理，每次得到的结果均与前次输入的特征图进行乘法运算，得到特征图2，再通过跳跃连接将1与2进行相加操作，合成一个Block的最终输出3。

Att-ResNet的运行速度与普通的残差网络ResNet水平相当，将在第2节进行验证讨论。

1.2 多尺度特征增强模块

研究表明，多尺度卷积特征中的浅层特征图感受野较小，适合处理小目标；而深层特征图分辨率低，包含目标属性的语义信息更加丰富，对较大目标的处理更为有效。为了融合与利用多尺度信息，FPN被广泛应用于目标检测和图像分割。

但是，现有FPN类方法采用顺序特征信息流动方式使生成的特征图更多地关注相邻尺度信息，忽略了尺度跨度较大的特征信息。导致FPN在信息传递期间，每次融合都会将非相邻尺度中的特征信息进行稀释，导致用于分割的特征图不完整，精度不高。

因此，本文设计了一种多尺度特征增强模块MFEM。与依靠横向连接的FPN不同，MFEM首先使用不同倍率的池化和上采样的操作，将多个尺度的特征图融合为统一的单一尺度，达到集成每个尺度特有信息的作用。再利用精炼子模块整合全局信息，提取出其中的显著语义特征，将背景信息过滤，增强显著物体特征。最后再通过不同倍率的池化和上采样的操作重新生成多个固定尺寸的特征图，用于显著实例分割。另外，为了进一步增强用于分割的特征图，借助残差跳跃连接的思想，将前后2部分特征图使用残差跳跃连接进行逐元素相加操作，为精炼后的多尺度特征图补充了原始信息。

该增强结构可促进每个跨度的信息交融，及多个尺度的互补信息，达到更佳的显著性实例分割效果。结构如图6所示。

图5 注意力残差网络模块

图6 多尺度特征增强模块

多尺度特征增强模块由2部分组成：

(1) FPN特征图的缩放融合。将FPN生成的特征图尺度由大到小排列为{2,3,4,5,6}，不同尺度的特征图分别经过不同倍率的最大池化操作和双线性插值上采样运算，缩放至4尺寸后(如2经过4倍最大池化，5经过2倍上采样)进行逐元素加法运算实现多尺度特征融合及信息交融，即4ʹ。

(2) 融合特征图的精炼和重缩放(复原)。对于输出的融合特征图连续通过3个3×3卷积，并通过批归一化(batch normalization，BN)和ReLU激活函数，处理后得到4ʹ。之后进行第一步的重缩放，复原。重新生成与原有尺寸个数相同的特征图，此时每张特征图都向其他尺度共享了所包含的空间信息和语义信息。最后引入跳跃连接，将与进行融合，打通了原始信息和精炼后信息之间的路径，保证信息传递的同时进一步增强每层尺度内的特征。

另外，本模块在后续步骤中舍弃尺度较大的2，仅使用{6,5,4,3}进行检测和分割，进一步提高运行速度，同时保持较高精度。

2 实验

本文模型在数据集SIS-1K上进行了实验，并与相关方法进行了视觉与数据对比，及消融实验。

2.1 数据集和实验设置

(1) 数据集。本文采用SIS-1K数据集，该数据集是LI等[19]专门为显著性实例分割所创建。其中包含1 000张高质量图片和与显著性实例对象一一对应的手工标注分割真值图。该数据集中一部分是容易分辨的简单场景图片，另一部分为多个显著性实例对象重叠的复杂场景图片。

(2) 实验环境。本文模型采用Tensorflow 1.15深度学习框架、编程语言Python 3.6实现，在Ubuntu 18.04下使用1*GTX1080ti 11 G显卡完成实验。

(3) 超参数。从SIS-1K中随机选取500幅图像作为训练集，选取200张作为验证集，将最后剩余的300张图片作为测试集。由于数据集图片较少，在网络模型训练过程中通过水平翻转图片的方式增加图片数量。网络初始训练学习率设置为0.002，共迭代40 000次，在经过20 000次迭代后学习率变为0.000 2。权重衰减和动量分别设置为0.000 1和0.9。

(4) 比较方法。本文所提ARMFE模型的性能表现将在2.3节中与开创性工作的MSRNet以及基于Mask R-CNN的S4Net进行比较。

2.2 视觉比较

图7给出了本文模型在SIS-1K数据集上的分割效果图，并与S4Net模型和MSRNet模型进行了比较。图中从上至下，①和②行为简单背景图；③和④行为复杂场景图。①，②行与③，④行的不同处在于图中显著性实例对象的数量及大小。

图7 显著实例分割效果图

通过视觉比较可以看出，无论在分割难度低的简单背景，还是分割难度较高的复杂背景，本文模型ARMFE在单目标场景的检测框更加完整，分割出的实例掩码也更加完整。例如，①行中火车车顶能够完整包含进检测框内，③行的人像腿部掩码覆盖面积更加接近真值图；对于包含尺度不一的实例对象场景，本文所提多尺度特征增强模块能够通过共享不同尺度特征图内的信息解决较小目标漏检及错检问题。在MSRNet中，②行距离较近的鹿掩码无法区分出现粘连，③行错误的将右下角也作为显著实例进行了掩码生成；在S4Net中，②行左上角的鹿未被检测分割，④行的2名行人被误认为同一实例，这些问题在使用注意力机制和多尺度特征增强结合的算法后得以解决。

2.3 数值比较

本节给出了ARMFE模型在SIS-1K数据集上运行结果，并与MSRNet、S4Net进行了比较。

本文采用Microsoft COCO公开评估指标计算mAP0.5和mAP0.7。mAP0.5为交并比阈值为0.5下的平均精度；mAP0.7为交并比阈值为0.7下的平均精度。其中mAP数值越大，该算法性能越强；Times数值越小，算法的运行速度越快。表1列出了3种显著性实例分割算法的数值对比。S4Net与本文模型在2.1节所述实验环境下，超参设置及迭代次数均保持一致。MSRNet采用其原文数据。“N/A”为算法原文未给出数据。

从表1可以看出，本文的ARMFE无论使用交并比阈值为0.5的平均精度(mAP0.5)还是阈值为0.7的平均精度(mAP0.7)衡量，均优于MSRNet和S4Net的表现，说明本文所提的网络模型能够有效提升显著性实例分割的精度。使用ResNet-50为基础模型时，ARMFE相较S4Net 在mAP0.5上的结果提升了7.1%，在mAP0.7上提升5.9%。2项指标消耗的时间成本分别增加0.003 s和0.002 s，证实了ARMFE在提升分割精度的情况下，依然能够保持高速实时的特性。

表1 不同显著性实例分割算法的精度对比

2.4 消融实验

本节对模型ARMFE中的模块进行消融实验，验证每个模块的有效性并详细阐述各自功能。结果见表2。

表2 消融实验

注：黑体为最优数据

在ResNet-50为基础模型的情况下，实验分别添加了AM和MFEM，得到的数据显示：每个模块比表1中S4Net的平均精度均有不小提升。其中单独使用AM网络的mAP0.5从82.0%涨至87.2%，提升5.2%；mAP0.7从61.4%涨至65.1%提升3.7%。单独使用MFEM得到网络mAP0.5提升4.7%；mAP0.7提升2.0%。此时AM的表现相较于MFEM更加突出，同时仅付出0.001的时间开销。以ResNet-101为基础模型，单独使用AM的mAP0.5则下降了0.3%，mAP0.7持平；单独使用MFEM，mAP0.5和mAP0.7均能获得0.5%的提升。

结合不同深度基础模型下AM及MFEM的表现，可以得出AM的性能表现与网络深度有关，在较浅层的ResNet下能够有效帮助特征提取，为检测分割提供良好的帮助；但在深层网络后则显得较为乏力，反观MFEM无论网络层数深浅，均能发挥良好作用，保持网络精度的提升。

AM和MFEM组合能够获取稳定的精度提升。但从时间成本上看，深层网络付出开销占比较大，同时精度提升较小。因此，本文最终选择ResNet-50作为基础网络框架。

实验证明，本文模型ARMFE能够在有效改善当前显著性实例分割任务所存在的显著对象漏检、错检及掩码覆盖精度问题。

3 结束语

本文模型ARMFE能够更好地解决显著性实例分割任务中尺度不一的实例对象漏检和错检问题，以及单个实例掩码检测框不准确、覆盖精度不足的问题，还实现了精度与速度间的平衡。与当前相关工作对比，不仅精度有所提高，而且视觉上感知更加直观明显。后续将更加关注如何有效地利用特征图，进一步提高显著性实例分割中实例对象的掩码精度。

[1] LI F F, VANRULLEN R, KOCH C, et al. Rapid natural scene categorization in the near absence of attention[J]. Proceedings of the National Academy of Sciences, 2002, 99(14): 9596-9601.

[2] ELAZARY L, ITTI L. Interesting objects are visually salient[J]. Journal of Vision (Electronic Resource), 2008, 8(3): 3.1-3.15.

[3] WANG B, CHEN Q, ZHOU M, et al. Progressive feature polishing network for salient object detection[C]//The 34th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2020: 12128-12135.

[4] BORJI A, CHENG M M, HOU Q, et al. Salient object detection: a survey[J]. Computational Visual Media, 2019, 5(2): 117-150.

[5] QIN X B, ZHANG Z C, HUANG C Y, et al. BASNet: boundary-aware salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7471-7481.

[6] CHEN H, SUN K Y, TIAN Z, et al. BlendMask: top-down meets bottom-up for instance segmentation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 8570-8578.

[7] BOLYA D, ZHOU C, XIAO F Y, et al. YOLACT: real-time instance segmentation[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE Press, 2019: 9156-9165.

[8] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.

[9] CHEN K, PANG J M, WANG J Q, et al. Hybrid task cascade for instance segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 4969-4978.

[10] ANDERSON P, HE X D, BUEHLER C, et al. Bottom-up and top-down attention for image captioning and visual question answering[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6077-6086.

[11] ZENG W, WANG S, LIAO R, et al. Dsdnet: deep structured self-driving network[C]//The 16th European Conference on Computer Vision. Heidelberg: Springer, 2020: 156-172.

[12] VIAZOVETSKYI Y, IVASHKIN V, KASHIN E. StyleGAN2 distillation for feed-forward image manipulation[C]//The 16th European Conference on Computer Vision. Heidelberg: Springer, 2020: 170-186.

[13] PARK D, SEO Y, SHIN D, et al. A single multi-task deep neural network with post-processing for object detection with reasoning and robotic grasp detection[C]//2020 IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE Press, 2020: 7300-7306.

[14] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.

[15] CHAUHAN R, GHANSHALA K K, JOSHI R C. Convolutional neural network (CNN) for image detection and recognition[C]//2018 First International Conference on Secure Cyber Computing and Communication (ICSCCC). New York: IEEE Press, 2018: 278-282.

[16] HE K M, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2980-2988.

[17] NEVEN D, BRABANDERE B D, GEORGOULIS S, et al. Towards end-to-end lane detection: an instance segmentation approach[C]//2018 IEEE Intelligent Vehicles Symposium (IV). New York: IEEE Press, 2018: 286-291.

[18] XIE E Z, SUN P Z, SONG X G, et al. PolarMask: single shot instance segmentation with polar representation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2020: 12190-12199.

[19] LI G B, XIE Y, LIN L, et al. Instance-level salient object segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 247-256.

[20] PONT-TUSET J, ARBELAEZ P, T BARRON J, et al. Multiscale combinatorial grouping for image segmentation and object proposal generation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(1): 128-140.

[21] FAN R C, CHENG M M, HOU Q B, et al. S4Net: single stage salient-instance segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 6096-6105.

[22] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 936-944.

[23] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8759-8768.

[24] GHIASI G, LIN T Y, LE Q V. NAS-FPN: learning scalable feature pyramid architecture for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 7029-7038.

[25] FU J, LIU J, TIAN H J, et al. Dual attention network for scene segmentation[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 3141-3149.

[26] ZHAO B, WU X, FENG J S, et al. Diversified visual attention networks for fine-grained object classification[J]. IEEE Transactions on Multimedia, 2017, 19(6): 1245-1256.

[27] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.

[28] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7132-7141.

Salient instance segmentation via attention residual multi-scale feature enhancement

SHI Cai-juan, CHEN Hou-ru, GE Lu-lu, WANG Zi-wen

(College of Artificial Intelligence, North China University of Science and Technology, Tangshan Hebei 063210, China)

Salient instance segmentation is to segment the most noticeable instance object in the image. However, there remain some problems in the existing methods of salient instance segmentation. For example, the small salient instances are difficult to be detected and segmented, and the segmentation accuracy is insufficient for large salient instances. Therefore, to solve these two problems, a new salient instance segmentation model, namely the attention residual multi-scale feature enhancement network (ARMFE), has been proposed. ARMFE includes two modules, i.e. the attention residual network module and the multi-scale feature enhancement module. The attention residual network module combines the residual network with the spatial attention sub-module and the channel attention sub-module to enhance the features. The multi-scale feature enhancement module can further enhance the information fusion for features with large scale span based on the feature pyramid. Therefore, the proposed ARMFE model canmake full use of the complementary information of multi-scales features by attention residual multi-scale feature enhancement, and then simultaneously improve the accuracy of detecting and segmenting large instance objects and small instance objects. The proposed ARMFE model has been tested on the salient instance segmentation dataset Salient Instance Saliency-1K (SIS-1K), and the segmentation accuracy and speed have been improved. This indicates that our proposed model outperforms other existing salient instance segmentation algorithms, such as MSRNet and S4Net.

salient instance segmentation; attention mechanism; residual network; multi-scale; feature enhancement

TP 391.4

10.11996/JG.j.2095-302X.2021060883

2095-302X(2021)06-0883-08

2021-04-12；

2021-05-21

国家自然科学基金项目(61502143)；河北省研究生示范课项目(KCJSX2019097)；华北理工大学杰出青年基金项目(JQ201715)；唐山市人才资助项目(A202110011)

史彩娟(1977-)，女，河北唐山人，教授，博士。主要研究方向为图像处理、计算机视觉等。E-mail：scj-blue@163.com

21 May，2021

12 April，2021；

National Natural Science Foundation of China (61502143);Graduate Model Class Project of Hebei Province (KCJSX2019097); Distinguished Youth Foundation of North China University of Science and Technology (JQ201715); Talent Foundation ofTangshan (A202110011)

SHI Cai-juan (1977-), female, professor, Ph.D. Her main research interests cover image processing, computer vision, etc. E-mail：scj-blue@163.com

免责声明

我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!

注意力残差多尺度特征增强的显著性实例分割