时间:2024-05-04
温尧乐 李林燕 尚欣茹 胡伏原,3*
1(苏州科技大学电子与信息工程学院 江苏 苏州 215009)2(苏州经贸职业技术学院 江苏 苏州 215009)3(苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室 江苏 苏州 215009)4(苏州科技大学苏州市大数据与信息服务重点实验室 江苏 苏州 215009)
实例分割是计算机视觉的主要研究内容之一,它是将图像中不同类别的个体精准地分割出来,对图像中的每一个像素都进行类别的标注,并对同一类别的不同个体进行区分。随着深度学习的快速发展,精确且高效的实例分割技术的需求越来越大,如在自动驾驶、智慧农业、视频监控等领域,该技术得到了越来越多研究人员的关注。
目前实例分割的大多数方法是基于候选区域的。Pinheiro等[1]提出的DeepMask通过输入图像中出现的实例来输出预测候选掩膜,以此分割出每个实例对象,但是对边界分割的准确度较低;Dai等[2]使用共享特征图将提议的实例对象从边界框中分割出来,大大提高了计算速度;Chen等[3]提出了Deeplab网络结构,该网络中使用空洞卷积核,从而使得在增加卷积感受域的同时保持特征图的尺寸不变,避免了最后需要对特征图进行上采样来扩大尺寸造成的分割结果不精细的弊端;Li等[4]提出的全卷积实例分割(FCIS)是首个端到端的实例分割框架,通过对位置敏感的得分图[5]进行改进,FCIS同时预测边界框和实例掩膜,但FCIS对处理重叠对象实例时,在其重叠区域分割效果相对薄弱,仅粗略地检测各个实例对象的边界;He等[6]提出的Mask RCNN框架有较为精细的实例分割结果。该框架基于Faster RCNN[7]用于检测目标和分类,利用全卷积网络(FCN)[8]用于掩模预测,使用特征金字塔网络(FPN)[9]提取网络中的特征层次,区域建议网络(RPN)根据提取的特征生成边界框,提出的兴趣区域对齐算法(RoIAlign)来获得精确的感兴趣区域并产生实例级结果。但是对基于候选区域的实例分割方法而言,其分割准确度非常依赖于区域建议网络(RPN),而对生成特征的利用效率极大的影响RPN的性能,这是目前此类方法亟待解决的问题。
由于低层次特征信息的传播效率对于增强整个特征层次有较大影响,而Mask RCNN中低层次特征与高层次特征的融合路径太长,导致了低层特征的位置信息没有被很好的利用。为了增强低层特征在全局特征中的作用,本文利用低层特征中具有的目标位置信息,引入一条自下而上的特征融合路径,缩短了低层特征与高层特征的融合路径,提高了特征金字塔网络融合特征的能力。另外,由于传统卷积神经网络中卷积核的大小与其感受域是一对矛盾,导致在上采样过程中图像信息损失严重。故在卷积神经网络中借助空洞卷积核来扩大感受域,减小提取高层特征图像信息的损失[10,12],提高了掩膜预测准确度。
Mask RCNN实例分割包括:定位目标、目标类别分类、分割掩膜预测三个部分。如图1所示。首先输入一幅图片后,利用特征金字塔网络(FPN)经过一系列的卷积、池化操作提取出图像的特征图(feature map);其次RPN[7]网络在特征图上选定出候选目标,使用softmax分类器来判别候选目标属于背景还是前景,同时利用范围框回归器修正候选目标的位置,生成候选目标区域。最后利用全卷积网络(FCN)预测相应的目标分割掩膜。分类网络利用特征图和RPN网络生成的候选区域实现目标类别的检测,FCN利用特征图实现目标的像素级精确分割。由于FPN低层特征与高层特征的融合路径较长,导致低层特征的作用没有被充分利用起来。
图1 Mask RCNN框架结构
为提升基于侯选区域的实例分割框架内的各层次特征的信息传播与融合[11,13],在特征金字塔结构(FPN)的基础上引入一条自下向上的路径来增强低层特征中的位置信息,建立低层特征和高层特征之间的特征信息融合路径。
本文以ResNet作为基础网络结构,使用FPN生成的特征网络阶段P2、P3、P4[9],FPN高层特征(P4)向下与低层特征(P2)的融合路径如图2(a)所示。每个阶段的最后一层特征作为该阶段的输出特征。在自下而上的融合路径中,L2和P2完全相同。首先,对L2特征进行步幅为2的3×3卷积核来缩小空间尺寸。其次,通过横向连接与较高层特征(P3)逐元素相加(经过1×1卷积核,保持通道数目相同)生成融合后的特征阶段(L3)。最后将融合后的特征阶段经过多层卷积生成该阶段的特征图,并将最后一层的特征图输出。这是一个逐层迭代的过程,到达顶层(P4)后终止,如图2(b)所示。至此从低层到高层的特征融合路径能够达到5层到10层之间(图2长虚线),相比之下,FPN中由低层到高层的特征融合路径达到了100层以上(图2短虚线)。其中,横向连接特征融合如图3所示。
(a) 自上而下 (b) 自下而上图2 特征融合路径
图3 自下而上特征融合操作
经融合后生成的L2、L3、L4共同组成新的特征金字塔结构,新的特征金字塔结构组成的各层特征供后续网络使用。为了能使每层输出的特征在后续的网络中共享一个分类层,每层的特征图始终保持256的通道数的输出。
局部感受域是卷积神经网络(CNN)中非常重要的一个概念,但是CNN在做实例分割任务时,会导致最后的特征图尺寸远远小于输入图像的尺寸。最终预测得到的分割掩膜(Mask)会由于过度上采样而比较粗糙。由于空洞卷积算法能够控制卷积核的rate的大小,从而能够得到不同大小的卷积感受域,因此该算法解决了CNN中对于提高感受域和保持特征图尺寸之间的矛盾的问题[3,10,12]。图4(a)中显示的是传统的3×3大小的卷积核作用的感受域,与rate=1的3×3大小的空洞卷积核感受域相同,每次覆盖的区域是3×3大小的。图4(b)中对应的是rate=2的3×3大小的空洞卷积核作用的感受域,该卷积核仍然是3×3大小的,但是该卷积核的感受域增大到了7×7。
(a) rate=1 (b) rate=2图4 空洞卷积示例
本文在特征金字塔结构中加入3种不同rate的空洞卷积核来提取特征,对每个金字塔阶段的最后一层输出特征进行空洞卷积操作,在空间尺寸很小的高层特征中,比较好地保留了高层特征信息;这些全局的共享特征输出到FCN网络中,在卷积层中仍然使用3种不同rate的卷积核,在上采样过程中保留了更多的图像信息,最终在像素级的类别预测阶段,能够有效提高掩膜预测的准确度。
本文算法的具体实现使用的是深度学习框架Tensorflow[14],实验环境为Ubantu14.04操作系统,使用4块NVIDIA 1080Ti图形处理器(GPU)加速运算。以ResNeXt-101-FPN网络作为基准网络,在Microsoft COCO[15]数据集上训练所有模型。该数据集由30多万幅图片、80个类别构成。本文在trainval35k子集共80 000万幅图片来进行训练,在minival子集共5 000幅图片来进行测试和验证。
实验使用随机梯度下降法进行训练,设置衰减系数为0.000 1,动量系数为0.9,初始学习速率设置为0.002。使用的评价指标为预测的类别像素点和正确的类别像素点的准确度(intersection over union,IoU),以及平均IoU(Mean intersection over union,mIoU),其定义如下:
(1)
(2)
式中:nii代表类别为AP50的像素点数目被预测为类别i的像素点数目(即正确分割的像素点数目);nij代表类别为i的像素点数目被预测为类别j的像素点数目;nji代表类别为j的像素点数目被预测为类别i的像素点数目;N表示类别数。另外,定义IoU阈值超过0.5和0.75时的指标AP50和AP75,如表1所示。结果表明,通过引入自下而上的特征融合路径,增强了低层特征的作用后,对物体的分割平均准确度提高了3.7%。
表1 三种分割方法测试结果对比
图像实例分割结果如图5所示,本文方法与Mask RCNN相比,对于大目标的分割更加精细,这是由于低层特征位置信息与高层特征融合后的作用;对于小目标而言,由于空洞卷积核的使用,上采样过程中图像细节损失没有之前严重,使得一些小目标被检测和识别,改善效果细节如图6所示。
(a) 原图 (b) Mask RCNN(c) 本文方法图5 不同方法分割结果示例
(a) Mask RCNN分割细节
(b) 本文方法分割细节图6 改善效果细节图
本文提出一种改进的Mask RCNN特征融合实例分割方法。通过在特征金字塔网络的基础上引入一条自下而上的特征融合路径来改善全局特征,有效利用了低层次特征的优点。在COCO数据集下的实验结果表明,所提方法有效提高了实例分割的准确度。
由于掩膜的预测是基于单个网络阶段的输出,这对于目标尺寸差别较大的时候并没有最佳匹配到相应的特征层级,未来考虑将融合后的多层次特征用来自适应目标尺寸大小,使各个特征层次的优势得到有效利用。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!