时间:2024-05-04
毕阳阳,郑远帆,史彩娟+,张 昆,刘 健
1.华北理工大学 人工智能学院,河北 唐山 063210
2.河北省工业智能感知重点实验室,河北 唐山 063210
图像内容按照是否有固定形状可以分为两个类别,即背景(stuff)和前景(things)[1]。背景是指没有固定形状的不可数语义类,例如天空、沙滩和地面等;而前景则是包括有固定形状的可数实例类,例如汽车、建筑物和动物等。近年,随着深度学习的迅猛发展,基于深度学习的图像分割[2]技术,特别是语义分割(semantic segmentation)[3]、实例分割(instance segmentation)[4]和全景分割(panoptic segmentation)[5]得到了广泛研究,成为当前计算机视觉领域的一个重要研究热点。如图1所示,图像语义分割主要是对图像中每一个像素点进行类别预测,实现图像的像素级别分割。图像实例分割是在目标检测[6]的基础上融合了语义分割,实现对实例对象进行像素级别的分割,它在对像素点进行分类的同时赋予每个像素点相对应的实例ID。一般来说,语义分割关注的是图像背景的分割,而实例分割则关注的是图像前景的分割。为了统一语义分割与实例分割的工作,2018 年FAIR(Facebook Artificial Intelligence Research)与德国海德堡大学联合提出了一项新的分割任务——全景分割[5]。全景分割融合了语义分割与实例分割,其主要任务是对场景图像中每一个像素点进行语义类别预测,并为属于实例目标的像素赋予实例识别号,以实现更为全面的场景理解。此外,全景分割允许不同场景组件的良好可视化,并且可以作为一种全局技术呈现,包括检测、定位以及各种场景部分的分类。
图1 图像分割Fig.1 Image segmentation
目前已有相关文献对图像语义分割和图像实例分割进行了系统的介绍和总结,但对于图像全景分割方法的系统介绍还很少。因此,本文将近几年出现的不同的图像全景分割方法进行综述介绍,首先介绍图像全景分割的研究现状,然后对图像全景分割的方法进行分类阐述,接着介绍了图像全景分割中常用的数据集及评价准则,并对代表性的方法进行了性能比较,列举了图像全景分割的现实应用,最后进行了总结及未来趋势的展望。
全景分割的雏形最早出现在2017年,Dvornik等人[7]提出了BlitzNet,是一种将目标检测和语义分割任务联合执行的网络模型。为了满足场景理解任务同时关注场景语义信息和个体实例的需求,2018年,Kirillov 等人[5]提出了全景分割的概念,并在2019 年的CVPR 中设计出一个简单有效的全景分割网络Panoptic FPN[8]。Panoptic FPN 网络在框架层面上将FPN[9]与Mask R-CNN[10]结合起来,通过融合FPN 的语义分割结果与Mask R-CNN 的实例分割结果来形成场景图像的全景分割结果。这种利用语义分割和实例分割两个子网络独立分割,再对分割结果进行融合的方法成了近几年来全景分割研究的主流。目前,已有大量的全景分割网络模型被提出,主要有弱监督模型[11]、JSIS-Net[12]、TASCNet[13]、AUNet[14]、Panoptic FPN[8]、UPSNet[15]、DeeperLab[16]、OANet[17]、FPSNet[18]、SOGNet[19]、Panoptic-DeepLab[20]、BBFNet[21]、Axial-DeepLab[22]、BANet[23]、EfficientPS[24]、BGRNet[25]、LPSNet[26]、Panoptic FCN[27]、MaX-DeepLab[28]、SPINet[29]、CABB[30]、Ada-Segment[31]、CVRN[32]、PPS[33]、Panoptic SegFormer[34]、CMT-DeepLab[35]、PanopticDepth[36]、Panoptic-PartFormer[37]和kMaX-DeepLab[38]等。图2给出了近年来图像全景分割的代表性方法。
图2 代表性的图像全景分割算法Fig.2 Representative image panoptic segmentation algorithms
全景分割重点在于为每个像素分配一个语义标签和实例ID,处理流程如图3 所示,主要包括特征提取[39-41]、子任务分割、子任务融合三个步骤。对于输入一幅图像,首先进行特征提取;然后将提取的特征分别输入语义分割与实例分割两个子任务分支进行处理,分别产生语义分割与实例分割两个子任务输出;最后将语义分割与实例分割两个子任务结果进行融合,产生最终的全景分割预测。
图3 图像全景分割流程示意图Fig.3 Schematic diagram of image panoptic segmentation process
本章对基于深度学习的图像全景分割方法进行了分类阐述。根据对全景分割三个步骤优化情况的不同,现有的图像全景分割可以分为基于特征提取优化的图像全景分割、基于子任务分割优化的图像全景分割、基于子任务融合优化的图像全景分割。另外,还有其他一些图像全景分割方法。
表1 给出了基于不同优化机制的图像全景分割的典型方法,以及它们的优势与局限性。
表1 不同类型图像全景分割方法分析比较Table 1 Analysis and comparison of different types of image panoptic segmentation methods
图像全景分割的核心步骤之一为特征提取,为后续步骤提供有用的特征信息,从而提升全景分割的性能。因此,将对特征提取网络进行有效优化的全景分割方法称为基于特征提取优化的图像全景分割。在全景分割特征提取优化的分类中,可以分为自上而下和自下而上两种方法。
2.1.1 自上而下的图像全景分割方法
大多数最先进的图像全景分割方法一般采用自上而下(top-down)或基于候选区域(box-based)策略。具体来说,通常遵循先检测后分割的原则,部署Mask R-CNN来提取重叠的实例,然后通过一些处理方法解决掩码重叠问题,最后用轻量级的背景分割分支填充剩余区域。
Kirillov 等人[8]通过赋予Mask R-CNN 一个使用特征金字塔网络(feature pyramid network,FPN)[9]主干的语义分割分支,在架构层面将这两种方法结合成一个单一网络来同时完成实例分割和语义分割的任务,提出了Panoptic FPN模型。FPN作为全景分割的特征来源,能够提供丰富的多尺度特征。
对语义分割来说,带空洞卷积的全卷积神经网络(fully convolutional networks,FCN)是最优的;对实例分割来说,具有FPN结构的Mask R-CNN在竞赛中被广泛采用,这两个方法在架构上存在差异,如果单纯地进行组合,可能会在语义分割或者实例分割上牺牲准确性。Panoptic FPN模型克服了这个缺点,采用统一的FPN提取特征分别实现实例分割与语义分割,该模型成为全景分割的一个基线方法,是基于候选区域的代表性方法。但是,Panoptic FPN模型的输出模块仍采用启发式方法,该方法依赖于实例分割分支的预测结果,会产生速度较慢、计算复杂等问题。
自上而下的方法需要为每个实例对象生成一个边界框,对于实例检测来说非常有效。但是,以这种方式预测实例掩码会消耗大量的计算资源并且自上而下的方法高度依赖于边界框的性能。
2.1.2 自下而上的图像全景分割方法
自下而上(bottom-up)或无候选区域(box-free)的图像全景分割方法,通常通过将“前景”像素分组到集群中在检测实例之前获得语义分割预测。
Yang 等人[16]通过使用一种简单的全卷积网络方法对整个图像进行解析来生成像素语义和实例预测,提出了一种单次、自下而上的DeeperLab模型,用来同时处理语义分割和实例分割的任务。模型采用边界框角以及对象中心进行与类无关的实例分割,再加上DeepLab[42]语义分割,在Mapillary Vistas 数据集上获得了良好的全景分割结果。该模型是最具代表性的自下而上的全景分割方法,但该模型存在着处理高度可变形的物体比较困难的问题,在此基础上进行优化,其他自下而上的全景分割方法不断被提出[20,22,28,35,38]。
自下而上的方法通常从语义分割预测开始,然后通过分组和聚类等操作生成实例掩码。这种方法生成的输出预测简单而快速,消除了生成边界框的步骤,获得较好的实时性。但是,相对于自上而下的方法,全景质量却有所下降。
图像全景分割的核心步骤之二为子任务分割。骨干网络提取的特征需要被语义分割和实例分割任务共享,进行后续子任务分割处理。为了提升全景分割的性能,对子任务分割模块进行有效优化,该类方法称为基于子任务分割优化的图像全景分割。根据语义分割与实例分割两个子任务在优化过程中的串并关系不同,基于子任务分割优化的图像全景分割可以分为两种方式:语义分割与实例分割并行运行的子网络分割方法和语义分割与实例分割串行运行的子网络分割方法。下面对两种分割方法进行详细介绍。
2.2.1 子网络并行分割方法
语义分割子任务与实例分割子任务分别从特征提取网络中获取特征,然后两个子任务并行分割,之间不存在先后关系,一个子任务的输出不作为另一个子任务的输入。
为了获取两个子任务之间的互补信息,Li等人[14]在PanopticFPN的基础上对语义分支和实例分支之间进行优化,提出了一种注意力[43]引导的统一网络AUNet。在背景分支中添加了两个注意源,即区域候选网络(region proposal network,RPN)[44]和前景分割掩码,分别提供对象级别和像素级别的注意。模型中还设计了建议注意模块(proposal attention module,PAM)和掩码注意模块(mask attention module,MAM)两个注意力机制,试图互补前景的信息和背景的信息,这种方法被推广到不同的主干上,在前景和背景分割中具有一致的准确度增益,并且在MS-COCO和Cityscapes数据集上获得了良好的分割结果。
为了使语义分割子任务的输出与实例分割子任务的输出保持一致,Li 等人[13]在PanopticFPN 的基础上提出了一种端到端的全景分割模型TASCNet,背景头使用完全卷积层来密集预测所有的背景类别和一个额外的前景掩码,前景头使用基于区域的卷积神经网络(convolutional neural networks,CNN)层进行实例检测与分割,在这两个预测头之间,加入了TASC(things and stuff consistency)模块,用于在训练过程中保持语义分割和实例分割这两个子任务的输出分布之间对齐,以确保预测之间的一致性。但是模型当中采用大量上采样操作破坏目标边缘的特性,出现分割失效。
在全景分割中,希望可数和不可数实例能够被统一表示,但是统一表示面临前景和背景的属性冲突,并且前景和背景中也有不同的类别。一个好的网络应该是对不同的类别有良好的区分性,使其类间差异较大,类内差异较小。因此,Li 等人[27]提出了一个完全卷积的统一表示框架,称为Panoptic FCN。Panoptic FCN 使用统一的完整卷积通道来预测前景和背景。该模型由核生成器、核融合器和特征编码器三部分组成。内核生成器将每个对象实例或背景类别编码为特定的内核权重。核融合器对不同阶段生成的核权值进行融合,保证了前景的实例感知和背景的语义一致性。通过将融合的核权值与编码后的特征值进行卷积,网络直接输出全景图像分割结果。Panoptic FCN采用简单、高效、实用的框架,实现了高效率。但模型本身存在前景实例对象的分割准确率与图像中远距离小目标的分割效果不是很理想的问题。
子网络并行分割方法在两个子任务之间通过添加注意力、对齐模块和核权重等方式,提高了图像全景分割的精度。但模型需要对两个子任务的结果进行融合,融合过程就会产生语义分支与实例分支之间的冲突以及实例分支内部的冲突。
2.2.2 子网络串行分割方法
两个子任务之间存在先后关系,一个子任务的输出作为另一个子任务的输入。
Li等人[11]提出了一个弱监督[45]全景分割模型,该模型首先采用语义分割子网络获得语义分割结果,同时设计了一个目标检测器获取图像中的目标信息,然后将二者输入到实例分割子网络,完成最终的全景分割。该模型在图像中实例数量难以预测,不适用于具有多个背景类的图像。
Cheng 等人[20]在DeepLab 的基础上,通过采用特定于语义和实例分割的双空洞空间卷积池化金字塔(atrous spatial pyramid pooling,ASPP)[42]和双解码器结构,提出一种基于自下而上的全景分割模型Panoptic-DeepLab。模型先进行语义分割,再根据分割的结果去获取实例。模型预测语义分割、实例中心预测和实例中心回归三个输出。通过将预测的前景像素分组到最接近的预测实例中心获得与类别无关的实例分割,然后通过多数投票规则与语义分割相融合,以生成最终的全景分割。
Wang等人[22]在Panoptic-DeepLab 的基础上提出了一种新的子网络串行分割方法,即轴向注意力模型Axial-DeepLab。该模型引入位置敏感的自注意力机制,将二维注意力依次分解为沿高度轴和宽度轴方向的两个一维注意力,不仅可以进行高效的计算,而且可以恢复模型中较大的感受野。但是该模型也存在处理可变形或者中心点重合的物体比较困难的问题。为了克服由于全景分割模型依赖于候选区域,导致预测的实例掩码往往是低分辨率的问题,Sun 等人扩展了Panoptic-Deeplab 的体系架构提出了全景优化网络PRN(panoptic refinement network)[46],通过引入包括前景掩码、坐标卷积和预测每个像素上的包围盒偏移的新元素来实现的。从基本的全景分割模型中提取掩码,并对其进行联合优化来产生一致的结果。
子网络串行分割方法中两个子任务减少了融合的过程,避免融合冲突的产生,但后一个子任务总是依赖于前一个子任务的结果,导致分割性能整体偏低。
全景分割的核心步骤之三为子任务融合。子任务融合是将语义分割和实例分割两个子任务分割产生的具有差异的分割结果进行有效融合,生成最终的全景分割图。一些方法采用不同的融合策略,设计不同的子任务融合方法来提升全景分割的性能,该类方法称为基于子任务融合优化的图像全景分割。现有方法中子任务融合一般采用启发式融合方法或全景头融合方法。
2.3.1 启发式融合方法
启发式算法是基于最优化方法提出的,指在有限的时间和空间内,找到解决问题的一个可行方案。实际上就是在有限时间里给出相对不错的答案。常用的算法有遗传算法、模拟退火算法和粒子群算法[47-48]等。启发式融合方法最早由何恺明于Panoptic Segmentation[5]中基于启发式算法提出,该方法依赖于实例分割分支的预测结果,即先将实例分支预测的前景对象分类掩码覆盖到原始图像作为基础,之后将语义分割分支背景类的预测结果覆盖到相应位置,最终形成全景分割预测。
De Geus等人[12]通过使用启发式融合方法结合了来自联合训练的语义和实例分割网络的预测,提出了一种单一网络模型JSIS-Net(joint semantic and instance segmentation network)进行全景分割。该模型使用ResNet50[40]网络结构进行特征提取,通过采用金字塔池化模块(pyramid pooling module,PPM)[49]完成语义分割,采用Mask R-CNN 完成实例分割,最后通过启发式融合方法来合并语义分割和实例分割的结果,得到全景分割。然而,在融合过程中,如果没有足够的上下文信息,对象实例之间的重叠关系很难被确定。为了解决这个问题,Liu 等人[17]在子任务融合方法中引入了一种新的空间排名模块来处理预测实例之间的遮挡,提出了一种新型用于全景分割的端到端遮挡感知网络OANet(occlusion aware network)。该模型使用FPN网络为背景分支和实例分支提供特征图,两个分支生成中间结果,传递给空间排名模块,空间排名模块学习每个实例的排名分数作为最终的合并证据。
启发式融合方法简单易行且占用的计算资源不是很高。但随着研究的深入,启发式融合方法的缺陷也逐渐暴露出来,首先是对图像中的小目标不太敏感,其次是前景与背景对象交界处像素类别分配出现冲突,影响全景分割预测输出。
2.3.2 全景头融合方法
全景头(panoptic head)融合方法是指将语义分割的结果和实例分割的结果进行融合。其中语义分割输出的Stuff 类作为全景分割的输出,实例分割输出的Thing 类作为索引选择,经滤除堆叠处理后,作为全景分割Thing类的最终输出。
Xiong等人[15]在子任务融合阶段设计了独特的无参数全景头模块对获得的背景和前景对象信息进行融合,提出了一个统一的全景分割网络UPSNet。该模型将语义分支的预测结果分为前景与背景两类,背景类对象的掩码作为最终的全景预测背景输出,前景类对象结合实例分支输出,从通道维度利用softmax 函数计算像素的落点通道从而确定其归属区域,若在背景对象通道内则该像素属于背景对象,否则属于前景对象,最后结合背景类掩码形成全景分割输出。此外,无参数全景头非常轻巧,可以与各种主干网络一起使用,促进了端到端的训练。
De Geus 等人[18]通过引入全景头模块(panoptic head)提出了一个用于快速全景分割的端到端网络FPSNet(fast panoptic segmentation network),该模型能够实现实时的分割任务,不需要计算成本极高的实例掩码预测或启发式融合方法,而是通过将全景分割任务转换为自定义的像素级密集分类任务来实现,该任务将类别标签或实例ID 分配给每个像素。这是一种端到端的网络架构,能够学习解决类与实例之间的冲突。
全景头融合方法是当前采用较多的冲突处理策略,通过对通道维度的像素进行计算确定类别来生成最后的融合结果,虽然分割效果较好但花费时间,影响网络推理速度。
除了针对上述三个核心步骤的全景分割方法以外,还有其他一些方法,如多任务优化的全景分割方法和基于Transformer的全景分割方法等。
2.4.1 多任务优化方法
图像全景分割的核心步骤有三个,在设计过程中可以对其中两个步骤或者三个步骤同时进行优化,该类方法称为多任务优化方法。该方法可以克服计算开销大,且每个网络的预测存在差异不易结合的缺点,从而进一步提升计算效率和精度。
Mohan等人[24]通过同时对特征提取网络和子任务融合模块进行有效优化,提出了一种高效的全景分割网络模型EfficientPS(efficient panoptic segmentation)。设计了一个双路特征金字塔网络(2-way feature pyramid network),实现信息的双路流动,在运行时间上保持变化不大的同时,大幅提高了前景类的全景分割质量;同时设计了一种全新的全景融合模块,可根据语义头和实例头的掩码的置信度自适应地动态调整融合,以产生更好的全景分割输出。
Hong等人[26]提出了一种轻量级的全景分割网络LPSNet(lightweight panoptic segmentation network),该模型同时优化了特征提取和子任务融合部分。通过添加金字塔池化模块来增加FPN 的经验感受野,并使用二步卷积将典型FPN 的金字塔扩展两个级别,增强了特征提取。同时,模型中设计了一个无参数的头,更好地融合语义分割与实例分割子任务,提升全景分割性能。
为了减少计算开销,Hu 等人[50]提出了一个实时全景分割框架YOSO(you only segment once),设计了一个高效的特征金字塔聚合器和一个轻量级的可分离动态解码器,分别用于特征提取和子任务融合部分。特征金字塔聚合器以卷积优先的方式重新参数化插值优先模块,解码器通过可分离的动态卷积执行多头交叉注意,提高了解码器的速度和精度。
为了解决在边界附近的不规则掩膜预测问题,Chang等人[51]提出了基于轮廓的增强特征的全景分割网络SE-PSNet(Silhouette-based enhancement feature for panoptic segmentation network)。该模型能够预测实例边界上的高质量掩码,有助于区分不同的实例,并且使用新提出的置信度来解决遮挡问题,使网络采用更高质量的掩膜作为预测结果。
2.4.2 基于Transformer的方法
为了获得更丰富的全局信息,自注意力机制得到了广泛研究,并被应用于图像全景分割。Wang 等人[22]引入位置敏感的自注意力机制,将二维注意力依次分解为沿高度轴和宽度轴方向的两个一维注意力,通过增大感受野来获取更多的全局信息,很好地提升了图像全景分割的性能。作为Transformer[52]网络的基本结构,自注意力机制使得Transformer 能够获取比卷积神经网络更多的全局信息,使其不仅能够提升自然语言处理(natural language processing,NLP)[53]的性能,也被越来越多地应用于图像全景分割[28,34-35,38],以及图像分类[54]、目标检测[55]、图像分割[56]等计算机视觉(computer vision,CV)领域[57-59]。
为了解决Axial-DeepLab不能很好地处理高度变形物体的问题,受Transformer 和DETR(detection transformer)的启发,Wang 等人[28]提出了一种使用掩码Transformer预测类别标记的掩码,并通过二分匹配以全景质量启发损失进行训练的模型Max-DeepLab。掩码Transformer 采用像素路径(由视觉Transformer组成)提取像素特征,内存路径(由Transformer解码器模块组成)提取内存特征,以及双路径Transformer用于像素特征和内存之间的交互特征。MaX-DeepLab是第一个将Transformer 用于全景分割的端到端模型,但原本为自然语言任务设计的交叉注意力模块应用于图像领域具有局限性。在MaX-DeepLab 的基础上,Yu 等人[35]提出CMT-DeepLab(clustering mask transformers for panoptic segmentation),采用像素聚类方法来执行交叉注意力机制,从而产生更密集和合理的注意力机制图。随后Yu等人[38]又提出kMaXDeepLab,进一步重新设计了交叉注意力机制,使其更像K-means聚类算法[60],对激活函数进行简单的更改。
为了统一前景和背景的掩码预测流程,在DETR的基础上,Li等人[34]提出了一个基于Transformer的端到端全景分割的通用框架Panoptic SegFormer。框架由三个关键模块组成:Transformer编码器、位置解码器和Mask解码器。其中利用Transformer编码器对主干提取的多尺度特征图进行细化;利用位置解码器捕捉物体的位置线索;Mask解码器用于最终的分类和分割。
2023年,一种由OpenAI开发的自然语言处理技术ChatGPT[61-62]被提出,该方法是基于大量数据的有监督学习算法,可以根据输入的信息预测下一个合适的文本。ChatGPT 算法中的Transformer 模型是一种新型的序列建模技术,采用编码器-解码器结构以及注意力机制,可以一次性处理整个语言模型。随后ChatGPT被引入到CV领域,Wang等人[63]提出了一个通用的分割模型SegGPT,该模型将各种分割任务统一到一个通用的上下文学习框架中,该框架通过将不同类型的分割数据转换为相同的图像格式来适应不同类型的分割数据。虽然在图像全景分割的性能上不太良好,但开辟了一种新的分割方式。
视觉Transformer网络作为一种新的视觉特征学习网络,其远距离建模能力和动态的响应特质使之具备了更为强大的特征学习能力,从而提升了全景分割的精度。但是,由于Transformer 严重依赖数据和算力资源,导致基于Transformer 的图像全景分割方法不具有很好的实时性。
在图像全景分割领域,为了验证算法的有效性,常常将算法在MS COCO数据集[64]、PASCAL VOC数据集[65]、Cityscapes 数据集[66]、ADE20K 数据集[67]和Mapillary Vistas 数据集[68]上进行验证。每个数据集的主要信息见表2所示。
表2 图像全景分割数据集Table 2 Image panoptic segmentation datasets
MS COCO 数据集[64]:微软团队提供的大型数据集。目前被广泛应用于图像分类、目标检测、图像分割等视觉任务。本数据集包含了91种物体类型的图像,数据集有32.8万张图片,包含有250万个标注实例。
PASCAL VOC 数据集[65]:广泛应用于图像分类、目标检测、图像分割等任务。数据集最初有4类,最后稳定在21 类,对于分割任务,这些类别有汽车、房屋、动物、飞机、自行车、船、公共汽车、小汽车、摩托车、火车等,测试图像从早期的1 578 幅最后稳定在11 540幅。
Cityscapes 数据集[66]:数据集是在50 个不同城市不同季节收集的城市街道场景,被称为城市景观数据集。数据集有5 000 张图片(2 975 张训练集,500张验证集,1 525 张测试集)是高质量像素级的标记,20 000 张图片是进行粗糙标记以适应方法对于较弱标记的数据。它有19 个类的密集像素注释(97%覆盖率),其中8类具有实例级掩码。
ADE20K数据集[67]:是麻省理工大学提供的一个数据集,主要应用于场景感知、图像分割、多物体识别等多种任务。拥有超过25 000张图像(20 000张训练集,2 000 张验证集,3 000 张测试集),这些图像用开放字典标签集密集注释。包含150种物体类别,分别是100种前景和50种背景。
Mapillary Vistas 数据集[68]:一个新建立的、全球最大的和最多样化的街景图像数据集,以帮助全球范围内的无人驾驶和自主运输技术,包括25 000 张高分辨率的彩色图像(18 000张训练集,2 000张验证集,5 000 张测试集),分成66 个类,其中有37 个类别是特定的附加于实例的标签。包含28 个背景和37个前景类。图像场景对无人驾驶、场景理解等技术的发展有着重要意义。
为了验证算法的有效性,图像全景分割结果一般采用全景质量(panoptic quality,PQ)和解析覆盖(parsing covering,PC)两个度量标准。
PQ[5]:为了衡量不同全景分割模型的性能,提出了评价指标全景质量。对于每个类别,唯一匹配将预测结果和真实标注分割分为三组:真阳性(true positives,TP)、假阳性(false positives,FP)和假阴性(false negatives,FN),分别代表匹配的分割段、不匹配的预测分段和不匹配的真实注释。
更进一步地,PQ还可以拆分为分割质量(segmentation quality,SQ)和识别质量(recognition quality,RQ)的乘积。SQ 表示所有匹配的平均IoU,RQ 表示在检测设置中广泛用于质量评估的熟悉的F1 分数。为区分对前景和背景的分割能力的不同,提出PQTh和PQSt评价指标,其中PQTh表示系统分割Thing类物体的能力,PQSt表示系统分割Stuff类物体的能力。
PC[16]:在某些应用场景中,人们更加关注大物体的分割结果,例如肖像分割中大图的人像分割或自动驾驶中近距离的物体等。通过扩展现有的覆盖指标来评估图像解析结果的质量,该指标考虑了实例大小。
其中,Si、Siʹ分别表示对应类别的预测部分与真实部分,|R|表示对应类别的实例在真实标注中像素点数量,Ni表示类别为i的真实标注像素点总和。通过对大的实例物体赋予更大的权重,使评价指标能够更明显地反映大物体的分割指标。
本章对上述模型分类中的典型图像全景分割方法在多个数据集上进行了性能比较,分别采用PQ(全景质量)、PQTh(前景全景质量)和PQSt(背景全景质量)作为评价指标,比较结果见表3~表5。表中列出了每个模型的backbone,其中数据均为各个模型在其文献中给出的数据。
表4 主流模型在不同数据集上的性能比较(PQTh)Table 4 Performance comparison of mainstream models on different datasets(PQTh) 单位:%
表5 主流模型在不同数据集上的性能比较(PQSt)Table 5 Performance comparison of mainstream models on different datasets(PQSt) 单位:%
从表3~表5 可以看出:(1)同一模型对于有固定形状的前景图像的分割性能要高于没有固定形状的背景图像的分割性能。(2)Transformer的出现极大地促进了图像全景分割模型性能的提升。(3)针对不同的数据集,各个模型在优化任务不同的分类中,都有明显的性能提升,其中多任务优化的方法性能提升得最多。
图像全景分割作为计算机视觉领域的新兴任务,很好地融合了语义分割与实例分割的特点,因此,在医学图像、自动驾驶、无人机遥感等领域获得了广泛的应用。
医学图像:图像全景分割在医学领域得到了深入研究,并应用于病理图像分析[69]、前列腺癌检测[70]、全景X 射线图像中的牙齿分割[71]和肾脏组织形态测定[72]等。医学影像中对癌细胞的无定形区域进行全景分割可以帮助医生检测和诊断疾病以及肿瘤的定位。Zhang 等人[69]在2018 年医学图像计算和计算机辅助干预国际会议中提出了一种端到端的细胞R-CNN(Cell R-CNN)[73]框架来完成细胞的全景分割。与现有的细胞分割方法不同,所提出的网络将检测、定位对象和像素级类别信息分配给具有大重叠区域的区域统一起来,从而帮助医生更好地诊断肿瘤细胞。
汽车自动驾驶:汽车自动驾驶是图像全景分割的一个重要应用场景。图像全景分割能够帮助自动驾驶系统更好地完成细粒度场景理解和场景感知,但是如何满足自动驾驶的实时性需求,成为基于全景分割的自动驾驶面临的巨大挑战。Petrovai等人[74]在2020 年IEEE 智能汽车研讨会中提出用于自动驾驶原型掩码的实时全景分割,一种用于全景分割的快速全卷积神经网络,它可以在2D空间中提供环境的准确语义和实例级表示。将全景分割作为密集分类问题来处理,并为背景类以及前景类的每个实例生成掩码。该解决方案在82 ms 内实时运行高分辨率图像,使其适用于自动驾驶。
无人机遥感:图像全景分割是无人机遥感平台必不可少的方法,可以实现路况监测和城市规划。Chen等人[75]在2020年第十二届图形和图像处理国际会议中提出一种针对无人机应用场景的全景分割算法框架,使用可变形卷积网络掩码评分对无人机图像进行全景分割。由于无人机目标场景大、目标小,导致分割结果中缺少前景目标,分割掩码质量较差。为了解决这些问题,该框架在特征提取网络中引入了可变形卷积[76],以提高网络特征提取的能力。此外,在实例分割分支中引入了MaskIoU模块,以提高前景目标掩码的整体质量。
其他应用:图像全景分割还可应用于其他领域,如农业[77]、畜牧业[78]和军事[79]等领域。全景分割可以用于猪、牛的行为研究,在不影响动物正常行为的情况下对其养殖状态进行评估。动物检测中通常采用的物体和关键点检测器不能获得动物的轮廓,导致大量信息丢失。全景分割采用不同的网络头和处理方法,能够有效地分割个体猪,从而克服信息丢失问题。全景分割还可以用于战场上军事目标检测及场景理解,由两个独立的子任务网络组成:一个是基于YOLACT(you only look at coefficients)[80]的高效实时全景分割网络,用于发现隐藏的军事目标以及从士兵的角度理解场景;另一个是由全景分割网络引导的图像补全网络,用于重建目标的遮挡部分。
图像全景分割综合了语义分割与实例分割两个任务,实现了全面的场景解析,在医学成像、自动驾驶、无人机遥感等领域有着广泛的应用前景。因此,近年图像全景分割得到了广泛研究。本文阐述了图像全景分割算法发展历程,并对图像全景分割主流算法进行分类总结,同时也简单介绍了常用数据集和评价准则,并对代表性的方法进行了性能比较。此外,还列举了图像全景分割在现实中的一些典型应用。
尽管图像全景分割研究及应用取得了极大进展,但是仍存在着诸多问题与挑战。主要包括:
(1)冲突。全景分割与语义分割和实例分割不同,全景分割既需要考虑到前景,又需要考虑到背景。在全景分割任务当中,利用语义分割和实例分割两个子网络独立分割,再对分割结果进行融合的方法,就会存在语义分支与实例分支之间的冲突以及实例分支内部的冲突。虽然现有的模型当中提出了额外的后处理和融合操作来缓解这两个分支之间的冲突,但这会引起效率低、内存消耗大和执行复杂等问题。
(2)实时性。目前全景分割的研究大多集中在提高模型精度上,整个网络模型的推理速度非常慢,不适合实时应用。近期有一小部分研究朝着更快的全景分割算法方向发展,但在准确性方面付出了巨大的代价。因此,在保证分割精度的同时兼顾实时性,满足实际应用需要,是图像全景分割面临的巨大挑战。
(3)复杂场景应用。目前图像全景分割模型验证均是在良好条件下采集的数据集中完成,还没有充分考虑夜间、事故场景等复杂场景下的全景分割数据集,极大限制了复杂场景下图像全景分割模型的研究和验证。另外,现有的图像全景分割模型适合良好条件下的图像全景分割,当其面对夜间、事故场景等复杂场景等不利条件时,分割性能将会大幅下降。
针对以上存在的问题和挑战,对图像全景分割的未来研究方向做出如下展望。主要包括:
(1)基于简单统一框架的图像全景分割研究。设计简单统一的全景分割网络,统一语义分支与实例分支,将前景和背景进行统一预测,省去复杂后处理和信息融合的操作。消除语义分支与实例分支之间的冲突,以及实例分支内部的冲突,从而解决图像全景分割模型效率低、内存消耗大和执行复杂等问题。
(2)实时的高质量图像全景分割研究。采用轻量化的骨干结构,设计结构简洁、参数少、计算复杂度低的轻量化网络模型作为全景分割的基础框架,进一步提升全景分割效率。在不影响分割质量的前提下,简化设计,进一步提高分割效率和速度。因此,在实时约束条件下实现高质量的全景分割是未来的一个热点研究方向。
(3)复杂应用场景下图像全景分割的研究。构建复杂场景下图像全景分割数据集,从而更好地验证所提模型的有效性。可以采用GAN(generative adversarial network)网络等对图像数据进行转换,将训练集中含有分割标签的部分白天图像转换为夜间图像,从而缓解模型从白天到夜晚准确率急剧下降的问题。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!