时间:2024-05-04
张 远, 黄 磊
(1 贵州民族大学数据科学与信息工程学院, 贵阳 550025;2 贵州民族大学贵州模式识别与智能系统重点实验室, 贵阳 550025)
自然图像抠图是指从任意一个背景中提取出感兴趣的前景目标,即提取前景透明度遮罩(alpha matte)。 目前主要应用于图像合成[1]、目标识别、实时会议以及影视特效等方面。 通常,将输入图像I中的每一个像素点t视为前景与背景像素点的线性组合[2],见式(1):
其中,0 ≤α≤1 表示前景目标的不透明度,当α=0 时输入图像I表示已知的背景、α=1 时输入图像I表示已知的前景、0<α <1 时输入图像表示混合区域。 由于输入的图像通常为RGB 三通道的图像,在式(1)中,共有α,FR,BR,FG,BG,FB,BB七个未知数,所以求解该方程是一个欠定问题。 通常,使用三分图(Trimap)作为先验知识来减少抠图公式、即式(1)中的未知变量。
三分图通常是由已知的前景区域、已知的背景区域和未知的区域组成。 假设将图像分为3 个不重叠的像素级ΩF,ΩB,ΩU,则有:
其中,已知前景区域和已知背景区域的α值分别为1 和0,未知区域的α值则需要利用抠图算法求解。
根据三分图中的标注信息量,可将三分图分为粗糙三分图(Coarse trimap)和精细三分图(Elaborate trimap),与式(2)比较,两者在已知区域的标记量存在差异,基于3 个像素集的数量关系的数学描述如式(3)所示:
其中,TC和TE分别表示为粗糙的三分图和精细的三分图,由式(3)可知,粗糙的三分图标注的已知区域远小于未知区域,精细的三分图标注的已知区域则远大于未知区域。 然而,在实际应用中,标注一个精细的三分图需要耗费大量的财力和物力获得,对于图像抠图,这代表需要花费较高的劳动力成本去获得抠图透明度遮罩,反而降低了抠图效率,由于在实际应用中需要输入大规模的图像进行工作,因此这在实际应用的抠图工作中是不可接受的。 相比之下,粗糙的三分图在实际应用中较为容易获得,因为只需要一小部分已知的前景和背景区域,减少了用户交互,显著降低了劳动力成本。 在实际应用中,用户通常希望输入一个简单快捷的三分图,得到一个表现良好的抠图透明度遮罩。 因此,研究粗糙三分图扩展的抠图算法代替输入昂贵的三分图的抠图算法具有重要的现实意义。
在三分图扩展的抠图研究中,目前的抠图方法取得了较好的研究成果,但是存在无法单独处理多种抠图场景的问题。
综上所述,本文提出了一个基于三分图扩展的抠图框架,与以往三分图扩展的抠图算法不同,研究考虑了输入图像为前景半透明图像的抠图问题,提出了一个透明度判别(后面统称感知)方法,根据感知的结果将输入图像分为前景半透明图像和前景半透明的图像,该模型能够很好地适应不同类别的三分图扩展,统一处理不同前景类型图像的三分图扩展,进一步提升抠图遮罩的质量。
在传统的抠图算法[3-7]中,在进行图像透明图遮罩计算之前,分别对其三分图进行预处理以得到更精细的三分图。 在共享抠图[8]中,通过收集固定空间距离内的像素样本,并测量未知区域和已知区域内的像素之间的颜色相似度来扩展粗糙的三分图。 除此之外,Shahrian 等学者[9]将三分图依次细化,从未知区域的边界开始, 向前景和背景区域发展。Varnousfaderani 等学者[10]则通过为颜色、纹理和空间距离设置适当的阈值,对未知区域的像素进行分类。另一方面,KL-散度抠图[5]依赖于迭代阈值方法,比固定阈值方法允许更激进的扩展。 为了处理空间断开区域,提出了一种基于补丁的三分图扩展方法,扩展了未知区域的范围。 然而上述所有方法都是基于图像特征的相似性,通过与手动设置的阈值进行比较来扩展三分图。 由于粗糙的三分图提供的已知信息量较少,扩展的注释是分散且不充分的,且由于图像特征中隐含的场景限制,无法精确测量像素相似度,在某些场景中导致错误分类。 因此,这些方法很难精确地处理粗糙的三分图。 随着深度学习发展,Badrinarayanan 等学者[11]采用深度卷积神经网络编-解码器结构来构建抠图网络。 从特征共享的角度来看,通过拼接三分图扩展过程可以指导图像的抠图任务的训练,可以认为三分图扩展为抠图流程的辅助任务,其目的是协调图像抠图训练过程,从而设计为辅助网络。 因此,Cai 等学者[6]提出了三分图自适应的抠图网络,他们将抠图视为两个子任务,即三分图自适应任务和透明度遮罩提取任务。 Tang 等学者[3]使用深度卷积神经网络从三分图的未知区域过滤出前景和背景,减少未知像素的数量,从而提高抠图的精度。 当输入三分图中标注信息的分布特征与训练数据不同时,扩展工作不能灵活地拟合并生成更好的扩展三分图。 为了解决这个问题,Liang 等学者[1]使用单分类算法对粗糙的三分图进行扩展,并取得了不错的抠图效果。 虽然这些方法有助于将已知的前景和背景区域扩展到空间封闭的未知区域,但依赖于测量语义特征来可靠地确定像素之间的相似性,允许一种新型的分类器对整个未知区域内的所有像素进行完全分类,对于半透明物体其扩展效果表现仍然不佳。此外,Zhang 等学者[7]将透明度分为强透明、中透明和小透明,但需要输入一个初始化透明度遮罩,使得抠图工作过于繁琐。
2018广州车展,全新奥迪A6L全球首秀,再次展现中国豪华车市场开拓者形象;奥迪首款纯电动SUV奥迪e-tron亮相,开创豪华电动SUV市场全新格局;以全新奥迪A7,奥迪Q8,奥迪Formula E为代表的A、Q、R家族也同台展示。
综上所述,尽管目前基于三分图扩展的方法取得了较好的研究成果,但仍然不能统一处理抠图场景下前景不透明图像和前景半透明图像在粗糙三分图下的抠图问题和三分图扩展问题。
为了解决当前抠图算法不能统一处理抠图场景下前景不透明图像和前景半透明图像在粗糙三分图下的扩展问题,提出了基于不同场景下三分图扩展的图像抠图算法。 该算法主要分为2 个步骤。 一是提出了透明度感知模型来感知不同场景的输入图像,提升不同场景下的三分图的质量,二是抠图透明度遮罩提取。 具体的工作流程如图1 所示。
图1 基于不同场景下三分图扩展的图像抠图算法工作流程Fig. 1 Workflow of image matting based on the trimap expanded in different scenarios
本文所使用的粗糙三分图是通过简单的用户交互,随机地在已知的前景和已知的背景上任意画一条线,其他没有标注的部分作为未知区域,由此来生成本文所需要使用的粗糙三分图,见图1。 在此基础上,可做分析综述如下。
(1)三分图扩展。 该模型嵌入了一个透明度感知模型,该模型使用图像特征相似性将图像背景区域分离出来后进行扩展,在背景扩展的基础上感知半透明图像和不透明图像,再分别来扩展相应图像的前景。
(2)前景透明度遮罩提取。 由于目前基于学习的抠图算法LFPNet[2]利用上下文特征来预测抠图的前景透明度遮罩,可以在GPU 上实现良好的高分辨率图像抠图,因此本文利用目前先进的LFPNet 网络来作为本文所提算法的前景透明度遮罩提取模型。
本文所提的透明度感知模型将在2.2 节进行阐述。
针对不同场景下的透明度感知以及不同场景下的粗糙三分图扩展,本文提出了一个基于不同场景下三分图扩展的图像抠图算法(Image matting based on the trimap expanded in different scenarios, IMTD)。 该算法提出了一个透明度感知模块感知前景不透明的图像和前景半透明的图像,实现了2 种场景下的粗糙三分图扩展的通用模型,最终提高前景透明度遮罩提取的质量。 具体的流程如图2 所示。
图2 IM-TD 三分图扩展算法的工作流程Fig. 2 Workflow of the IM-TD trimap expansion algorithm
因此,本文将使用半透明前景像素与不透明前景像素的图像特征和类别特征差异来感知像素的类别,即若未知区域的像素和已知前景区域的像素的类别特征相似,但是未知区域的像素的图像特征和已知背景的不同,将其感知为半透明前景像素,若是其他情况、则感知为不透明像素,如式(4)所示:
其中,t表示在进行背景扩展后的未知区域的像素;和分别是使用聚类算法下的类别特征及图像特征来感知的像素类别,为最终划分的像素类别;SC和IC分别表示使用类别特征和图像特征训练的单分类器;O0是CTE-OC 算法[1]结合了这2个分类器进行像素类别判断的规则。 当且仅当2 个规则均满足时将当前的类别特征与已知前景相似、而其图像特征与背景不同时,该像素可以被感知为已知前景区域,否则保留在未知区域。
由于基于学习的抠图方法比基于传播和采样的抠图方法[12-14]具有更强大的深度特征提取能力。因此,本文利用GCA 抠图网络[15]在最深处的残余编码层(GCA 编码器)上学习到的先进特征作为语义特征来表征不同区域的信息。 对于图像特征,本文采用步幅为2 的3 层卷积层构建图像特征提取网络,不仅避免了相似度阈值的不灵活设置,而且还从不同图像中提取具有代表性的图像特征,提高了相似度度量的可靠性。 除此之外,由于图像的类别特征较为简单,使用分割网络对其类别特征进行提取。
Composition-1k 数据集[14]是自然图像抠图研究领域中得到广泛应用的图像抠图数据集,为不同抠图方法的性能比较提供了大量的图像数据,以驱动基于学习的抠图方法进行训练和测试。 该数据集提供了431 张前景图像及其对应的真实透明度遮罩,用于与来自MS COCO 数据集[16-17]的背景图像以1 ∶100 的比例进行合成,以获得43 100张训练图像。 相应的三分图是通过膨胀和腐蚀真实透明度遮罩自动产生的。 此外,该数据集提供了50 幅前景图像和有关的真实透明度遮罩作为权重,用于与PASCAL VOC 数据集[2]的背景图像以1 ∶20 的比例进行合成,以获得1 000张测试图像,以及手工标注每个图像精细的三分图。 本文使用Composition-1k数据集则可归因于其中的1 000张测试图像包含620张不透明前景图像和380 张半透明前景图像。
本文提出的算法使用Python 实现的,对比的自然图像抠图算法WCT[10]、IF[18]、Pyramid[19]和KL[5]均使用 Matlab 实现。 且基于 Pytorch 实现了IndexNet[20]、Alpha[21]、GCA[15]、Ada[6]等基于学习的抠图算法。 所有实验运行在一台Intel Xeon Gold 5218 2.30 GHz CPU 和一台Quadro RTX 6000 GPU的服务器上。
本实验评价和比较了现有的几种三分图扩展方法对粗糙三分图进行质量提升。 在这些三分图扩展方法中,Ada[6]和Alpha[21]使用基于学习的三分图细化网络来扩展三分图;WCT[10]、TL[22]和KL[5]分别使用颜色和纹理相似性在单个和迭代循环中已知区域附近的有限空间中扩展三分图;而IF[18]使用颜色相似性来扩展三分图。 通过扩展后的三分图标注率(Quantity) 和准确率指标(Accuracy) 来综合评价研究扩展后的三分图。
由于这2 个指标为综合性评价指标, 且Quantity值越高代表三分图中被正确标注的已知区域越大。Accuracy越大则代表三分图标注的已知信息的错误扩展量越低,正确的分类像素就越多。 粗糙三分图在现有三分图扩展了方法对比的三分图质量见表1。 由表1 可知,现有的三分图扩展算法标注率在上升的同时其准确率也在下降,这说明三分图扩展工作实际上就是一个激进的工作机制,随着标注量升高的同时也会产生更多的错误扩展。 相比之下,本文所提出的基于透明度感知的三分图扩展方法在标注均上升的同时其错误率仍然存在,但相比于其他方法变化较为均衡,且标注量高于目前的三分图扩展算法。
表1 粗糙三分图在现有三分图扩展方法上对比的三分图质量Tab. 1 The quality of the coarse trimap on existing expansion methods%
为了验证前景图像在不同场景中使用不同三分图扩展算法提取的前景透明度遮罩的质量,通过计算MSE、SAD、Grad和Conn对使用不同扩展三分图的抠图方法的提取结果进行了评估。 在这里,使用统一的抠图算法GCA 对同一粗糙三分图使用不同的三分图扩展算法获得的遮罩进行对比,并将其作为基线模型。
抠图算法GCA[15]在应用不同的三分图扩展方法前后的抠图性能对比见表2。 由表2 可知,与从粗糙三分图获得的抠图透明度遮罩质量对比,使用IM-TD 可以在4 个指标上改善抠图透明度遮罩的度量评价,而其他方法则不能。 与其他现有的三分图扩展方法相比,在MSE和Conn指标上达到了最佳值。
表2 抠图算法GCA[15]在应用不同的三分图扩展方法前后的抠图性能对比Tab. 2 Comparison of matting performance of GCA [15] before and after applying different trimap expansion methods
除此之外,使用目前先进的抠图算法LFPNet[2]来作为本文所提算法的前景透明度遮罩提取模型,实验结果如图3 所示。
图3 粗糙的三分图和扩展后的三分图的抠图遮罩对比Fig. 3 Comparison of matting between a coarse trimap and an expanded trimap
由图3 可知,直接使用粗糙的三分图对图像进行抠图,无论是不透明图像、还是透明图像其表现效果不佳,使用本文所提出的三分图扩展方法后,抠图透明度遮罩的质量明显得到了提升。 然而,图3 中最后2 行可以看出,本文所提的方法IM-TD 在对前景半透明图像三分图的前景进行扩展时存在部分的错误标注,导致其抠图遮罩在前景的质量变化不明显,这影响了总体遮罩质量的评估。 总地来说,虽然该方法的抠图效果不如对透明图像和半透明图像分别扩展的总体效果,但是可以适用于抠图场景下的半透明图像和不透明图像。
针对图像抠图不能统一处理抠图场景下前景不透明图像和前景半透明图像在粗糙三分图下的抠图问题和三分图扩展问题。 提出了基于不同场景下三分图扩展的图像抠图算法,通过感知三分图前景区域的透明度,选定不同的策略用于不同场景下的粗糙三分图扩展。 在此基础上,将该算法用于目前抠图效果较好的抠图网络,提高了图像抠图的整体精度。 实验中,通过比较目前较为流行的三分图扩展方法且将扩展前后的三分图应用在目前的抠图方法上的结果,验证了透明度感知的三分图扩展方法的优越性。 且在综合评价指标上优于目前的算法。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!