基于纹理信息的室内场景语义标注学习方法

时间：2024-05-04

张圆圆，黄宜军，王跃飞

(1.钦州学院机械与船舶海洋工程学院，广西钦州 535011； 2.钦州市物联网先进技术重点实验室, 广西钦州 535011)(*通信作者电子邮箱742036673@qq.com)

0 引言

随着互联网及大数据多媒体的高速发展，社会生产中产生了海量的视频数据，同时也对这些信息的应用提出了更多的需求。如何高效检索视频内容并标注，已然成为大数据、机器视觉及多媒体应用领域研究的热点。如室内场景下在监控视频中进行关键物体的检测和跟踪目前仍然需要依赖人工的辅助。同时，近年来虚拟现实技术也在快速发展，在应用中虚拟场景以及物体的编辑处理也是一个亟需解决的问题。

如图1所示，视频语义标注能够标识出图像中的每个个体及其形状和位置等信息。通过对视频的自动化处理，得到每一帧的语义标注图，是物体检测、跟踪、场景分割、纹理结构分析等诸多计算机视觉领域中需要处理的关键步骤[1-3]。研究这些视频的帧级语义信息，具有重要的研究意义。

图1 纹理图像及其语义标注图Fig. 1 Texture image and its semantic annotation map

基于机器学习的标注是通过对部分视频进行手工标注所得数据(训练样本)进行学习，建立语义概念的模型，再将该模型进行推广，用以完成其他视频的标注。国内外学者将图像处理、机器学习等技术结合起来进行视频信息标注。文献[4]采用贝叶斯分类器对医疗视频的语义概念进行分类，该标注概念统计模型往往需要建立在很大的训练集之上，以保证其具有良好的推广性能，但获取训练集需要大量的人工劳动；另一方面，如何利用样本数据提高分类器性能仍是当前的技术难题。

文献[5]使用自适应支持向量机进行跨域视频概念检测，使得视频分类器具备自适应能力。该方法在数据量不大、实时性要求不高的情况下，能取得不错的效果，但有限的资源库无法支持大规模的运算。文献[6]提出一种基于Spark的视频标注方法，利用强计算能力，通过颜色、纹理、分形三重特征表征一类实体，进而采用元学习策略进行训练及预测。相对于传统方法，该标注法在标注效率上有很大提高。文献[7] 基于自然图像和视频数据场景复杂及目标先验获取困难的问题，对语义可挖掘性及区域可判别性展开了深入的研究，然而由于图像视频内容的多义性、训练数据集的复杂性，使得视频语义标注受到巨大的挑战。

另一方面，纽约大学的Yann LeCun 团队围绕深度学习的研究，在场景标注方面也有许多进展。微软研究院团队也应用随机森林的模型对场景标注问题进行了探索。但这些图像场景标注研究的是二维图像。

针对室内场景视频的三维图像标注问题，本文提出了一种基于纹理信息的语义标注信息学习法。其中视频关键帧的精确标注由人工提供，通过利用视频的时间相关性，采用光流方法，得到关键帧与非关键帧间的运动信息，求解出非关键帧。然后，将关键帧上的语义标注信息映射到非关键帧上。同时，语义标注信息与非关键帧图像的纹理信息存在相似性，进而构建能量方程约束非关键帧。最后，通过图割的方法来求解能量方程的最小化解，得到的解即为非关键帧的标注结果。该方法提高了室内场景视频语义信息的标注精度和效率，能够用于室内场景视频语义标注信息的生成[8]。

1 相关工作

在视频语义信息的弱监督方法中：对于视频中在相邻帧存在剧烈变化或者具有场景代表性的关键帧，需要人工提供精确的标注；而对于其余非关键帧，则需要通过视频的时间与空间相关性，按照非关键帧“学习”语义标注的方式原理来获取，目前一般有运动估计方法和机器学习方法这两类。

1.1 运动估计方法

该方法通过寻找两幅图像之间的运动向量，使得非关键帧利用关键帧的标注信息和运动向量得到自身的语义标注[9]。其中运动估计可以通过基于像素匹配的直接估计法和基于特征点匹配的间接估计法得到。对于直接的运动估计，目前有基于块匹配的算法和光流法。然而运动估计法存在两个问题：首先，在实际应用中，由于存在帧间的遮挡以及图像部分内容缺乏纹理信息，该方法不能获取非关键帧中各点与关键帧的对应关系；同时，随着帧间时间间隔的增加，非关键帧与关键帧之间的相同部分会变少[10]。因此，通过运动估计得到的标注准确率会逐渐降低。上述问题制约了运动估计方法在长时间序列上的语义信息学习的应用。

1.2 机器学习的方法

在机器学习领域中，语义信息生成法在视频的语义标注学习中受到广泛的研究。在该领域中，作为训练得到的图片来产生模型，然后进行物体识别，再对相似问题进行处理。Badrinarayanan等[10]提出了基于概率图模型的方法。该模型中包含图像层、标注层以及隐含层。文中假设，该模型属于隐马尔可夫模型，即每一个像素点的标注与且仅与当前点的纹理信息和前一个像素点的标注与纹理相关。文中模型使用关键帧语义标注，采用期望最大化(Exception Maximum, EM)算法进行了训练。Bai等[11]将视频序列看作一个空间-时间的三维立方，然后采用基于最短路径的距离的方法来学习语义标注。其他学习方法还包括基于超像素、时域树结构和局部化随机森林的机器学习方法[12-13]。

上述方法中非关键帧的语义信息仅依赖于由训练得到的模型，而忽略了视频中存在的时间相关性，它得到的各个帧的语义标注是相互独立而非关联的，从而影响了语义标注结果的准确率。Chen等[8]提出了综合运动信息、机器学习模型的学习方法，该方法充分利用了视频中的时间与空间相关性，相比于其他方法，该方法得到了更高的标注准确率。

如前文所述，基于机器学习的方法依赖于大量的已标注数据，而在视频语义信息学习问题中，人工只能提供少量的标注。同时，基于机器学习的方法的标注预测准确率依赖于对未知标注的分布估计，但在各类自然视频中很难得到一种分布模型能有效描述所有视频的语义标注分布[10]。上述两点制约了基于模型的机器学习方法的应用。

2 基于纹理信息的语义弱监督学习方法

本文所研究的的弱监督学习是通过已知数据和其一一对应的弱标签，训练一个智能算法，将输入数据映射到一组更强标签的过程。是指利用Image-level的标注信息，通过弱监督方式学出一个模型，该模型可以预测出图像的语义标注结果。根据所标注概念在视频结构上的不同层次，可将视频标注划分为下面三种：关键帧(非关键帧)图像层标注、视频类型层标注和图像中的物体层标注。纹理是物体表面固有的一种特性，它具有区域特性和旋转不变性，反映了不同对象之间的区分，所以纹理信息也是图像的主要提取特征。

本文是基于图片纹理信息的视频弱监督语义信息学习，研究方案如下：首先，由人工进行关键帧(相邻视频帧中有代表性的帧或是存在剧烈变化的帧)的选择并进行精确的语义标注；接下来，通过光流法与关键帧进行运动估计，得到视频中每一非关键帧的信息，再利用关键帧的语义标注生成非关键帧的初始化语义标注；然后，结合初始化标注以及非关键帧的纹理图片信息的约束，生成最终的语义标注结果。在针对视频中每一非关键帧应用该算法后，即可得到视频的语义标注信息。非关键帧的语义标注信息的生成过程如图2所示。

在此过程中需要两帧之间的运动信息以及非关键帧的纹理信息。非关键帧最终的语义标注结果，既需要与通过运动信息得到的初始化语义标注相符，也需要与纹理图片一致。通过求解两个一致来约束得到更加准确、高效的语义标注。纹理一致性反映在：纹理图片的平坦区域，应该是同一个物体语义标注；而在纹理图片的边界周围，可以存在不同的物体语义标注。本文将非关键帧的语义标注生成问题形式转为最优化问题，构建了一个符合上述问题特性的能量方程。

该最优化问题即是非线性约束优化，在原有目标函数中加上一个障碍函数，从而得到一个增广目标函数，罚函数的功能是对非可行点或企图穿越边界而逃离可行域的点赋予一个极大的值，将约束最优化问题转化为求该方程的最小化求解，即得到非关键帧的语义标注结果。

图2 非关键帧语义标注学习算法框架Fig. 2 Framework of non-key frame semantic annotation learning

本文所构建的能量方程如式(1)：

(1)

其中：LE表示能量方程的解(即非关键帧的语义标注)；变量u表示能量方程求解过程中的中间解；Ls表示通过运动信息得到的非关键帧初始化语义标注；求解的能量方程中数据项D约束了能量方程的解与初始化语义标注的一致性；平滑项S约束了解与纹理图片的一致性；α作为平衡数据项与平滑项间权重的参数。

2.1 数据项定义

数据项D约束了能量方程的解与初始化语义标注的一致性，其形式化表示如下：

(2)

式中：符号x即表示非关键帧中每一个像素点的坐标；W代表一个权重矩阵，表示非关键帧中任一个位置得到的初始化语义标注的置信度，其取值为0或1，其中0代表该位置的初始化语义标注不可信，而1则表示可信。通过权重矩阵W，数据项能更好地约束初始化语义标注与最终解的一致性。本文中数据项的积分空间是非关键帧的全部空间。

δ是一个二元函数，当函数中两个形式参数值不等时函数返回1,否则返回0,其形式化表达如下：

(3)

文献[14]中提出了一种目前最优的基于图片金字塔技术的光流算法。即首先满足三个条件的假设：同一点随着时间的变化，其亮度不会发生改变，用于得到光流法基本方程亮度恒定；小运动假设，时间的变化不会引起位置的剧烈变化，这样在本文的实现中灰度才能对位置求偏导；空间一致假设，一个场景上邻近的点投影到图像上也是邻近点，且邻近点速度一致。其次,采用最小二乘法求解两个未知方程。本文使用了文献[14]中的光流方法得到非关键帧与关键帧间的运动信息,并最终得到了非关键帧的初始化语义标注。当非关键帧中的某一点存在初始化语义标注信息时，则权重矩阵W的相应位置置为1,否则置为0。因此，本文中的数据项通过给予能量方程的解与运动信息得到的初始化语义标注，如果不一致，就得到惩罚的方式，约束了能量方程解与初始化语义标注的一致性。

2.2 平滑项定义

平滑项用于约束能量方程的解与纹理信息的一致性。参照图1可以发现，纹理一致性体现在如下两个方面：纹理平滑区域代表其中的像素点间相关性高，因此应具有同一种语义标注；纹理边界区域，边界两边的像素点间相关性较低，往往可以被标注为不同的语义信息。

本文中平滑项的形式化表示如下：

(4)

式中:N表示非关键帧中所有相邻像素的像素对集合，在本文中相邻像素定义为8邻域点的集合;边界因子B{x,y}表达了像素对中的x与y两个像素间的相关程度。

一般情况下，纹理图像中平滑区域的像素点间的值(灰度值或者RGB值)相似度较高；而边界两边的像素点间值差异较高。在平滑项的表示中，平滑区域的像素点间边界因子B{x,y}应得到非零的正值。因此当像素点间的语义标注不同时，能量方程会给予惩罚；而像素点间的语义标注相同则不会受到影响。边界区域的像素点间的边界因子B{x,y}应趋近于零。当边界两边的像素点被标注为不同语义信息时，能量方程不会给予惩罚。

本文引入了非同向扩散因子来表示边界因子B{x,y}。通过非同向扩散因子，平滑项约束了纹理图片平滑区域的语义标注一致性和边界区域的语义标注信息可变性，最终约束了能量方程的解与纹理图片信息的一致性。非同向扩散因子的形式化表示如下：

B=exp(-β|▽IH|γ)nnT+n⊥n⊥T

(5)

式中：▽IH表示纹理图片的颜色梯度;n表示纹理的颜色梯度的正规化方向，并有n=▽IH/|▽IH|;n⊥是纹理颜色梯度的法向量;因子β和γ用于平衡扩散强度和边缘锐度。

通过对式(5)所定义的非同向扩散因子的分析，在纹理图片像素值梯度较小的地方，得到的扩散系数较大；而纹理梯度较大的地方，得到的扩散系数会趋近于零。

2.3 方程求解方法

参照2.1～2.2节关于能量方程数据项与平滑项的定义，本文所构建的非关键帧语义信息学习能量方程最终形式化如下：

(6)

最小化该能量方程式(6)所得到的解，即最小化了能量方程中数据项与平滑项引入的惩罚。因此该能量方程约束了解与非关键帧通过运动信息得到的初始化语义标注和图片纹理信息的一致性。

本文中的非关键帧语义标注问题可以被建模为马尔可夫随机场，相对应的能量方程最小化问题可以视为马尔可夫随机场下的离散能量最优化问题。图割方法被广泛用于该问题的求解并取得了较好的效果[15]。图割方法的求解思路是，对能量方程建模一个与其数据项和平滑项一一对应的流量图，保证流量图的最小割是能量方程的最小解。文献[16]论证了如式(6)所示的能量方程可以通过图割方法求解的数学原理。而多标注情景下的流量图构建方法与最优化求解方法在文献[17]中有详细的论证。在本文方法的实现中，使用了文献[17]所提到的最优化方法，该方法提供了通过定义数据损失和平滑损失构建流量图的接口和求解最小割的接口。本文将式(6)所定义的数据项和平滑项分别映射为流量图构建接口中的数据损失和平滑损失，最终通过求解流量图最小割接口得到非关键帧语义标注的解。

3 实验结果及分析

3.1 数据集

本文选取了纽约大学提供的室内场景数据集以验证本文方法的性能。该数据集拥有采集于各种室内场景的视频，同时包含了丰富的室内常见物体[18]。然而，该数据集的视频中只存在少量的图片进行过人工语义信息标注。为评测本文提出的方法，本文利用了Massachusetts Institute of Technology提供的公开数据标注工具LabelMe Online进一步标注了从数据集中选择的视频序列。标注过程参照了纽约大学数据集中已存在的标注结果，人工标注所生成的基准数据用于本文所提出方法的评测。

3.2 结果分析

本文选取了3个视频序列LivingRoom、StudyRoom以及ComputerLab进行非关键帧语义信息学习算法的评测。在每一个视频序列中，第1帧由人工提供了精准的语义标注信息。然后通过标注学习算法生成第2至30帧的语义信息。本文所提出的方法、Chen等[8]提出的综合运动信息与机器学习模型的基准方法，以及单纯的运动估计算法在实验序列上的标注学习准确率如图3所示。由图3可以看出，相比于基准方法，本文所提出的方法能够得到更高的准确率，同时语义标注学习准确率随着帧数的增加能保持稳定。

图3 不同标注学习算法准确率比较Fig. 3 Accuracy comparison of different annotation learning algorithms

不同室内场景下，语义标注学习算法的标注视觉效果分别如图4(a)、4(b)所示。

由图4可以看出，由于运动信息存在缺失，基于运动估计的学习算法会产生缺少标注结果的“黑洞”。相比于基准方法[8]，本文方法的标注结果与人工语义标注结果保持一致。在视觉效果图中可以看到，本文方法的学习结果保持了平滑区域语义标注一致，以及与纹理图片一致的边界，且效果更好。

图4 不同标注学习算法视觉效果比较Fig. 4 Visual effect comparison of different annotation learning algorithms

4 结语

本文提出的室内场景视频语义信息弱监督学习方法是由人工选取并给定少量关键帧的语义标注信息，利用图像金字塔技术的光流算法得到非关键帧的纹理信息，将关键帧的语义标注传递到所有非关键帧，从而学习到整个视频序列的语义标注。本文通过多种实际室内场景中的视频数据进行实验、测试并与当前通用的方法进行了对比。实验结果表明本文的非关键帧语义标注学习算法具有更高的标注准确率和较好的视觉效果。