一种基于神经网络的倾斜摄影三维语义分割方法

时间：2024-07-28

徐军,尹长林,许文强

(1.湖南省第二测绘院，湖南长沙 410009;2.自然资源部南方丘陵区自然资源监测监管重点实验室，湖南长沙 410009;3.长沙市规划信息服务中心，湖南长沙 410013)

现有的倾斜摄影城市三维场景仅表达了城市的表面特征，缺乏语义信息，不利于深度应用。为此，本研究提出了一种基于深度学习神经网络的倾斜摄影三维模型的语义分割方法。针对倾斜摄影三维格网转换后的点云数据，首先采用最小能量计算进行几何分区和超点图构建，采取一种特征融合神经网络模型FF-PointNet（feature fusion-pointNet），实现点云局部特征和全局特征提取和融合，并将融合后的特征嵌入超点图，最后采用图卷积网络进行语义分割。为提高模型泛化能力，采用focal loss作为损失函数，同时对点云数据进行了数据增强处理。经过实验验证，并与SPG模型进行对比，结果表明本文所提出的倾斜摄影三维语义分割方法具有较好的精度和适用性。

利用倾斜摄影平台快速获取多角度影像，已成为当前获取空间数据的有效方式之一，尤其是在三维城市建设等领域有着独特的优势。倾斜摄影具有数据采集速度快、生产成本低、自动化程度高、成果表达丰富等特点,近年来逐渐成为城市三维建模的主流方法。

但是倾斜摄影三维数据存在的一个普遍问题是缺乏语义信息，计算机无法自动识别和区分场景中的地面、树木、建筑、道路等不同类型的语义信息，重建后的模型往往只能用于展示和浏览。语义分割是提取三维数据语义信息的必要手段，其目标是对感兴趣的几何要素对象（如三维点、面片等）自动分配一个类别标签。当前已有的三维语义分割方法可以分为两大类：一类是基于手工特征提取的方法；另一类是基于深度学习的方法。深度学习的方法随着人工智能的发展近年来受到了越来越多研究者的重视。但整体上看，将深度学习应用于三维语义分割是近几年的研究热点，但当前主要还是在神经网络模型研究阶段，且大多针对室内或者小范围的局部三维点云数据，在具体倾斜摄影城市三维语义分割的应用研究方面并不多见。

本研究将结合倾斜摄影三维数据成果的特点，在已有研究成果基础上，探讨将神经网络应用于三维模型的语义分割，提出一种倾斜摄影三维模型语义分割的较优处理框架和方法。

1 三维格网模型的点云化处理和几何分区

倾斜摄影三维建模的最终数据成果为带纹理的三维表面模型，如图1(a)所示。该成果的几何模型通常采用不规则格网表达，如图1(b)所示。本研究基于倾斜摄影的三维表面模型进行语义分割，先重点考虑深度学习建模和大规模数据简化处理的需要，提出数据模型处理的方法。

1.1 基于表面格网数据的点云模型构建

三维表面格网数据保留了数据尺度特征，而且具有空间拓扑关系。在连续三维空间中三角格网顶点的空间位置确定了每一个三角面片的几何信息。为便于计算，本文选择三角面片的顶点为计算单元对象［如图1(c)所示］，将三角格网的语义分割问题转换为点云语义分割的问题。

图1 倾斜摄影三维数据成果及转换Fig.1 3D Data production and transformation of oblique photography

经过表面格网转换的点云，除了具有空间几何信息、纹理颜色信息，同时还具备点与点之间的拓扑连接关系，它对描述局部特征具有重要价值。

1.2 基于全局能量最小化计算的点云粗分割

为了减小后续深度学习的计算量，本研究采用全局能量最小化计算的方法对点云进行粗分割处理[1]，将点云分割为不同的几何区域。

借鉴Landrieu L提出的思想，将每个几何分区称为一个超点。同时，为了充分考虑局部和全局特征，基于图理论构建超点图，用来实现超点之间邻接关系的结构化表达。具体思路和步骤如下：

1.2.1 点云几何分区

假设输入的点云集合为P，有n个三维点。每个点Pi∈S由其三维空间坐标和颜色属性Pi={xi,yi,zi,ri,gi,bi}定义其特征，先对点云P进行粗分割，实现几何分区和超点图的构建。

首先，采用空间邻域几何特征分析计算每个点的局部邻域特征，包括局部线性、局部平面性、局部分散性、局部垂直度、高程值5个特征，特征值的计算方法基于点的局部协方差理论来计算。对于局部邻域定义，采用K-邻近方法。本文借鉴经验做法K值取20。不同于一般的K-邻近在空间距离度量上采用欧氏距离，本研究充分考虑顶点之间的拓扑关系，采用基于Dijkstra最短路径算法的表面格网模型的测地距离作为K-邻近算法的距离度量。在计算局部特征的基础上，构建点云的随机条件场模型，通过对模型中无向连通图计算能量函数，并采用图割理论进行全局最优求解。经过计算后，每个超点的特征包含三维位置x、y、z、r、g、b、局部线性度、局部平面度、局部散度、局部垂直度、相对高程属性，相比于原始的三维点，超点的特征维度从6维增加到了11维。

经过几何分区后，三维模型得到了有效切割，如图2(b)所示每一个色块表示一个分区结果。

图2 几何分区与超点图构建Fig.2 Geometric partition and super point graph construction

1.2.2 超点图构建

为了使得语义分割充分考虑局部和全局特征，需要构建超点之间的关系图，简称为超点图。超点图表达为 G={ζ,ε,η}，其中ζ为超点集合，ε为超点之间的邻接关系（称之为“超边”），η为邻接关系特征。η通过比较相邻的超点之间的空间形状、位置等关系来确定。假设有相超点ζi，根据其位置计算得出，局部邻域协方差矩阵对应的特征向量值λ2≥λ1≥λ0≥0，定义超点的三个几何特征：长度特征length、面积特征surface、体积特征volume三个特征，计算式为：length(ζi)=λ2， surface(ζi)=λ1λ2， volume(ζi)=λ0λ1λ2，则连接关系特征η用一个13维的特征向量来表达，如表1所示。通过计算各相邻超点之间的邻接关系特征，从而可以构建一个具有13维特征信息的超点图，如图2(c)所示为超点图的空间化表达，每一条连接边包含了一个特征向量。

2 基于深度学习的语义分割

通过前述的点云几何分区、超点图构建等一系列处理，每个超点具备了丰富的特征信息，并建立了超点之间的邻接关系。本文设计了一个深度神经网络FF-PointNet(Feature Fusion PointNet)，对超点进行进一步的特征融合，再对超点图使用图卷积网络进行分割，总体语义分割流程如图3所示。

图3 三维深度学习语义分割流程Fig.3 semantic segmentation framework of 3d deep learning

2.1 基于多层感知机的特征融合神经网络

FF-PointNet的模型结构如图4所示，它是一种基于多层感知机（MLP，Multilayer Perceptron）的前馈人工神经网络模型。

FF-PointNet网络以具有11维特征的超点集为输入。如图4所示，n为超点集的点数。该网络经过两个多层感知器(MLP)的特征进行串联，再进行最大池化处理，最后接入一个MLP对处理后的特征进行分类。该网络的前两个多层感知机分别为 (64，128)的 MLP和 (128，128，256)的MLP，用于特征提取，提取后将第一个MLP输入前后11维、128维的特征，以及第二个MLP输入前后128维、256维的特征串联在一起，最后进行最大池化处理，得到具有523维特征的点集，从而使得提取的局部特征与更为全局的特征进行了串联融合。点云数据在空间上具有离散性和无序性，对分割结果会产生影响。本文借鉴PointNet的处理，先使用一个输入11×11维的输入变换网络，解决了点云空间信息输入无序性的问题。相比较于PointNet，本文的神经网络模型不只是对空间坐标x、y、z三个维度特征进行融合，而且是对11维的空间进行了融合，具有更多的特征信息。

图4 特征融合网络FF-PointNetFig.4 Feature fusion network FF-PointNet

2.2 基于图卷积网络的三维语义分割

考虑到超点图结构的特殊性，每个超点的相邻节点是不固定的，在深度学习上不适合用传统的卷积方式，而适合使用图卷积网络来进行特征抽取。

本文所采用的图卷积方法是建立在门控图神经网络[2]（Gated Graph Neural Networks，GGNN）和边缘条件卷积[3,4]（Edge-Conditioned Convolutions，ECC）的基础上。本研究通过基于图的边缘卷积网络方式学习超点与超边的依赖关系 ,采用ECC完成最后的语义分类。

2.3 其他处理策略

（1）损失函数选择：考虑到点云不同类别样本比例相差悬殊的问题，如城市场景建筑物点云与地面点云数量相差较大。为了缓解这种类别不均衡问题，本模型采用focal loss作为损失函数[5]，具体计算如下：

式中，N表示点云数目,αfalse表示平衡因子，Pi, j表示点j属于第i类的概率，γ false用来调节简单样本权重的系数。

（2）数据增强处理：为增加数据的多样性，提高神经网络的泛化性能，本文对训练与测试数据集采用3种数据增强策略：一是对位置x、y绕z旋转一定角度，二是将x、y、z标准化投影到一个单位球中，即将变换到[-0.5,0.5]；三是对三维位置x、y、z值加入扰动即高斯噪声。

3 实验与分析

实验数据来源无人机拍摄长沙某区域，搭载5个相机用于倾斜摄影，使用Smart 3D capture生产以osgb格式保存的三维倾斜摄影模型，其中训练集包含30个模型数据集，测试集包含10个模型数据集。

本研究将同样的数据使用SPG模型进行了分割对比，并采用分类精准率Precision、交并比IoU作为衡量分类结果的评价指标。其中，分类精准率Precision是分类正确的样本数与预测为正的样本总数的比值；交并比IoU表示的含义是模型对某一类别预测结果和真实值的交集与并集的比值。该两个指标的计算公式分别如下：

图5 倾斜摄影分割区域的实景三维图Fig.5 Real 3D Map of Segmented Area in Oblique Photography

式中，TP、FP、FN分别为分类混淆矩阵中的真正例、假正例和假反例。本文根据该衡量指标，进行实验得出的结果为：本文所提出方法的总体分类精准率为87.1%，总体交并比75.2%。SPG模型总体分类精准率为85.8%，总体交并比55.1%。语义分割的可视化结果如图6所示：图6(a)为原始实景图数据；图6（b）为转换成点云的数据；图6(c)为真值数据；图6（d）为SPG分割结果；图6(e)为本文方法分割结果。各目标类型的分类精度和交并比结果如表2所示。对比图中的提取结果，可以看出相比较于SPG分割，在建筑物上部分错分类的点云得到改善。

图6 分割结果可视化Fig.6 Visualization of Segmentation Results