深度学习技术应用于自动识别崩塌滑坡体初探

时间：2024-07-06

何欣，贺占勇

何欣，贺占勇

（四川省国土空间生态修复与地质灾害防治研究院，成都 610081）

初步总结了基于无人机航拍影像使用深度学习技术对崩塌滑坡体进行自动识别的方法、效果以及存在问题，对深度学习技术基于无人机航拍影像自动识别崩塌滑坡体的可行性进行了研究，采用多尺度移动窗方法整合影像分类器以实现目标对象的自动识别。希望本文研究总结的深度学习技术应用于地质灾害隐患影像处理领域的可行性和困难能够供同业人员借鉴。

崩塌体；滑坡体；无人机影像；深度学习技术；自动识别

本研究对深度卷积神经网络用于崩塌、滑坡体影像自动识别进行了探索。深度学习技术近年来取得突破性进步，使计算机可有效将非结构化影像数据转换为结构化特征信息。应用这项技术的机器学习模型在多个领域上已经达到人类水平 (Goodfellow, Bengio, & Courville, 2016)。无人航空器小型化、智能化和经济化，使得航空摄影和遥感可以较低成本获得更多高质量的航空影像数据和遥感数据。

表1 研究样本分布、数据表

本文初步总结基于无人机航拍影像使用深度学习对崩塌滑坡体进行自动识别方法、效果以及存在问题。

1 数据和方法

1.1 工作数据概括

研究样本，获取无人机拍摄45处地质灾害隐患点4774张影像。分布在7个县18处滑坡和27处崩塌（表1）。

1.2 技术路线

研究的技术工作流程由三个部分组成：①影像数据的人工标注和分类；②影像分类器的建立和训练；③自动识别器的建立。

针对小样本状况，选择“融合图像分类器和多尺度移动窗”技术方案。使用深度卷积神经网络内化图像特性提取，训练影像分类器，对多尺度移动窗生成信号进行叠加，给出识别结果（图1）。

图1 技术路线图

1.3 影像数据的人工标注和分类

生成用于监督式机器学习的标注数据集。专业地质人员选取典型航拍影像进行人工判读，使用覆盖目标对象全部特征最小矩形框对崩塌、滑坡体进行标注，裁切标注区影像。再使用计算机视觉方法对人工标注的影像、其他影像进行比对，确定被人工标注覆盖区域；对未覆盖区域随机裁切影像。

表2 数据生产的结果

专业地质人员对裁切影像按照“崩塌”、“滑坡”、“破碎山体”、“人类活动”、“其它”等组别进行分类。整理分类结果用于分类器训练的标注数据集。

1.4 影像分类器的建立和训练

建立、训练针对崩塌滑坡体影像分类器。本研究使用以深度卷积神经网络为基础的图像特征提取器结合浅层分类器的方式建立分类器。

选择在ImageNet比赛中表现良好的神经网络模型，对标注数据集的图像特征进行提取。权衡性能、复杂度和新颖性，选择 MobileNet v2 (Sandler, Howard, Zhu, Zhmoginov, & Chen, 2018)，Xception (Chollet, 2016)和 InceptionResNet v2 (Szegedy, Ioffe, Vanhoucke, & Alemi, 2016)为备选编码器。因为本研究规模，浅层分类器种类不决定分类效果，研究基于标注数据数据集的图像特征，使用AdaBoost (Freund, Iyer, Schapire, & Singer, 2003)建立和训练影像分类器。

1.5 自动识别器的建立

建立自动识别器，可在航拍影像中将崩塌、滑坡体识别出来。本研究使用多尺度移动窗建立自动识别器。设定移动窗尺寸和移动步长，按设定输入影像范围内移动窗口。在每个位置上，使用该窗口对输入影像进行截取，使用影像分类器对截取影像进行类别判定。将影像不同位置类别判定结果作为信号，根据叠加信号强度对目标对象及其在影像中位置进行判定。

项目使用128、256、512三类尺寸移动窗，移动步长为移动窗尺寸的50%。自动识别信号单元为64x64正方形。为了过滤噪声，使用信号阈值n，即一信号单元需至少n个阳性窗口有交集才能被激活。使用‘崩塌’或‘滑坡’作信号源，设定信号阈值为2；使用‘破碎山体’作为信号源时，设定信号阈值为4。

表 3 不同图像特征编码在分类任务上的表现

2 结果和分析

2.1 标注数据数据集

本研究共产生1766张人工标注、分类的影像用于监督式机器学习。在“核心类别”：滑坡、崩塌、其他、破碎山体、人类活动类型基础上，将涉及类别交叉或判定困难情况进行了分离（表2）。

表4 分类器在不同类别影像上的表现（测试组）

2.2 影像分类器

为控制数据量影响，本研究选择“破碎山体”、“人类活动”、“其他”三个类别作分析起点。这三类别覆盖研究对象主要特征，又保持其间距离。

表 3展示三种编码及监督分类结果。三种编码方式均有良好表现。综合考虑模型大小和表现，本研究选择 Xception为主力编码器。

值得注意，没有崩塌、滑坡两个重要基础特征类别。原因在采集可以清晰反映崩塌、滑坡全部图像特征数据量太少（崩塌52张和滑坡56张），且变化不足。引入崩塌、滑坡类别后，分类器容易和其它组别（山体裂缝影像、农地影像）混淆；在缺失部分图像特征的崩塌影像和滑坡影像表现也较差（表 4）。综合而言，分类器在训练集和测试集表现分别为0.999 和 0.919，仍处于可以接受的水平。

2.3 自动识别器

为定量地衡量人工标注和自动识别间差异，本研究使用准确率和回溯率评价。准确率：一个对象同时被人工标注和自动识别所认定，视为准确（同一）。将人工标注区自动识别信号总面积与人工标注区总面积之比作为回溯率。此外，为衡量自动识别信号信噪比，还计算了人工标注区和自动识别区交集的面积和并集的面积比值IOU值。

图2 信号强度和信噪比

圆点为滑坡影像，叉点为崩塌影像

多数情况，使用“滑坡”信号可以有效地识别滑坡体。滑坡体和崩塌体在“滑坡”信号上呈现不同模式。对滑坡体“滑坡”信号强度和IOU值呈现一定程度正相关性。对于崩塌体，“破碎山体”比“崩塌”表现更有效信号（图2）。

崩塌体影像自动识别时信号偏弱与拍摄视角有关。倾斜视角较垂直视角下崩塌体信号更强（图3，信噪比也高。垂直视角下，弱信号情况多，还存在信号较强但信噪比低情况。

几点体会：

（1）自动识别和人工标注结果呈现一致性。使用“破碎山体”为信号源可有效识别崩塌体，使用‘滑坡’作信号源可有效地识别滑坡体。

（2）使用倾斜视角拍摄影像可获得较好效果。崩塌体更易受拍摄视角影响，使用垂直影像识别会有明显负面影响。对滑坡体使用垂直影像会增加信号的不确定性。

（3）受多尺度移动窗技术制约，自动识别结果较于人工标注有一定偏移，地质灾害隐患更倾向于山脚一侧。

图3 拍摄视角的影响

圆点为倾斜视角，叉点为垂直视角

（4）值得注意的是，本研究使用AdaBoost基于人工标注影像在“破碎山体”，“崩塌”和“滑坡”三种信号的信息强度上的模式建立分类器以区分崩塌体影像和滑坡体影像。训练组和测试组正确率分别达0.96和0.92的水平。绝大多数错误出现在人工标注有误的影像上。

3 讨论和结论

3.1 讨论

深度卷积神经网络用于崩塌滑坡体影像自动识别基于图像特征，深度学习模型可有效从无人机拍摄山体影像中识别“破碎山体”、“人类活动区域”，在一定程度上识别“崩塌”和“滑坡”区域。

实际应用最有效的监督式学习，需要大量标注数据，获取足够量标注数据成本高昂。原始影像数据采集，后续人工标注成本测算，有经验地质工作者在一工作日仅能标注100张左右影像。

受标注数据量限制，本研究未使用YOLO式模型，使用低效多尺度移动窗对目标对象的自动识别模型。对崩塌滑坡体由于目标对象影像中无模版化几何比例，需比其他目标对象更多标注数据。

崩塌、滑坡体最适合“语意分割式标注”（勾勒出各目标对象轮廓）。采用人工标注方式时间成本至少是矩形框标注的数十倍。

3.2 结论

本研究基于深度卷积神经网络分类器和建立在分类器基础上的识别器组成。识别器以多尺度移动窗的方式建立，在目标类别上的信噪比以IOU计平均可以达到20%（滑坡）和40%（崩塌）。本研究表明，在地质灾害隐患识别应用深度学习技术是基本可行的。最大的制因素是标注数据的数量和质量。

Goodfellow, I., Bengio, Y., & Courville, A. 2016. Deep Learning: Adaptive Computation and Machine Learning. Cambridge, Massachusetts: MIT Press.

欧阳朝军. 2018. 成都山地所采用新技术提取北京房山区崩滑体动力学特征. Retrieved from www.imde.cas.cn/yjld_2015/201808/ t20180814_5055778.html

Chen, L., Zhu, Y., Papandreou, G., Schroff, F., & Adam, H. 2018. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation. arXiv:1802.02611 [cs.CV].

Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. 2015. You Only Look Once: Unified, Real-Time Object Detection. arXiv:1506.02640 [cs.CV].

Tzutalin. 2015. LabelImg. Retrieved from Git code: https://github.com/tzutalin/labelImg

Lowe, D. 1999. Object recognition from local scale-invariant features. Proceedings of the Seventh IEEE International Conference on Computer Vision, (pp. 1150-1157). Kerkyra.

Lowe, D. 2004. Distinctive Image Features from Scale-Invariant Keypoints. International Journal of Computer Vision, 91–110.

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L. 2018. MobileNetV2: Inverted Residuals and Linear Bottlenecks. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4510-4520.

Chollet, F. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. arXiv:1610.02357 [cs.CV].

Szegedy, C., Ioffe, S., Vanhoucke, V., & Alemi, A. 2016. Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. arXiv:1602.07261 [cs.CV].

Freund, Y., Iyer, R., Schapire, R., & Singer, Y. 2003. An Efficient Boosting Algorithm for Combining Preferences. Journal of Machine Learning Research, 933-969.

A Preliminary Discussion on the Application of Deep Learning Technology to the Automatic Identification of Landslide

HE Xin and HE Zhan-yong

(Sichuan Research Institute of Land Space Ecological Restoration and Geohazard Prevention, Chengdu 610081)

This paper has a discussion on the method, effect and existing problems of automatic identification of landslide body based on aerial drone imagery and by means of deep learning technology and makes an approach to the feasibility of applying this automatic identification method.

landslide body; aerial drone imagery; deep learning technology; automatic identification

TP18；P641.21；P642.22

1006-0995（2021）03-0508-04

10.3969/j.issn.1006-0995.2021.03.032

2020-11-02

何欣（1982— ），男，成都人，工程师，研究方向：大数据和统计学