时间:2024-07-28
何 书,鲜木斯艳·阿布迪克依木,胡 萌,陈 康
(1. 江西理工大学资源与环境工程学院, 江西 赣州 341000;2. 离子型稀土资源开发及应用教育部重点实验室(江西理工大学), 江西 赣州 341000)
近年来,基于数据驱动的滑坡易发性评价已成为区域滑坡评价领域的热点和重点[1]。各种常规统计模型和机器学习算法广泛应用于滑坡易发性评价,前者基于对数据样本的统计分析,后者则基于某种学习算法对训练样本进行建模。
常规统计模型对样本数量要求更高,而机器学习算法通常可根据相对更少的样本数据,利用模型的泛化能力进行区域预测,因而受到更为广泛的关注[2]。因此,在针对样本不足,区域面积较大的评价中,机器学习算法往往被视为更好的选择。常见的机器学习算法包括:神经网络[3]、模糊推理[4]、决策树[5]、支持向量机[6−7]、随机森林[8]、逻辑回归[9]等,不同算法有不同的建模过程与预测精度,在实际应用过程中,需要评价者选择合适的方法。各种算法均有优缺点,为弥补单一方法的不足,将多种方法融合用于滑坡易发性评价,越来越受到欢迎[10−13]。
机器学习算法在滑坡空间预测建模过程中通常需要非滑坡样本,在实际应用中,往往基于人为经验或随机方法进行选取[14],难免造成部分位于高易发区的样本被列为非滑坡样本。为克服非滑坡样本选择的主观性,部分研究尝试利用聚类方法事先进行初步的易发性分区,再进行非滑坡样本的选取[15−17]。 黄发明等[18]研究表明,基于聚类方法的非滑坡样本选取方法对于样本优化具有一定价值,聚类方法本身的预测精度对非滑坡样本选取具有显著的控制作用。
现有研究表明,评价单元选取对滑坡易发性评价结果有重要影响[15]。在非滑坡样本选取过程中,已有研究多采用栅格单元进行前期的易发性评价。为此,为进一步探讨评价单元和非滑坡样本选取方法对滑坡敏感性评价的影响,以斜坡单元划分为基础,将栅格单元和斜坡单元有机融合,基于自组织特征映射网络(以下简称SOM)和随机森林模型,构建滑坡易发性评价模型,并通过应用实例开展相关对比分析研究,探讨评价方法的有效性。
自组织特征映射网络(SOM网络)属于无导师、自组织、自学习网络,可根据输入向量的分组进行学习和分类,降低了人工干预程度,运算过程可以自动调节[19]。典型的自组织特征映射网络结构由输入层和竞争层组成,输入层向量和竞争层神经元的距离由式(1)计算[20]:
式中:dj——距离;
X——输入向量;
Wj——第j个神经元的权值向量;
m——输入向量的个数;
xi——第i个输入向量;
ωij——第i个输入向量和第j个竞争层之间的权值。
在学习过程中,通过不断修正 ωij,最终完成SOM训练目标。
随机森林模型的实质是包含多个决策树的分类器,利用随机方法构建决策树,而决策树之间没有关联。随机森林通常采用Bootstrap法进行重采样,形成新的样本集后,利用样本集生成对应的决策树,然后针对测试样本,利用决策树得到每个决策树的分类结果,最后采用投票的方法进行分类。由于每个树的训练样本及节点分裂属性均为随机选取,在一定程度上避免了模型的过拟合[21]。 近年来,利用随机森林方法进行滑坡易发性评价逐渐受到重视[22]。
进行滑坡易发性评价,制图单元的选择至关重要[23],目前应用最为广泛当属栅格单元和斜坡单元[24],二者均有各自的优缺点。栅格单元对数据,特别是DEM数据的精度要求较高[25],栅格单元数据在制图过程中,数据提取方便,评价结果相对更为精确,但栅格单元并不代表实际地形地貌,且空间分布零碎,存在与评价因子之间相关性较差的问题[26]。与此同时,斜坡单元的评价指标值一般通过计算单元内栅格值的平均值求取[27−28]。当评价区域面积较大,斜坡单元规模通常远大于实际滑坡规模,因此斜坡单元指标值不能很好的反映滑坡影响因子,从而造成较大误差。为弥补两种评价单元的不足,文中将栅格单元和斜坡单元进行整合,并以此为基础构建SOM-随机森林评价模型。
模型评价步骤(具体流程见图1):(1)选取滑坡易发性评价指标,对研究区进行斜坡单元划分,提取单元各指标的滑坡频率;(2)利用SOM神经网络进行滑坡易发性分区,在易发性较低地区选取非滑坡训练样本;(3)利用随机森林分类算法对所有栅格单元进行二值分类(滑坡或非滑坡);(4)统计斜坡单元内的滑坡预测比率,进行滑坡易发性制图。
图1 SOM-随机森林模型流程Fig.1 Flow chart of SOM-vandom forest model
大余县位于江西省赣州市西南部,总面积1 367.63 km²,区内以丘陵地貌为主,属典型的丘陵盆地(图2)。地势西高东低,西部和北部中低山海拔在800 m以上,中部丘陵一般在500 m以下,东部盆地地势平坦,海拔低于200 m。区内年平均气温20.54℃,年均降雨量1 454 mm,多雨季节集中在3−8月。大余盆地地质条件复杂,构造活动强烈,褶皱及裂隙发育,岩浆活动频繁,地层出露以寒武系浅变质岩及第四系冲、残、坡积层为主。区内人类活动频繁,路堑边坡开挖成为诱发滑坡的主要因素之一。综上,大余县降雨集中、地形地貌及地质条件复杂、人类活动频繁,为滑坡灾害频发提供了环境基础。因此,文章将该区域作为验证评价方法的典型地区。
图2 研究区地理位置及滑坡空间分布图Fig.2 Location of the study area and landslide distribution
主要数据来源包括:(1)GDEMV2 30m分辨率数字高程数据,用于提取坡度、坡向、水文等信息,来源于地理空间数据云(http://www.gscloud.cn/sources/accessdata);(2)1∶20万区域地质图来源于全国地质资料馆(http://www.ngac.org.cn/Map),用于提取岩土分布类型;(3)Landsat8影像2景来源于地理空间数据云(http://www.gscloud.cn/sources/accessdata),用于提取植被指数、土地利用类型等信息;(4)历史滑坡数据,来源于中国地质环境监测院编制的中国典型县(市)地质灾害易发程度分区图集以及野外滑坡编录,用于滑坡解译及滑坡频率统计;(5)Google卫星地图,用于道路提取及水文校正。结合大余县滑坡发育特征,选择评价因子,并利用相关因子系数分析和平均影响值算法(Mean Impact Value,MIV)对SOM神经网络进行变量筛选,剔除部分次要因子,最终选取10个评价因子,分别为高程、植被归一化指数(NDVI)、土地利用类型、坡度、总曲率、岩土类型、道路密度、距道路的距离、距水系的距离、距断层的距离。未纳入评价指标体系的指标如坡向,根据对历史滑坡点的调查分析表明,研究区内滑坡以浅层滑坡为主,与坡向的关联度较低。基于MIV算法的变量筛选,优化了神经网络的网络结构,提高了模型的预测精度,剖面曲率和平面曲率被排除在评价指标体系之外。参与 滑坡预测模型构建的评价指标及分类分级结果见表1。
表1 评价指标体系Table 1 Evaluation index system
所有评价指标均基于ArcGIS软件进行处理及提取,制成专题图(图3),栅格单元大小设为30 m×30 m,研究区共划分为1 487 829个栅格。对于面积超过900 m2的滑坡,以滑坡周界代替栅格单元,参与指标值提取。斜坡单元采用DEM水文分析模型划分,流量阈值设为1 000,斜坡单元平均面积约0.59 km2,利用Google卫星地图进行校正,经人工反复修编,共划分为2 312个斜坡单元。
图3 各指标特征空间分布Fig.3 Spatial distribution of the factors
现有历史滑坡数据是滑坡易发性评价最重要的参考信息,通过对该数据统计分析,可初步获得不同评价指标对滑坡发生的贡献率,其中相对滑坡频率被广泛应用于神经网络预测模型中[29],基于栅格单元赋值,计算公式如下:
式中:RPij——某因子i在某区间j中出现的相对频率;
Pij——第i个因子在第j区间中出现的滑坡频率;
Pi——第i个因子的滑坡频率之和。
一般地,可将RPij作为神经网络模型的输入向量,同时将斜坡单元各指标的相对滑坡频率之和(Z)作为输出向量,进而构建神经网络模型。
由于模型输出值与各指标相对频率之和(Z)密切相关,通过神经网络模型,将输入向量和输出向量之间的线性关系演变为非线性关系,目的在于寻求各指标相对权重大小。然而,因样本数量限制,预测模型的泛化能力将受到明显影响,理论上样本数量越多,代表性越强,模型泛化能力越强。若将输出向量设为0和1,0代表非滑坡,1代表滑坡,则建模过程将得到较大简化,因模型泛化过程仅为二值分类,对模型精度的要求明显降低。因此,在样本数相同的情况下,基于相同的方法,二值分类的泛化能力将更高。
相对于单一滑坡而言,本次划分的斜坡单元面积偏大,以栅格平均值计算斜坡单元值,显然会造成较大误差。因此,为保证评价精度,提出以下斜坡单元易发性指数计算方法:
式中:ZX——斜坡单元的滑坡易发性指数;
n ——被判为滑坡的栅格单元数;
N——斜坡单元总的栅格数。
最后将所有斜坡单元的ZX映射到[0,1]之间,以制作滑坡易发性分区图。
利用机器学习算法进行滑坡易发性预测,需要获取与滑坡样本数量相等的非滑坡样本,非滑坡样本的选择要求避开滑坡点,为比较不同非滑坡样本选取方法对滑坡预测的影响,现分别采用SOM神经网络聚类和较为常见的随机选取方法获取非滑坡样本,其中随机选取方法不考虑非滑坡点所在区域的易发性程度。通过资料收集和野外调查,共获取137个滑坡点历史数据,因此需获取相同数量的非滑坡点数据。利用随机选取方法进行采样时,尽量保持与滑坡样本一定缓冲距离,并尽可能均匀布点。
首先利用SOM模型对研究区进行滑坡易发性初步分区,非滑坡点全部选择在易发性等级最低的地区。具体流程为:(1)首先利用SOM对研究区进行自组织、无导师分类,然后利用式(2)统计各分区的相对频率,按照相对频率高低分别划分为高易发区、较高易发区、中等易发区、较低易发区和低易发区5个区;(2)在低易发区均匀选取非滑坡样本。滑坡易发性分区及非滑坡点的选取结果如图4(a)所示。
图4 滑坡易发性分区结果Fig.4 Zoning map of landslide susceptibility
由137个滑坡样本和以上两种方法选取的137个非滑坡样本分别构成随机森林模型和SOM-随机森林模型的基础样本,其中100个作为训练样本,37个作为测试样本,采用TreeBagger随机森林分类器构建滑坡易发性预测模型。决策树数目均设为500,训练误差曲线见图5。测试样本的预测准确率分别达到94.59%(随机森林)和95.95%(SOM-随机森林)。将1 487 829个栅格单元各指标数据,分别输入训练好的随机森林和SOM-随机森林模型中,获取每一个栅格单元的滑坡预测结果。然后利用式(3)统计各斜坡单元的滑坡易发性指数,在ArcGIS软件中利用自然断点法进行滑坡易发性分级,得到易发性评价图4(b)、图4(c)。随机森林模型收敛速度较快,对大样本的运算也非常迅速,1 487 829个栅格单元的运算总用时仅为4 min左右。对比SOM、随机森林和SOM-随机森林3种评价模型的分区结果发现(表2),SOM模型与其余两种模型的评价结果相差较大,较高和高易发区的滑坡频率占比仅为68.87%,同时其低易发区的分布面积明显小于随机森林和SOM-随机森林模型的分区结果,且位于后两种方法的低易发区内。因此,单独SOM神经网络对于易发性分区而言,精度略显不足,但作为非滑坡样本的选择依据,完全能够满足选择需要。随机森林模型和SOM-随机森林模型分区结果中,较高和高易发区的滑坡频率占比分别为91.19% 和94.94%,表明二者均很好的评价了研究区的滑坡易发性。从分区面积及占比看,由图4统计,随机森林模型中,较高和高易发区的面积分别为152.83 km2和373.34 km2,占比分别为11.41%和27.88%;SOM-随机森林模型中分别为152.12 km2和380.21 km2,占比为11.36%和28.39%,其余三个等级的滑坡易发性分区面积也十分接近。
表2 不同滑坡易发性分区的滑坡频率Table 2 Landslide frequency in different landslide susceptibility zones
图5 模型误差与决策树数量关系Fig.5 Relationship between model error and decision tree quantity
为检验以上评价模型对大余县滑坡易发性评价结果的准确性,选用成功率曲线对结果进行验证,线下面积大小反映了模型的预测准确性,越接近1准确性越高[30]。由图6可知,SOM、随机森林和SOM-随机森林三种模型的线下面积(AUC)分别为0.688、0.822和0.849。检验结果表明,单独的SOM进行滑坡易发性分区,准确率偏低,单独随机森林模型的预测率则低于SOM-随机森林模型约2.7%,表明基于SOM的非滑坡样本选择能够有效提高随机森林模型的预测精度。
图6 滑坡易发性预测成功率曲线Fig.6 Success rate curves of landslide susceptibility indexes
以大余县为例,对比分析SOM神经网络和传统随机选取非滑坡样本方法,基于斜坡单元构建滑坡易发性评价模型,并得出以下结论:
(1)单独利用SOM神经网络进行滑坡易发性预测,预测精度有限,但分区结果作为非滑坡样本选择依据,能使样本选择更加合理。
(2)将栅格单元滑坡预测结果与斜坡单元相结合,提出了一种滑坡易发性指数计算方法,该方法简单易用,运算快速,同时避免了因栅格单元较小而引起评价结果空间分布零散的缺点,使斜坡单元评价结果的物理意义更加明确。
(3)对比分析随机森林模型和SOM-随机森林模型的评价结果,较高易发区和高易发区的滑坡频率占比分别为90.19%和94.94%,根据预测成功率曲线,AUC值分别达到0.822和0.849,表明SOM-随机森林模型的评价精度比随机森林模型有一定提高。
致谢:中国科学院计算机网络信息中心地理空间数据云提供的遥感和DEM数据。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!