当前位置:首页 期刊杂志

广西林火驱动因子及预测模型研究

时间:2024-07-28

巨文珍,韦龙斌,彭泊林,李常诚,潘 婷

(广西壮族自治区林业勘测设计院,南宁 530011)

森林火灾是一项突发性强、破坏性大、处置较为困难的自然灾害。近年来,随着全球气候变化,其发生次数和受灾面积均有增加趋势,给各国森林资源、人民生命安全和财产造成了巨大的威胁[1-2]。

利用驱动因素对林火发生概率进行预测是森林火灾的研究热点[3]。随着研究深入,从前期仅考虑单一的气候因子逐渐发展为气候、可燃物、地形、人类活动等多因素的综合预测[4-7]。Logistic回归模型是最常见的预测模型,在有较好预测精度的同时能够通过模型参数明确解释因子与林火之间的关系,但对数据的正态性和线性关系有较高的要求[8-10];机器学习模型对数据要求较为宽松,现已在林火预测中得到了广泛应用并取得了不错的效果[11-14],如潘登等[5]和李永和等[15]对湘中丘陵区和浙江省林火预测模型进行了研究,对比均发现机器学习模型精度要优于logistic回归模型。

广西森林资源丰富,地形复杂,林区经营活动频繁,近年来极端天气日数逐渐增多,全区森林火灾管控难度逐渐增大。深入研究广西森林火灾的主要驱动因子并对其发生概率进行预测,对于优化该区域防灭火资源的分配,更加有效地进行森林火灾的预防与扑救具有重要意义。当前对林火预测模型的研究主要集中在东北、东南和云贵川地区[16],缺乏对广西大尺度下林火驱动因素的深入分析。因此,本研究通过Logistic回归模型和机器学习模型探索气象、可燃物、地形、人类活动等四大类驱动因素对广西林火发生的影响,旨在为广西森林火灾监测预警提供科学参考。

1 研究区概况

广西壮族自治区(20°54′—26°23′N,104°28′—112°04′ E)西靠云贵高原,北为南岭山地,南临热带海洋,地势自西北向东南倾斜。全区为典型的亚热带季风气候,雨热同期,年平均气温17~24 ℃,年降雨量750~2 200 mm。植被类型主要有沟谷雨林、季雨林、常绿阔叶林、常绿落叶混交林、落叶阔叶林、针阔混交林等,人工林树种主要有杉木(Cunninghamialanceolata)、马尾松(Pinusmassoniana)和速生桉(Eucalyptusrobusta)等[17]。广西90%以上的森林火灾由人为原因导致,其中又以农事用火和祭祀用火居多。每年9月到次年4月,尤其是清明、重阳等重要祭祀节日前后是森林火灾最频发的时段,这段时间是广西重点防火期(1)广西壮族自治区.广西森林火灾易发多发原因及对策调研报告.2023.。

2 数据来源及研究方法

2.1 数据来源

1)森林火灾数据为广西2011—2020年的火灾档案资料,包括火灾发生点的经纬度、日期等信息。在剔除经纬度错误的火灾数据后,共保留了6 495组数据。由于模型要求数据为二项分布的形式,本文采用ArcGIS 10.2在研究区域的林地内按照森林火灾数量1∶1生成随机点。生成时,在林火发生点处创建了1 km的缓冲区以减小空间自相关性。随机点的时间也是在研究期内随机生成。

2)选取气象、地形、可燃物、人为活动等四大类因素作为建立林火预测模型的初始变量。气象因素包括月平均降雨量、月平均相对湿度、月最高气温、月平均气温、月平均风速、月大风天数等6个因子,从全区2011—2020年的30弧秒气象格网数据中,通过林火发生点与随机点的时间和空间坐标提取;地形因素包括海拔和坡度,从全区数字高程DEM与坡度栅格数据中提取;可燃物载量从广西第一次森林火灾风险普查数据库中提取;人类活动因素包括林区人口、经济、建筑物数量,从全区30弧秒林区人口、经济和建筑物格网数据提取(2)广西壮族自治区,广西壮族自治区林业勘测设计院.广西第一次森林火灾风险普查成果.2022.。

2.2 研究方法

2.2.1Logistic回归模型

设置因变量数据结构为二项分布形式(林火发生为1,未发生为0),假设林火发生概率为P,林火不发生概率为(1-P),得到关系模型如式(1)所示。

(1)

经过变换,可得如式(2)所示的林火发生概率评估公式。

(2)

式中:β0为常量;自变量x1,x2,…,xn为各林火驱动因子;β1,β2,…,βn为各驱动因子的系数。

2.2.2机器学习模型

随机森林(Random Forest,RF)通过从原始训练样本集中随机有放回地抽取k个样本生成新的训练样本集合,生成大量的决策树,所有决策树预测类中的众数类别即为随机森林所预测的这一样本单元的类别。RF模型有着对数据较强的适应能力和抗噪声能力,被广泛用于林火预测[13]。

支持向量机(Support Vector Machine,SVM)是一种基于结构风险最小化原则的通用学习算法,能够有效地克服机器学习中多维度和过拟合的问题[18]。它的基本思想是在样本输入空间或特征空间构造出一个最优超平面,使得超平面到2类样本集之间的距离达到最大,从而取得最好的一般化能力[14]。

反向传播(Back Propagation,BP)神经网络是一种多层前馈神经网络[19],在输入层与输出层之间增加可设置层数的神经元(隐藏层),输入数据经由神经元通过激活函数进行单向传递,通过不断迭代调整权重与阈值,直到输出结果与期望接近。

2.2.3因子选择与模型检验

通过标准化处理消除不同因子之间量纲的差异,利用方差膨胀因子VIF(Variance Inflation Factor,VIF)进行多重共线性检验,剔除共线性较高的自变量。将全部样本分为建模样本(70%)和检验样本(30%),为减少由于样本划分带来的随机性对参数结果的干扰,随机生成了5次建模样本,通过Logistic回归模型筛选出3次以上显著的变量来构建Logistic回归模型和机器学习模型。

利用准确率(Accuracy)、召回率(Recall)和受试者工作特征(Receiver Operating Characteristic,ROC)来评价各模型的拟合效果。准确率和召回率越高分别代表模型的整体预测精度和对森林火灾的预测效果越好,ROC曲线不受分割阈值影响,能够较好地评价模型的泛化能力[20]。ROC曲线下方面积为AUC(Area Under Curve,AUC),取值范围为[0.5,1],AUC值越大表示模型的性能越优秀[21-22]。

2.2.4数据分析与处理

使用Excel 2019对历史森林火灾数据进行初步处理,使用ArcGIS 10.2提取林火发生点和随机点的各项属性数据,使用R软件完成模型的构建与检验。

3 结果与分析

3.1 因子选择与模型构建

通过方差膨胀检验得出月最高气温与其他因子之间存在多重共线性,剔除月最高气温后,随机生成了5个训练样本构建了Logistic回归模型。模型变量选择结果如表1所示,在5次模型构建中,除林区经济显著1次外,其余变量均显著3次以上,参数符号在5次建模结果中均保持一致。最终确定可燃物载量、林区建筑物数量、林区人口数量、海拔、坡度、月平均降雨量、月平均相对湿度,月平均气温、月大风天数、月平均风速等10个变量作为构建Logistic回归模型和机器学习模型的自变量。

表1 Logistic回归模型变量选择结果

确定最终建模因子后,重新构建Logistic回归模型(表2)。从表中参数的大小来看,对林火发生影响最大的前5位因素是林区建筑物数量、海拔、月平均相对湿度、月平均降雨量和月平均风速;从参数符号来看,可燃物载量、林区建筑物数量、月平均风速和林区人口数量与林火发生概率呈正相关,而海拔、月平均相对湿度、月平均降雨量、坡度、月大风天数、月平均气温与林火发生概率呈负相关。

表2 最优Logistic回归模型拟合统计结果

构建机器学习模型后,将各模型中因子按重要性排序汇总(表3)。不同模型中因子重要程度结果略有差异:整体上,林区建筑物数量、月平均降雨量和月平均相对湿度是影响广西森林火灾最主要的驱动因素,月大风天数相较于其它因子对广西森林火灾影响最小;在Logistic回归模型和RF模型中,海拔是影响林火发生主要的因子,但在SVM模型和BP神经网络模型排名中相对靠后;可燃物载量仅在BP神经网络模型中排名较高。

表3 因子重要性排序

3.2 模型精度检验结果

从表4可知,机器学习模型整体精度均优于Logistic回归模型,准确率和召回率均在80%以上。各模型均有较好的泛化效果,验证样本整体精度要优于建模样本。从召回率看,logistic回归模型对林火发生点的预测效果更好,精度相比整体准确率高5%左右;机器学习模型对非林火发生点和林火发生点的预测区别相差不大。从图1可得知:各模型均具有较高的预测精度,SAUC>0.85;RF的预测效果最好,SAUC=0.92。

图1 模型ROC曲线

表4 模型评价指标对比

3.3 研究区林火发生概率预测

通过模型精度检验得知RF模型拟合效果最佳,基于此模型对广西全区各乡镇林火发生概率进行预测。按市进行统计,结果如表5所示。林火发生概率仅表示该区域林分引发火灾的难易程度,并不代表林火发生的必然性。整体上,广西全区林火发生概率处于较高水平,概率较低的地区主要为林地面积较少的城区街道。位于桂西的河池市、百色市、崇左市林火平均概率均在0.7以上,最高达0.972,森林火灾隐患最大;南部沿海的北海市林火发生概率最低。

表5 广西林火发生概率分布

4 讨论

从模型结果可以看出,研究区域内林火发生与可燃物载量、林区建筑物、林区人口数量呈正相关,与海拔和坡度呈负相关,这与大多数研究结论一致[23-26]。广西可燃物载量较高的地区主要为松、杉、桉树等人工林集中区,这些地区,林区人口与建筑物数量同样较多,生产经营活动频繁,加之树种本身易燃性高,引发森林火灾的风险大。随着海拔的上升和坡度增大,人类活动逐渐减少;海拔的上升,气温降低、相对湿度与植被含水率上升;坡度的增大,水分滞留时间短,植被减少可燃物载量降低:这都大大降低了森林火灾发生的可能性[10,27-30]。部分研究表明林火的发生与经济呈正相关[16,31],本次建模结果显示林区经济对林火发生的影响并不显著,这与梁慧玲等[11]的研究结果一致,可能是由于经济发达地区基本为城区,森林面积分布相对较少,同时森林火灾管控水平较高,引发的森林火灾数量较少。

模型结果显示,森林火灾的发生与月平均降雨量和月平均相对湿度呈负相关,与平均风速呈正相关。这是因为降雨量与相对湿度的增加,能够提高森林可燃物的含水率,而较高的风速能够加速可燃物的干燥,提高燃烧性[8,32]。当前鲜有研究分析月大风天数与森林火灾之间的关系。大多数研究显示,气温的升高能够促进地表蒸腾作用,降低植被含水率,增加森林火灾发生的风险[16,27]。本研究结果显示,月平均气温和月大风天数与森林火灾概率均呈负相关,这可能与广西的气候特点有关。广西地处低纬,属亚热带季风气候区,大风天气主要由强对流天气和台风过境导致,集中分布在夏秋两季[32-33]。虽然夏秋两季在全年里温度较高,但由于是汛期,降雨量大,林火不易发生[8]。因此,模型结果显示其与森林火灾概率呈负相关。

在模型精度上,Logistic回归模型与机器学习模型对研究区域内林火发生均有较好的预测效果(SAUC>0.85),机器学习的整体精度要高于Logistic回归模型,其中RF模型的预测精度最高。从各因子与林火发生概率的相关关系来看,各因子之间相互影响,使得Logistic回归模型并不能够较好地揭示部分因子与森林火灾之间的独立关系[30,34]。今后,可通过考虑空间自相关性和分季节建模来提高模型对各驱动因子的解释度及精度。

5 结论

本研究结合气象因子、地形因子、可燃物载量和人为活动因子,构建了Logistic回归模型和机器学习模型对广西林火发生概率进行预测。结果表明:林区建筑物数量、月平均降雨量、月平均相对湿度是广西林火发生的主要驱动因子;logistic模型和机器学习模型均取得了较好的拟合效果(SAUC>0.85),RF模型的精度最高。对广西各地区林火发生概率预测的结果显示:广西森林火灾高风险区在马尾松、杉木、速生桉等易燃树种集中分布区;桂西北、桂西南地区由于降雨量相对较少,季节性干旱天气频繁,林火发生概率相比南部沿海地区高。整体上,预测结果符合广西客观实际,能为广西林火预警预测提供参考。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!