当前位置:首页 期刊杂志

基于随机森林和Landsat8 OLI影像的 脐橙果园种植信息提取

时间:2024-05-22

林 娜,王 伟*,王 斌

(1.重庆交通大学 土木工程学院,重庆 400074;2.重庆市地理信息和遥感应用中心,重庆 401147)

脐橙因其可食性高、易贮藏和市场广阔等特点,在我国江西、福建、重庆等红壤丘陵区被广泛种植。重庆奉节是我国重要的脐橙生产区,2009年被授予 “中国橙都”称号,脐橙果业发达,品种丰富。20世纪以来,地方政府整合资源大力发展脐橙产业,极大地促进了地方经济增长。但是,大规模种植脐橙果园,对于地区生物多样性和地表土壤的能量平衡都会产生一定影响。传统果园种植模式的粗放性,不仅会造成土壤污染、土壤结构破损,而且会引发较严重的水土流失现象,对地区生态环境构成重大威胁[1-3]。传统方法采取走访调查的方式获取果园种植信息,需耗费大量的人力物力,且易受主观因素的影响;而遥感技术具有重返快、覆盖广和成本低等特点[4],可实时准确地获取脐橙果园的空间分布信息,能为当地的农业政策制定提供支持。

目前,SVM、神经网络和随机森林等机器学习分类算法已在遥感信息提取方面得到了广泛应用[5-7],其中,随机森林算法具有人工干预少、运算速度快、鲁棒性强等优点[8]。顾海燕[9]等利用WorldView-2高分辨率卫星遥感影像构建了基于随机森林算法的分类模型,从而提取了地表覆盖信息,并与SVM方法进行了对比,结果表明该方法具有更快的运算速度和更高的分类精度;吕杰[10]等将SVM、最小距离法、随机森林算法3种分类模型应用于GF-1号卫星遥感数据的森林树种分类研究中,结果表明随机森林算法具有较高的适用性;马玥[11]等基于随机森林分类模型对齐齐哈尔地区的Landsat8 OLI数据进行了土地利用信息分类研究,分类精度较SVM、MLC方法有较大的提 高;任传帅[12]等利用GF-2号高分辨率影像和随机森林算法成功提取了海南北部的香蕉林信息;宋荣杰[13]等结合小波纹理分析和随机森林算法较好地提取了猕猴桃果园信息;王娜[14]等基于随机森林算法和单变量特征选择方法,利用多源信息综合的分类方案,有效提取了实验区的主要农作物;GAO T[15]等基于随机森林算法,采用多时相光谱信息、多尺度纹理信息和地形因子对河北塞罕坝林区的树种进行了分类研究;WANG B[16]等基于多时相Landsat8 OLI影像和随机森林算法提取了茶园信息,利用光谱信息、纹理信息、植被指数特征构建了多层次的特征集,结果表明采用特征优选法构建的多季节优选特征集具有最高的提取精度。

由上述研究可以看出,随机森林算法具有提取精度高、鲁棒性强等优点,但目前该算法在脐橙果园种植信息提取方面的研究仍相对较少。本文充分利用随机森林算法的优势,选取重庆奉节地区质量较好的Landsat8 OLI影像数据,综合光谱特征、植被指数特征、纹理特征和地形因子构建初始特征集和优选特征集,探索能有效识别脐橙果园的分类特征与模型,以期为基于遥感技术快速、准确获取脐橙果园种植信息提供依据。

1 数据来源与研究方法

1.1 研究区概况与数据来源

奉节县位于重庆市东部、三峡库区腹心地区(图1),地理坐标为109e1′17″~109e45′58″E、30e29′19″~31e22′33″N。全县总面积为4 087 km2,地势南北高、中部低,海拔为135~2 123 m;属中亚热带湿润季风气候,年平均气温为18℃,年降水量为769 mm,年平均无霜期为364 d,年平均湿度为67%,具有开展脐橙种植的优越地貌与气候条件。

图1 研究区遥感影像图

本文选取Landsat8 OLI多光谱影像作为主要数据源。Landsat8为美国航天局陆地卫星计划的第八颗卫星,携有OLI陆地成像仪和TIRS热红外传感器,其中OLI陆地成像仪包括9个光谱波段,空间分辨率为 30 m。本文中的Landsat8 OLI产品数据下载于地理空间数据云,数据时相为2017-02-05、2017-11-04和2017-12-22;其他数据包括30 m分辨率DEM数据、同年土地利用数据、GF-1号卫星影像数据和2017年实地调查数据。 本文主要利用EnMAP-BOX和ENVI软件对数据进行预处理。首先根据矢量数据对初始影像进行裁剪;再利用ENVI 5.3中的辐射校正模块对影像进行辐射校正,校正时需注意OLI陆地成像仪对应的增益和偏移参数;最后进行快速大气校正。

1.2 研究方法

本文以随机森林算法为分类模型,基于光谱特征、纹理特征、植被指数特征、地形因子及其组合,对奉节县脐橙果园种植的空间分布信息进行提取。总体技术流程如图2所示。

图2 总体技术流程图

1.2.1 果园特征提取

1)纹理特征。影像判读场景下,纹理特征可反映影像的均匀、细致、粗糙等情况。遥感影像可生成许多纹理指标,本文采用灰度共生矩阵计算相关纹理特征。其数学模型为:

式中,Z为该集合中元素的数目;f(x1,y1)=h表示影像(x1,y1)处像元的灰度值为h;d为两个像元之间的距离,取值范围为{1,2,3,4};θ为两个像元之间的方向角,取值范围为{0e 45e 90e 135e}。

本文选取均值、方差、协同性、对比度、相异性、熵、二阶矩和相关性8个纹理特征对影像进行定量分析。由式(1)可知,各纹理统计量均为关于方向的函数,为消除角度带来的影响,本文采用先叠加4个方向的统计量再求平均值的方法。由于多波段纹理分析会产生一定的信息交叉问题,因此本文在对原始影像进行主成分分析后选取第一主成分波段来获取上述 8个纹理特征[17-18]。

2)植被指数特征。植被指数是从多光谱数据中提取的、能有效度量地表植被状况的数值,与植被覆盖度、生物量均有较好的相关性[19]。本文采用归一化植被指数(NDVI)、土壤调节植被指数(SAVI)、增强型植被指数(EVI)和比值植被指数(RVI)进行分析研究。

式中,NIR为近红外波段反射值;R为红光波段反射值。

式中,L为树冠调整系数,本文设置L=0.5,该值能最大限度地减少土壤亮度的影响,且无需对不同土壤类型进行重新设置。

式中,B为蓝光波段反射值;E为增强因子;M1、M2分别为气溶胶阻抗系数。L、M1、M2和E的经验值分别为1、6、7.5和2.5。

3)地形因子。地形作为重要的环境因子,控制着水、光、土壤养分等资源的再分配,进而影响植被的分布。本文利用ArcGIS 10.4软件从研究区的DEM数据中提取坡度和坡向信息,将高程、坡度、坡向因子引入到研究区脐橙果园信息的提取研究中。

所有特征提取参数如表1所示。

表1 特征参数统计

1.2.2 随机森林算法

随机森林算法最早由Breiman L[20]提出,是一种基于分类与回归决策树(CART)的新型机器学习算法,可分析多达几千个输入特征的重要性,是目前应用最广泛的机器学习算法之一[21-22]。其主要思想是集成众多决策树的结果对分类任务进行统筹分析,具体实现过程为:

1)构建训练样本集。采用随机且有放回的方式从原始样本集中抽取部分样本构成训练样本集(Bootstrap法),重复N次即可得到N个训练样本集。

2)建立N棵CART决策树。以训练样本集中的样本为基础,首先从全部的输入特征M中随机选取m个特征(节点随机分裂法),然后根据方差不纯度指标对m个特征进行建树。其计算公式为:

式中,wi为第i类的属性;wj为节点N处属wj样本数占总样本数的频度;i为方差不纯度。

预设一个方差不纯度下降值的阈值,若分支后方差不纯度的下降值小于该阈值,则停止分支。至此,N棵决策树构建完成。

3)统筹决策树结果。将构建好的所有决策树组成随机森林,利用随机森林分类器进行分类,最终通过投票的方式来确定分类结果。

在本文中,随机森林算法不仅能对Landsat8 OLI影像进行分类,而且能对输入特征进行重要性排序。在Bootstrap抽样过程中,原始数据中约有1/3未被抽取到,这部分数据称为袋外数据(OOB)。通过OOB数据产生的OOB误差可计算得到各输入特征的重要性,从而进行特征选择[23]。特征重要性评估模型的表达式为:

式中,FE为特征重要性;M为特征总数;N为分类决 策树总数;为对特征MA加入噪声前第t棵分类决策树的OOB误差值;为对特征MA加入噪声后 第t棵分类决策树的OOB误差值。若给特征MA加入噪声后,OOB误差显著提高导致精度损失量较大,则说明该输入特征的重要性程度较高。

随机森林算法中的两个主要参数为分类决策树数量N和建树中随机选取的特征数m。对于m值,本文选取总特征数的算术平方根作为实验值;对于N值, 其值越高其分类准确率不仅达不到最高,而且运算时间和内存成本也会较高,本文经多次试验发现,N值设置为1 000时,各方案的OOB误差趋于稳定。

1.2.3 精度评价

混淆矩阵也称误差矩阵,主要用于比较分类结果与实际类别值,并把分类精度显示在矩阵里。本文采用选取随机参考点的方法,将研究区分类结果与同期GF-2号 卫星数据进行对照,并获取了研究区分类结果的混淆矩阵;再通过混淆矩阵计算得到总体精度、Kappa系数、错分误差和漏分误差,进而对各方案进行评价。

2 研究结果与分析

2.1 实验方案设置

为了取得最佳的提取效果,本文设计了5组实验方案进行研究,如表2所示。设置这些实验方案主要是考虑到以下两点:①研究各特征对脐橙果园空间分布信息提取的重要性程度;②寻找提高脐橙果园空间分布信息提取精度的最佳方法。

表2 实验方案信息表

2.2 特征优选分析

本文利用随机森林算法计算方案D中63个特征变量的重要性得分,各特征得分如图3所示,特征前的数字02、11、12分别表示2月、11月、12月的时相;B1~B6分别表示Landsat8 OLI影像的蓝光、绿光、红光、近红外、短波红外第一波段、短波红外第二波段;PC1、PC2分别表示影像的第一主成分和第二主成分波段。

图3 各特征重要性

由图3可知,不同特征的重要性差异较大,最高的11-B1特征重要性高达13.94,最低的12-VAR特征重要性低至0.39。本文选择重要性排在前1/4的特征构成方案E优选特征集[16]。方案E的13个特征变量如表3所示,其中光谱特征包括11月蓝光波段、11月绿光波段、11月红光波段、12月蓝光波段、12月第二 主成分波段和12月短波红外第二波段,植被指数特征包括11月NDVI、11月RVI、12月NDVI、12月RVI、12月EVI和12月SAVI,地形因子为DEM因子,说明光谱特征和植被指数特征的作用较显著,纹理特征和地形因子贡献不大。将特征类型按季节来统计发现,秋季有5个,冬季有7个,春季没有,说明秋、冬季时相对于脐橙果园信息提取较适合。

表3 优选特征分布表

2.3 脐橙提取结果与精度分析

2.3.1 脐橙提取结果

所有实验方案的提取结果如图4所示。由于本文主要的提取对象为脐橙,且为更好地展示脐橙种植在江河流域的特点,因此图中只显示脐橙和水体对象,参与分类的耕地、建筑用地、林地和裸地统一归为其他地物。通过目视解译方法对比GF-1号卫星影像发现,方案A和方案C 中不同类别地物之间存在较多错分的情况,如影像右下的流域区域,林地区域被分成了脐橙。从目视解译对比效果来看,基于光谱特征和植被指数特征综合的方案B以及基于优选特征组合的方案E的提取效果最佳,且后者的提取结果优于其他实验方案。

图4 各方案的脐橙提取结果图

2.3.2 精度评价分析

为定量评价各方案脐橙果园空间分布信息的提取精度,本文利用验证数据计算混淆矩阵,选取总体精度、Kappa系数、错分误差和漏分误差作为评价指标,对比分析各方案的提取结果,评价方案的优劣。具体结果如表4所示,可以看出,仅包含多时相光谱特征的方案A的总体精度为85.27%,Kappa系数为0.83;加入植被指数特征的方案B的总体精度和Kappa系数均略有提升,分别为86.71%和0.84;但反观加入纹理特征的方案C,其总体精度和Kappa系数则有小幅下降,分别为83.04%和0.81,表明植被指数特征的加入将提高脐橙信息提取的精度,但纹理特征不一定能提高分类精度,反而会损失一些分类精度;涵盖所有特征的方案D的总体精度和Kappa系数均大幅提高,但低于方案E;随机森林特征优选后的方案E的总体精度和Kappa系数达到最高,分别为90.71%和0.89。

表4 不同实验方案的精度对比

另外,对于错分误差,除纹理特征外,各类特征的加入均有效改善了提取精度,表明植被指数特征和地形因子有效减少了脐橙错分的概率。在漏分误差方面,纹理特征同样对脐橙提取精度的改善不明显,漏分现象较方案A未有效减轻。由错分和漏分误差可知,优选特征组合具有显著的提升效果。

综上所述,光谱特征中单独引入植被指数特征时,总体精度改善最显著,而单独引入纹理特征时总体精度略有下降,说明植被指数特征在提取中具有显著作用;优选特征组合在精度上的改善最显著,其提取精度高于其他两两类型特征组合的原因在于,它是各类型特征优选子集的组合,具备多源信息的优势,同时其提取精度亦高于所有特征综合的方案,主要原因为后者特征数量多、数据间相关性强,而优选特征组合只保留了贡献大的特征,降低了数据维度,减少了数据间的相关性。

3 结 语

针对目前脐橙果园遥感提取中存在的提取精度低的问题,本文综合多时相光谱信息、植被指数特征、纹理特征和地形因子,利用随机森林算法有效实现了脐橙果园信息的提取,克服了经济作物遥感提取特征较为单一的不足。利用随机森林重要性排序算法获取了输入特征的重要性,有效构建了优选特征组合,不仅有效降低了数据维度,还改善了提取精度。由此可见,随机森林算法在保证精度的同时还能提高运算效率,是一种可行且高效的遥感提取算法。本文也为后续的经济作物扩张以及生态环境评价系列研究提供了有效的数据参考。本文的不足之处是实验中随机森林算法的决策树棵数、特征变量数和优选特征数均采用经验值,后续研究可结合遗传算法等参数寻优算法来选取最优参数,以期进一步提高提取效率;实验中只应用了上述3类特征,后续研究将添加地理统计纹理或小波纹理等特征,以继续寻找有助于脐橙果园信息提取的特征以及特征组合。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!