时间:2024-08-31
张悦琦,任鸿瑞
太原理工大学 矿业工程学院,太原 030024
中国是世界上最大的水稻生产国和消费国,其中,东北三省(黑龙江、吉林、辽宁)一直是水稻的重要产区,种植面积约占全国的17%,为中国粮食生产和农业经济的快速发展作出巨大贡献(方福平和程式华,2018;陆娣 等,2020)。及时准确获取水稻种植分布信息,对估算水稻产量、制定农业政策和保障国家粮食安全具有重要作用(李志鹏 等,2014)。
高分六号(GF-6)卫星是中国首颗设置红边波段的光学遥感卫星,于2018 年在酒泉卫星中心成功发射,具有窄幅(PMS)和宽幅(WFV)2 种不同分辨率影像。其中,GF-6 WFV 影像在传统蓝、绿、红、近红外4个波段的基础上新增红边Ⅰ、红边Ⅱ、紫边和黄边波段,具有更加丰富的波段信息。已有研究表明,红边波段对作物的微小变化敏感,在作物识别与分类方面发挥重要作用(Elvidge和Chen,1995;苏伟 等,2019;李文杰 等,2020;孙敏轩 等,2020;Kim 和Yeom,2014;Mehdaoui 和Anane,2020)。李前景等(2021)提出一种适用于GF-6 WFV 影像红边波段的卷积神经网络模型算法,成功对作物种植区进行分类识别并验证了GF-6 WFV 红边波段对作物分类的敏感性;梁继等(2020)基于GF-6 影像构建红边植被指数,组合多个影像波段后利用支持向量机框架对松嫩平原北部作物进行分类,结果表明红边特征能够显著提高作物识别精度。
随着计算机技术的快速发展,机器学习近年来广泛应用于水稻、玉米、大豆等作物种植分布提取研究,其主要包括支持向量机、神经网络、随机森林等算法。神经网络具有较强的自适应、自学习能力,但分类时间复杂度高、参数难以确定,且存在过拟合和局部极值问题;支持向量机较神经网络分类精度高、泛化能力强,但在核函数的选择与参数设置方面缺乏理论依据(闫利和江维薇,2016;贾坤 等,2011)。因此,具有训练速度快、分类精度高、不易过拟合、可处理高维数据等优点的随机森林算法在作物种植提取研究中更受青睐(侯蒙京 等,2020;陈安旭和李月臣,2020;张鹏和胡守庚,2019;Immitzer 等,2016)。黄健熙等(2017)利用多时相GF-1 WFV数据并采用随机森林算法成功提取嫩江县玉米与大豆种植分布,结果表明随机森林算法较支持向量机算法分类精度更高;王李娟等(2020)基于Sentinel-2 数据生成光谱特征、植被指数、红边指数和纹理特征,根据特征重要性排序构建7种特征组合方案,分别采用随机森林算法与支持向量机算法对农耕区进行土地覆被分类,结果表明,随机森林分类精度优于相同特征变量下的支持向量机算法,总体精度可达88.24%。
截止目前,利用GF-6 WFV 影像提取水稻种植分布的研究中,多注重于红边波段对分类精度影响的探讨与分析,而紫边与黄边波段对水稻分类精度的影响尚未得知。此外,由于时序影像包含信息多,其分类精度通常要优于单时相影像,但时序影像分类速度较慢、效率较低。因此,为寻找一种高效、高精度的水稻提取方法,探索GF-6 WFV 新增波段对水稻分类精度的影响,本研究以辽宁省盘锦市为研究区,以GF-6 WFV 影像为数据源,利用6景覆盖水稻关键物候期的单时相影像及其组合的时序影像,通过构建光谱特征、植被指数、水体指数和红边指数4类特征变量,基于特征优选的随机森林模型开展水稻种植分布提取研究。根据验证样本和实地验证点对提取结果进行精度验证,对比分析后获得提取水稻信息的最优特征和最佳时相,为国产GF-6 卫星的推广应用提供更多理论方案。
盘锦市地处辽宁省西南部,介于40°39′N—41°27′N,121°25′E—122°30′E,下辖有盘山县、双台子区、大洼区和兴隆台区(图1),是中国重要的商品粮食生产基地和大米出口基地。研究区属暖温带大陆性半湿润季风气候,具有光照充足、昼夜温差大、四季分明等特点,地势平坦,平均海拔高度约4 m,且土壤略偏碱性。根据2019盘锦统计年鉴,该区年均气温8 ℃—11 ℃,年均降水618.62 mm。因其独特的地理环境和气候条件,盘锦市适宜农作,土地覆盖类型以耕地为主,其中约85%为灌溉水田,约14%为旱地,因此水稻在全市粮食生产中占有重要地位。结合2020 版30 m全球地表覆盖数据GlobeLand30(Chen 等,2015),水稻、旱地等耕地占研究区总面积约70%,除耕地外的主要土地覆盖类型有水体、建筑用地和天然湿地。水体与天然湿地分布较为集中,主要位于盘锦市南部与西南部;建筑用地遍布全市,呈破碎化分布,占研究区总面积约15%。
图1 盘锦市地理位置和样本点空间分布Fig.1 Geographical location schematic and spatial distribution of ground feature sample points in Panjin
结合Google Earth高分辨率影像进行目视解译,根据研究区土地覆盖情况共获取样本点2000 个(图1(b))。样本点均匀分布于研究区内,包括1000 个水稻样本点,250 个水体样本点,300 个天然湿地样本点,150 个旱地作物样本点,300 个建筑用地样本点。其中,70%用作训练样本,30%用作验证样本。此外,通过实地调查获得36 个水稻实地验证点(图1(b)),并于每个点上拍摄实地照片。
本研究选用GF-6 卫星WFV 传感器,获取6 景2020 年5—8 月覆盖盘锦市的L1A 级遥感影像,分别对应三叶期、移栽期、返青期、孕穗期和抽穗期等水稻关键物候期,成像时间分别为2020年5月11日、5月25日、6月1日、6月6日、7月20日与8 月22 日,空间分辨率为16 m。其中,返青期由6月1日与6月6日2景影像共同覆盖。为便于表述,以5.11、5.25、6.01、7.20、8.22 分别代表三叶期、移栽期、返青期、孕穗期和抽穗期影像。GF-6 WFV 影像具有蓝波段(0.45—0.52 μm)、绿波段(0.52—0.59 μm)、红波段(0.63—0.69 μm)、近红外波段(0.77—0.89 μm)、红边Ⅰ波段(0.69—0.73 μm)、红边Ⅱ波段(0.73—0.77 μm)、紫边波段(0.40—0.45 μm)和黄边波段(0.59—0.63 μm)8个波段(陆春玲 等,2021)。
在ENVI 5.3 遥感图像处理软件中进行影像预处理,包括辐射定标、大气校正、正射校正和影像裁剪。遥感影像、绝对辐射定标系数和波谱响应函数可从中国资源卫星应用中心(http://www.cresda.com/CN/[2021-05-31])下载。
本研究选取光谱特征、植被指数、水体指数和红边指数共20个特征变量(表1)。
表1 特征变量信息和遥感指数计算公式Table 1 Information of characteristic variables and formula for calculating remote sensing indicies
在影像预处理的基础上,选取GF-6 WFV 影像的8 个波段作为光谱特征。反映土地覆盖类型时,植被指数和水体指数比单波段信息更为稳定,可在一定程度上提高分类精度(何云 等,2019),故选取具有代表性的7 种植被指数和1 种水体指数作为随机森林识别的特征指数波段。红边波段多指植被反射率在近红外波段与红光波段之间快速变化的区域,是指示绿色植物生长状况的敏感性波段(Horler 等,1983)。鉴于此,本研究将GF-6 WFV影像的2个红边波段分别代替归一化植被指数NDVI(Normalized Difference Vegetation Index)中的近红外波段,得到2个红边指数(梁继 等,2020),即归一化植被指数710 即NDVI710(Normalized Difference Vegetation Index 710)和归一化植被指数750 即NDVI750(Normalized Difference Vegetation Index 750)。此外,借鉴了Sentinel-2卫星的2种红边指数(Clevers和 Gitelson,2013;Dash和 Curran,2004),即归一化差异红边1指数NDRE1(Normalized Difference Red Edge 1 Index)和地面叶绿素指数MTCI(Terrestrial Chlorophyll Index)。
随机森林算法是由Breiman(2001)提出的以决策树为基本分类器,结合Bagging 集成学习理论与随机子空间方法的一种集成学习方法。随机森林通过自助法(Bootstrap)从原始训练集中有放回地随机选取N个样本作为训练样本,因此会有约37%的样本未被抽取到,这些样本被称为袋外OOB(Out of Bag)数据,可用于评估随机森林模型性能(Breiman,1996)。经Ntree次样本抽取和训练可得到Ntree个决策树模型,在每棵决策树的每个节点处随机选取Mtry(Mtry 随机森林中决策树构建时采用基尼指数进行节点分裂时的特征选择。基尼指数表示样本集合中随机样本被错分的概率,基尼指数越小则集合的纯度越高,被错分的概率越小;反之,集合越不纯。集合D的基尼指数Gini(D)如式(1)所示: 式中,K为训练样本中的种类数;PK为集合D中随机选取的样本属于类别K的概率。 若集合D根据特征A是否取某一值α被分为D1和D2两部分,则在特征A的条件下,集合D的基尼指数Gini(D,A)如式(2)所示: 式中,|D|表示集合D中的样本数,|D1|表示集合D1中的样本数,|D2|表示集合D2中的样本数。由此看出,随机森林模型构建时,若通过某特征划分后的基尼指数减少的程度越大,则划分后集合变纯的程度越大,该特征在模型中越重要。因此,采用该方法即平均不纯度减少的方法可评估特征重要性,其定义如式(3)所示: 式中,Ntree为随机森林模型中决策树个数;Ginit(D)、Ginit(D,A)分别为第t棵决策树经特征A划分前后集合D的基尼指数。 由于所有特征参与分类将导致信息冗余,从而降低分类精度和分类速度,因此本研究在Python平台下通过调用Scikit-learn 库建立随机森林模型,采用平均不纯度减少的方法计算模型中各特征重要性并按照从高到低的顺序进行排序。根据重要性排序,第1 次选择首位特征,第2 次选择前2 位特征,依次类推可得到单时相20个不同特征组合、时序影像100个不同特征组合的随机森林模型,分别计算其OOB 误差,对模型精度和模型复杂度综合考虑后确定最优特征组合,从而在保证分类精度的条件下降低模型复杂度。 利用验证样本获得混淆矩阵,计算总体精度OA(Overall Accuracy)、Kappa 系数和F1 值(F1_score),从而对特征优选的随机森林分类结果进行精度评价,计算公式如式(4)—式(6)所示。OA 为验证样本集上分类器预测正确的概率。Kappa系数是检验验证样本与预测结果吻合度的指标,取值范围为[0,1],越接近1 表示模型吻合度越高(冯锐 等,2017)。F1 值是制图精度和用户精度的调和均值,可用于表征模型输出的好坏,取值范围为[0,1],越接近1 表示模型输出效果越好(杨建宇 等,2019)。 式中,mi为第i类的分类正确样本数;Ci为第i类的分类像元总数;Gi为第i类的真实像元总数;N为分类像元总数;n为分类数;P和U分别为制图精度PA(Producer Accuracy)和用户精度UA(User Accuracy),计算公式如式(7)所示: 此外,实地验证点均为水稻且未在研究区均匀分布,故仅计算总体精度进行说明。 采用平均不纯度减少的方法,分别基于单时相GF-6 WFV 影像和时序影像计算模型中各特征重要性(图2)。由于基于时序影像的特征数多达100个,此处仅列出前20位。 图2 特征重要性评估结果和不同特征组合模型OOB精度Fig.2 Feature importance assessment results and OOB accuracy of different feature combination models 从水稻三叶期至抽穗期,即2020 年5—8 月,水体指数和植被指数重要性排名逐渐降低,红边指数的重要性排名逐渐提高(图2),表明红边指数对土地覆盖分类贡献度逐渐增大。2个红边波段中,B6 波段重要性相对较高;在NDRE1、MTCI、NDVI710 和NDVI750 等4 个红边指数中,NDRE1的重要性较高,在孕穗期和抽穗期影像中,重要性排名均为首位。究其原因,研究区水稻覆盖范围较大,且5—6 月稻田需进行泡田和移栽,呈现出以水体为主的特点,与其他地物类型光谱特征差异较大,归一化水体指数NDWI(Normalized Difference Water Index)对水体信息提取效果较好,故5—6 月NDWI 的重要性较高。NDRE1 用红边的峰和谷来代替NDVI 的红光波段与近红外波段,属于窄带绿度指数,相比于宽带绿度指数对叶绿素含量、叶冠层的微小变化等更加敏感,能够提高对作物的识别能力(张沁雨 等,2019)。随时间的推移,水稻、天然湿地和旱地作物逐渐生长,7—8 月体现出高覆盖植被特点,故NDRE1 对土地覆盖分类的贡献度逐渐增大。基于时序影像的重要性排名中,前20 位以孕穗期和抽穗期影像的特征量居多,其中光谱特征11个,红边指数4个,植被指数3 个,水体指数2 个,前2 位分别为抽穗期影像和孕穗期影像的红边指数NDRE1,即NDRE18.22和NDRE17.20。 对单时相影像20 个不同特征组合和时序影像100 个不同特征组合进行OOB 估计,得到OOB 精度(图2)。因时序影像特征数过多,图2中仅显示前20位。以三叶期影像为例,特征数从1增加到7,即特征从仅有NDWI到特征包含重要性排序前7位,OOB 精度逐渐增加;特征数为7 时,OOB 精度达到0.956;特征数从7 增加到20,OOB 精度整体上有微小的下降趋势,但在特征数为19 时,OOB 精度达到最高,为0.957。由于特征个数过少会导致分类精度较低,特征个数过多会导致信息冗余且增加运行成本,故对模型精度和模型复杂度综合考虑后选择特征重要性排名前7的特征作为随机森林模型的最优输入特征。根据相同特征选择方法,对移栽期、返青期、孕穗期、抽穗期和时序影像进行特征选择,分别选取重要性排名前8、前5、前8、前8和前16的特征作为最优输入特征。 利用单时相影像和时序影像,基于特征优选的随机森林模型对2020 年盘锦市水稻种植分布进行提取,获得6 种水稻分布结果(图3)。从目视效果来看,6 种结果较为一致,水稻主要分布于盘锦市北部、东部与中南部,以大洼区和盘山县为主。较于单时相水稻分类结果,基于时序影像的水稻分类图斑更为规整,一定程度缓解了“椒盐现象”,分类效果最佳。三叶期、移栽期和返青期影像对应的分类结果中,盘锦市西南部水体错分现象明显,原因为此时水稻需进行泡田、移栽,稻田以水体为主,相似的光谱特征导致部分水体错分为水稻。水稻孕穗期与抽穗期时稻田体现出植被特征,水体错分为水稻现象明显减少,但盘锦市西北与东北部旱地作物错分为水稻现象有所增加,且“椒盐现象”更加明显。 图3 基于不同物候期影像的2020年盘锦市水稻分布图Fig.3 Paddy rice distributions based on different images of phenological phases in Panjin City in 2020 根据混淆矩阵分别计算总体精度、Kappa 系数和各土地覆盖类型的F1 值,根据水稻实地验证点计算实地验证点精度(表2)。单时相影像分类结果中,移栽期影像分类结果精度最高,其总体精度、F1 值(水稻)、Kappa 系数和实地验证点精度分别为97.67%、98.84%、0.97 与97.22%,较抽穗期影像分类结果分别高出1.00%、1.34%、0.02 和2.78%。综合目视情况,单时相分类结果中,移栽期影像分类效果最佳,原因在于此时水稻与研究区内天然湿地、旱地作物物候特征差异较大,易于识别。与单时相影像分类结果相比,基于时序影像的水稻分类精度显著提高,水稻错分与漏分现象有所减少,总体精度、F1值(水稻)、Kappa系数与实地验证点精度高达99.33%、100.00%、0.99和97.22%,但其分类速度较慢、效率较低。因此,实际应用中为减少运算时间和运行成本,达到高效、高精度的要求,可直接利用GF-6 WFV 水稻移栽期影像提取水稻种植信息。 表2 基于特征优选随机森林模型的2020年盘锦市水稻分类结果精度评价Table 2 Paddy rice classification accuracy based on feature-optimized random forest in Panjin City in 2020 GF-6 卫星新增2 个红边波段,为直观反映红边信息对土地覆盖类型分类精度的影响,将红边波段B5、B6 和红边指数NDRE1、MTCI、NDVI710、NDVI750共6个特征去除,使用剩余14个特征并利用单时相影像和时序影像,基于特征优选的随机森林模型对2020年盘锦市水稻种植分布进行提取,根据验证样本和水稻实地验证点进行精度验证(表3)。 结果表明,三叶期和返青期影像的有红边信息与无红边信息提取结果精度较为一致;移栽期影像的无红边信息分类结果较有红边信息时精度有所下降,F1 值(水稻)与总体精度分别降低0.33%和0.84%;孕穗期和抽穗期影像的无红边信息分类结果精度显著下降,F1 值(水稻)分别降低0.47%和0.82%,总体精度分别降低1.67%和1.84%;时序影像的无红边信息分类结果较有红边信息时总体精度下降0.33%。水稻实地验证点较少且均在稻田旁的道路上获取,因此仅能通过目视解译对分类结果进行判读,由于有无红边信息分类结果为像元级差异,故实地验证精度未发生变化。三叶期和返青期影像的无红边信息分类结果精度未降低的原因在于,在重要性排序中红边波段和红边指数的排名均靠后,对土地覆盖分类贡献度较小;移栽期影像的特征重要性排序中,红边波段B6 位列第3,故无红边信息分类结果精度有所下降;而孕穗期和抽穗期影像的特征重要性排序中,红边指数NDRE1 均位居首位且重要性较高,对土地覆盖分类贡献度较大,故精度下降较移栽期影像更为明显。时序影像中红边指数特征重要性排名靠前,但无红边信息分类结果精度有所降低却不明显,t检验结果表明两种分类结果在统计学上无显著性差异(P=0.58>0.05)。分析其原因在于,水稻在全生育期内与其他地物类型相比有着独特的光谱特点,即生育期前期体现水体特征,后期体现植被特征,故时序影像中仅利用光谱特征、植被指数与水体指数对水稻种植分布进行提取,也可获得较好效果,这也表明时序信息可解决因缺少红边信息而分类精度下降的问题。 为反映GF-6 WFV新增紫边(B7)和黄边(B8)波段对提取作物种植分布的影响,将B7、B8 波段从20 个特征变量中剔除,使用剩余18 个特征并利用单时相影像及时序影像,基于特征优选的随机森林模型提取2020 年盘锦市水稻种植分布并进行精度验证(表4)。 表4 无B7、B8波段且基于特征优选随机森林模型的2020年盘锦市水稻分类结果精度评价Table 4 Paddy rice classification accuracy without bands B7 and B8 based on feature-optimized random forest in Panjin City in 2020 较全特征且基于特征优选随机森林模型的水稻分类精度(表2),三叶期、移栽期、孕穗期与抽穗期影像分类总体精度分别下降0.17%、0.67%、1.00%和1.34%,其中移栽期、孕穗期与抽穗期影像F1值(水稻)分别下降0.17%、0.32%和1.18%,分类精度有所降低的原因是这4期影像的紫边、黄边波段在重要性排序中排名较为靠前,对土地覆盖分类贡献度较大。较无红边信息水稻分类结果精度(表3),移栽期、孕穗期与抽穗期影像分类总体精度分别提高0.17%、0.67%和0.50%,Kappa系数均提高0.01。结果表明紫边、黄边波段能够提高水稻分类精度,但红边信息较紫边、黄边波段分类结果精度提高效果更佳,原因在于红边波段或红边指数特征重要性排名较紫边和黄边波段更为靠前。时序影像分类精度与基于特征优选随机森林模型的水稻分类精度(表2)相一致,略高于无红边信息水稻分类结果精度(表3)且差异无统计学意义(P=0.47>0.05),结果表明,基于无紫边、黄边波段的时序影像可获得较高分类精度,时序信息可解决缺少紫边、黄边波段而分类精度下降的问题。此外,因分类结果为像元级差异且水稻实地验证点位于稻田旁的道路上,故经目视解译判读后,水稻实地验证点精度未发生变化。 本研究采用不同物候期的GF-6 WFV影像构建光谱特征、植被指数、水体指数和红边指数等特征变量,基于特征优选的随机森林模型对2020 年盘锦市水稻种植分布进行提取并得到以下结论: (1)不同物候期的单时相影像水稻分类结果表明,利用单时相GF-6 WFV 影像并基于特征优选的随机森林模型能够较高精度地获取水稻种植分布信息,总体精度、F1值(水稻)和实地验证点精度均在90%以上。综合目视解译、验证样本精度评价与实地验证点精度评价,处于水稻移栽期的影像分类结果最佳,总体精度、F1 值(水稻)、Kappa系数与实地验证点精度分别为97.67%、98.84%、0.97和97.22%。 (2)与单时相影像分类结果相比,利用时序影像提取水稻种植分布,分类精度显著提高,总体精度、F1值(水稻)与Kappa 系数分别为99.33%、100.00%和0.99,较移栽期影像分类结果分别提高1.66%、1.16%和0.02。利用时序影像基于随机森林方法进行分类时,较多的特征变量造成模型复杂度较高,分类速度较慢,因此,实际应用中,有红边信息时利用水稻移栽期的单时相影像进行水稻种植分布提取即可满足精度要求且分类效率较高;无红边信息时可利用时序影像进行水稻种植分布提取,从而解决无红边信息时分类精度较低的问题。 (3)红边波段和红边指数在特征重要性排名较高的影像中,特别是在孕穗期和抽穗期等植被覆盖度较高的时期,引入红边波段和红边指数能够提高分类精度,减少错分、漏分现象,优于相同分类方法下未引入红边波段和红边指数的分类结果。研究表明,红边波段和红边指数的引入能够增强作物识别能力,在作物精细提取方面具有重要作用和广阔前景,但可能由于盘锦市地物类型简单、种植结构单一,引入红边信息后分类精度提高效果不显著。 (4)根据重要性排序可看出紫边和黄边波段在土地覆盖分类中有较好表现,但没有红边信息贡献度大,因此引入紫边和黄边波段的分类结果略优于相同分类方法下未引入紫边和黄边波段的分类结果,但较于红边信息精度提高效果不显著。 水稻因独特的种植方式,与其他作物有着明显的光谱差异,且GF-6 WFV 在传统波段的基础上新增红边(B5、B6)、紫边(B7)和黄边(B8)波段,能够提高水稻信息提取精度,故在种植结构简单的地区(如地势平坦且耕地连片的中国东北地区),本研究方法分类精度较高且适用性较好。而中国南方作物种植结构复杂(如地势起伏较大、地形较为复杂的四川丘陵地区、湖南省等),水稻田破碎化严重,且因气候条件,南方多种植双季稻,故本研究方法及结论需进行下一步验证与分析。此外,研究区内不同土地覆盖类型面积差异较大,本研究中样本点的选取存在不同类别样本数不平衡问题,下一步可对数据集进行预处理,从而提高非平衡数据集的分类精度。3.3 精度分析
4 结果与分析
4.1 特征重要性评估
4.2 最优特征组合
4.3 基于特征优选的随机森林结果
4.4 红边信息对分类精度的影响
4.5 紫边、黄边波段对分类精度的影响
5 结论
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!