基于Landsat的棉田各生育期面积提取算法优选：以新疆阿拉尔垦区为例

时间：2024-08-31

鲁新新，张丽，郝梦洁，阿迪力·亚森，蒋青松

（塔里木大学信息工程学院，新疆阿拉尔 843300）

卫星遥感技术具有快速、简便、宏观、无损及客观等优点，经过几十年的快速发展，目前已经广泛应用于农业生产领域的各个环节。作物生长状况的及时获得和解译是开展现代精准农业的基础。卫星遥感技术于农业作物信息的获取有较为明显的优势［1］。

对于利用遥感图像来对地面农业地类进行解译，国内许多学者已经进行了数十年的研究。分类方法日趋增多，大致可以分为监督分类和非监督分类，分类精度也愈来愈高。而作为遥感农业分类研究的数据来源，遥感图像的分辨精度也经历了从低分辨率（NOAA AVHRR以及国产风云气象系列）到中高分辨率（Landsat系列等）再到高分辨率（高分系列等）。近些年来卫星传感器种类不断增多、技术不断迭代，如基于高光谱、多角度、微波、热红外遥感等更多种类且高质量的遥感数据可以为我们所用［2］。早期的低分辨率遥感图像主要运用于大范围的国土遥感检测，等到中高分辨率遥感图像出现以后，区域性的详细地类监测以及分类才得以迅速发展起来的。李晓东等［3］以镇赉县为试验区，设计了基于多时相遥感数据的农田分类提取方案。该算法的总体分类精度为94%；次年，两位学者又在此地区利用Landsat 8遥感数据构建多维分类特征数据集对试验区进行土地覆被分类研究，提取了11种土地利用类型。最终多维变量组合方案的总体分类精度为 95.50%［4］；刘焕军等［5］基于时间序列 Landsat 5 和Landsat 7系列遥感数据，结合实测作物产量数据，进行了棉花产量遥感预测模型研究。研究表明基于Landsat遥感数据的植被指数时序准确反映了棉花整个生长期的长势情况；在Landsat遥感数据预处理的基础上提取归一化植被指数（NDVI）等5种植被指数，并通过主成分分析，刘云鹏等［6］基于最大似然、随机森林等机器学习算法，结合小班数据，对各算法的分类效果进行精度评价；黄健熙等［7］基于GF−1 WFV影像数据，研究东北地区玉米种植面积提取算法，研究表明随机森林较其它分类算法分类效果更好，这对东北地区作物的分类算法优选具有重要参考意义；其它针对中高分辨率遥感图像以及相关处理指数的研究仍然不在少数［8−9］，其中特别是基于 Landsat系列遥感数据的研究十分丰富［10−14］。另外近些年来，由于深度学习的兴起，将深度学习算法应用于遥感数据分类提取的研究也日趋增多［15−18］。

以上学者基于各种遥感图像数据进行了多种方向多种方法的分类研究，且都取得了一定的研究成果。但长期以来，虽然作物分类算法日益丰富，提取精度也随着算法优化而不断提升。但这些研究多集中于不同算法的提取精度比较或者对单个算法的优化上，对于其他维度，如作物不同生育期阶段的研究较少。

棉花整个生育期从出苗开始大致可划分为苗期、蕾期、花铃期和吐絮期四个阶段，一般认为花龄期的面积提取效果最佳，但针对阿拉尔垦区还需具体地区具体分析。另外，为了可以更灵活地在棉花整个生育期内都可以进行及时面积提取工作，本研究将从四个生育期阶段出发，分别给出各个阶段的最佳面积提取算法，以便更好地为棉田面积估计和产量估计服务。

综上分析，南疆地区是棉花种植的主产区，对棉田面积提取以及相关应用有较大的需求。本研究将以南疆典型地区阿拉尔垦区为研究区，基于Landsat系列遥感图像，从生育期和分类方法两个角度入手，来寻求南疆棉田不同生育期阶段面积提取精度的算法最优解。

1 材料与方法

1.1 研究区概况

研究区域位于南疆阿拉尔垦区，该地区隶属于新疆建设兵团。范围北至天山南麓，南至塔克拉玛干沙漠北部边缘，经度处在东经80°30'至81°58'范围之内，纬度范围为北纬40°22'至40°57'之间。东西相距约281 km，南北范围约180 km。该地区属于南疆典型气候区，气候类型为暖温带大陆性干旱气候，垦区雨量稀少，冬季少雪，地表蒸发强烈，年均降水量为40.1～82.5 mm。作物以棉花为主，红枣等水果蔬菜有少量种植。

图1 阿拉尔垦区所处新疆区位及遥感影像

1.2 数据来源

本文使用的遥感图像主要来源于中科院所属的地理空间数据云网站和USGS（美国地质调查局）官网的Landsat 8系列遥感图像，该系列数据多光谱波段分辨率为30 m，全色波段分辨率为15 m，共包含11个波段（OLI陆地成像仪包含9个波段，TIRS热红外传感器提供2个波段），单景扫描范围为185 km×185 km［19］。

依据表1中阿拉尔垦区棉花生育期阶段的日期划分，本研究采用的遥感数据产生日期分别为2017年5月24号、6月10号、7月27号、9月28号。

表1 阿拉尔棉花生育期不同阶段时间区间

1.3 数据预处理

此前已经根据南疆地区棉花四个生育期（苗期、蕾期、花铃期和吐絮期）时间范围下载好需要使用的遥感图像，所有遥感图像云量均小于10%。随后将下载的阿拉尔地区遥感数据分别解压，由于下载的遥感图像产品等级为L1T（几何精校正数据产品），需要利用ENVI 5.3进行全色和多光谱波段融合以提高分辨率（后期将与无融合的多光谱波段进行面积提取精度比较）、辐射定标和大气校正。随后利用已有的阿拉尔地区的shp格式边界文件制作掩膜文件，并对已预处理图像进行掩膜提取。

1.4 分类流程

1.4.1 划分类别

Landsat 8系列遥感图像的6、5、4波段用于农业作物地类的分类，首先将实地对应的各种地类标注，再根据已标注的地类对其它影像区域进行目视解译。由于主要是对棉田进行精度研究，所以对于其他作物地类直接合并为其他地类。本次共分为六大地类：棉花、其它作物、建筑物、水体、自然植被、裸地。

1.4.2 兴趣点选取

每个类别共选取200个左右的兴趣点，依据训练集与测试集3:1的比例，训练集分配150个左右，测试集分配50个左右。

为了本次兴趣点的选取，已预先在阿拉尔垦区内实地采集了100多处样本点，覆盖了全部的地类类型。除了实地采集，也使用谷歌地球参与解译遥感图像，对一些地类进行目视解译。为了使分类效果更加的准确，棉花四个生育期遥感图像使用相同的训练集进行训练，相同的测试集进行精度测试。考虑到各个地类的季节变化情况有所差别（如水体的季节变化），水体的兴趣点选择在苗期，此时阿拉尔地区河流处于枯水期，为棉花整个生育期内水体范围最小时期；自然植被同样选择在苗期影像来进行兴趣点的选取，这样可以保证四个生育期阶段；棉花和其它作物选择使用波段6、5、4进行组合的图像来进行目视解译，此波段组合适合用来分类植被作物；裸地在花铃期遥感影像上来选取，此时自然植被、作物进入旺盛期，水体范围接近全年极大值，进行裸地的分类不会出现标记的兴趣点在其它时期出现类别错误的问题。表2给出了训练样本的可分离度。

表2 训练样本可分离度

表2数据表明，兴趣点样本的可分离度范围在0至2之间，一般大于1.9时可认为样本较好，小于1.8时则需要对部分样本点点进行重新选择。由表1可知，每个类别之间的可分离度均大于1.8，且大多数大于1.9，这表明选取的训练样本之间可分离度较好，可以用于本研究使用的遥感图像的分类训练。

1.5 面积提取算法选取

在面积提取算法选择方面，由于根据已有的研究，单纯使用非监督分类方法效果不佳［19］，所以本次分类研究只选取了四种较为常用的监督分类算法，即：随机森林、最大似然、人工神经网络和支持向量机。

1.6 提取精度评价标准

总体精度：指被正确分类的类别像元数与总类别个数的比值。

生产者精度：是指被正确分类的类别像元数与该类别真实参考总数的比率［20］。

用户精度：是指被分类器正确分到A类的影像像素总数与全部被分为A类的像元总数比率［20］。

提取面积绝对误差比：是指将分类后的棉田像素总量提取出来转化为公顷数，与实际棉田面积做差，两者之差与实际棉田面积之比的绝对值。

2 结果与讨论

2.1 融合图像精度对比

不少文献对landsat 8本身的15 m全色波段融合多光谱以进行分类精度对比的研究表明，在棉花全生育期内，融合后精度较融合前精度都有显著提高。下面就苗期（5月24号）分别利用最大似然及神经网络对融合前后的精度作简单验证。表3为两种类型的多光谱遥感数据的精度对比（面积单位为hm2）：

表3 融合多波段与普通多波段精度对比

通过表3中两类多光谱遥感图像棉田面积提取精度的对比，可以看出两者都存在其他地类被错分为棉田的现象。融合成的15 m分辨率影像，最大似然和神经网络两种算法的面积提取绝对误差比分别为0.56%和10.99%，被错分的面积相对比较少。作为对比，普通多波段的面积提取绝对误差比为31.62%和10.14%，被错分为棉田的面积较多，相较融合多光谱的误差精度有大幅度降低，尤其是采用最大似然算法。因此，综合表3中精度比较结果，对于使用的其它遥感影像都将进行融合图像处理。

2.2 算法精度结果

基于Landsat 8融合多光谱遥感影像基础上，运用各个分类算法对遥感数据进行分类，其中神经网络的调节参数为训练步长/训练次数；随机森林的调节参数为决策树数量。根据兵团农业统计年鉴的数据，可知2017年阿拉尔地区棉花种植面积为1.007×105hm2，提取各个分类算法结果中的棉田像素并换算为种植公顷数，与实际值进行对比，来选取最佳面积提取算法。图2是以苗期为例，展示了各个分类器的棉田提取效果。

图2 苗期各类算法提取棉田分布比较及最佳分类器分类细节

从图中可以较为直观地对比出苗期各个算法的棉田分类结果在研究区空间维度的差异。而且就研究区中北部提取细节来看，其它分类器提取效果较差，有较多的地类被错分为棉田，最大似然的提取效果最佳，棉田分布对比实地考察分布状况较为符合。

从图3中显示的面积误差比数据来看，苗期分类算法结果与实际误差最小的算法是最大似然分类，提取面积为100 095.052 hm2，误差比为0.56%；在神经网络算法方面，训练迭代次数处于1 000时，面积误差相对较小，学习率为0.2时，达到了神经网络参数调节的面积误差最小值，即10.99%；另外，随机森林对决策树数量的调整不太敏感，随着数量的提升，误差有微小的降低，在200时最低为18.07%。故此，在苗期使用最大似然分类来提取棉田面积效果最佳。

图3 棉田生育期各阶段算法面积提取绝对误差比汇总

从上面的蕾期误差精度结果表来看，对比各个算法以及其调节参数的精度结果，最大似然分类算法的误差比精度结果最好，其误差比为5.75%，而且其训练速度最快，但相较苗期的面积提取误差比有明显提升；在神经网络方面，随着训练次数的增加，神经网络存在明显的过拟合现象，且对比苗期的提取精度误差更高，在学习率为0.2，迭代次数为1 000时取得了误差比的最小值18.23%；随机森林方面，参数调节依然不明显，最好误差比为30.32%；综上，在棉花蕾期最佳的面积提取算法仍以最大似然为最优。

就蕾期而言，神经网络算法最优的面积提取精度误差比达到了6.54%，且总体精度较苗期及蕾期有较大的提升；随机森林对参数调节仍不太敏感，最佳误差比（决策树数：100）为16.26%；最大似然分类误差比为9.37%；支持向量机误差比13.06%。故花铃期最优面提取算法为神经网络（学习率/迭代次数：0.1/500），误差比为6.54%。

比较吐絮期的面积提取算法误差比精度，神经网络算法方面，在学习率为0.3，迭代次数为1 000时取得了最佳面积提取结果，误差比为18.37%；随机森林对参数调节敏感性较差，最佳误差比为21.77%，决策树数量为100；最大似然和支持向量机面积提取误差比分别为8.97%和22.16%。故此，在棉花吐絮期进行棉田面积提取算法的选择时应优先选取最大似然分类。

以上分别就各个生育期棉田面积最佳提取算法进行了讨论，如考虑对全生育期精度进行比较，以选取生育期内最佳算法，基于四个生育期的最高精度，应选取苗期的最大似然为最佳，其误差比为0.56%。究其原因，苗期的棉田与其它作物的发育状态差异较大，且自然植被也尚未进入旺盛期，对棉田面积提取的影响也较小。

3 结论

对阿拉尔垦区棉花不同生育期阶段的Landsat影像进行预处理，而后利用最大似然、神经网络、支持向量机以及随机森林四种算法及相应参数调节进行分类，提取棉田面积并进行精度对比，得出如下结论：在阿拉尔棉花苗期和蕾期进行棉田面积提取时使用最大似然分类为最佳提取算法；花铃期使用神经网络（速率/迭代次数：0.1/500）为最佳提取算法；吐絮期棉田最佳面积提取算法则为最大似然。随机森林中决策树数对面积提取精度影响不太敏感；支持向量机的精度结果表现不佳，相较最大似然和神经网络的最佳提取误差比，在四个生育期阶段误差比都相对较高。

在算法的选择方面，受限于计算硬件，本研究中使用的仍是在遥感领域使用较多的机器学习分类算法，如最大似然和支持向量机等，这些算法主要基于像元进行分类，对于其他潜在特征无法充分利用。对于近几年出现的基于卷积网络的新兴分类算法（FCN、SegNet和DeepLab等）没有进行对比研究，虽然对于这些算法的分类精度目前尚不明朗，但近几年该领域的研究十分活跃，相信未来该方向研究将更加深入。

在遥感影像的特征利用方面，利用影像纹理和各种植被指数来辅助进行分类以实现更精确的分类精度，但考虑到Landsat系列遥感图像为中等分辨率影像（融合后影像分辨率为15 m，仍属中等分辨率），对象纹理不够清晰，纹理细节利用效果可能不佳，精度提升不明显。另外，由于时间仓促及硬件局限，植被指数（如NDVI）未作为精度提取的手段。通过对目前大量遥感领域学者研究重点和高质量文献研究内容的分析，利用这些植被指数辅助遥感图像分类及面积提取将是遥感领域的一个重要方向。