基于多时相Sentinel-2卫星数据的农作物分类研究

时间：2024-05-24

邓继忠，刘其得，王长委，江秀明，朱圣，袁梓文，金鑫，朱紫阳

（1.华南农业大学工程学院，广东广州 510642；2.国家精准农业航空施药技术国际联合研究中心，广东广州 510642；3.华南农业大学资源环境学院/广东省土地利用与整治重点实验室，广东广州 510642；4.广东省国土资源测绘院，广东广州 510642）

【研究意义】获取地表覆盖情况，明晰主要农作物种植分布及范围，不仅有利于农业部门制定政策与发展规划，而且对农业企业经营管理、农户生产选择及资源的有效规划具有重要作用［1-5］。【前人研究进展】李庆等［6］采用随机森林的方法对7期landsat影像进行分类，总体精度达到88.9027%，Kappa系数达到0.8529，均优于单景数据的分类结果；吕红梅等［7］结合多时相归一化植被指数和地表水分指数，利用决策树分类方法提取早稻种植区域，早稻的用户精度达到87.50%，制图精度达到85.71%；魏鹏飞等［8］结合 NDVI、EVI和 WDRVI时序变化特征，利用6景GF-1/WFV卫星遥感影像数据采用决策树分层分类方法成功提取了研究区玉米、水稻、大豆和甘薯4种主要作物种植空间分布情况，总体精度达到90.90%，Kappa系数为0.8950；李振等［9］基于多时相的Landsat-8数据，采用面向对象的决策树分类方法，研究森林类型的自动识别，总体分类精度达到了87.50%；申怀飞［10］提出了基于稳定权重加权投票的多训练样本集、多时相影像、多分类器三重融合算法模式，对Landsat数据进行分类，总体精度达到83.09%；Marais等［11］的研究结果表明分类的质量往往随着所用图像波段的增加而增加；Deepa等［12］综合了粗糙集、模糊集和软集的方法，建立了一个多类分类模型，采用双目标软集方法，对5种农作物进行分类，验证数据集的准确率达到92%；白燕英等［13］基于Landsat8影像时间序列归一化植被指数（NDVI），采用决策树分类方法提取作物种植结构，作物分类总体精度达到82.69%；邱鹏勋等［14］利用 GF-1 WFV时间序列数据集计算NDVI，基于时间加权的动态时间弯曲（TWDTW）方法开展农作物分类识别研究，分类精度相比于决策树法略有提高；解毅等［15］研究结果表明，基于融合NDVI的分类精度明显高于基于Landsat NDVI的分类精度，由于融合后的时序NDVI具有更高的时间分辨率，能够更加突出不同作物的物候特征，显著提高作物分类精度。综上所述，相比单景数据多时相数据能够显著提高分类效果，构建遥感指数对于分类具有重要贡献。【本研究切入点】对于生育期相近的农作物，遥感指数在时间序列上的变化特征相近，单独采用个别指数难以区分这部分地物。此外，同一农作物受长势影响，指数值域跨度大，容易与其他农作物混淆，人为阈值与自动阈值都不能很好的区分不同农作物。【拟解决的关键问题】本研究以石河子市北泉镇为研究区域，采用2018年的Sentinel-2卫星多时相数据，结合地面调查数据，分析单一农作物提取的最佳时相，探究多时相数据对分类精度的贡献及时相最佳组合方式，比较不同分类方法的分类精度，探究一种可靠有效的分类方法。

1 材料与方法

1.1 研究区域概况

研究区位于石河子市北泉镇，地处天山北麓中段，准噶尔盆地南缘（图1）。区划东至玛纳斯河，西临沙湾县，南接石河子市，北濒蘑菇湖，面积475.7 km2。研究区地势平坦，平均海拔450.8 m，属典型的温带大陆性气候，冬季长而严寒，夏季短而炎热，日照充沛，年日照时数为2 721～2 818 h，可以获取云量覆盖较少的长时间序列卫星数据。目前研究区主要作物有棉花、玉米、小麦、辣椒、葡萄等。

图1 研究区域位置Fig.1 Location map of study area

1.2 卫星数据

Sentinel-2卫星搭载的有效荷载为多光谱成像仪，光谱范围为0.4～2.4 μm，覆盖可见光、近红外、短波红外，共13个光谱波段，B02、B03、B04、B08为10 m空间分辨率，B05-B8A、B11、B12为20 m空间分辨率，B01、B09、B10为60 m空间分辨率，幅宽290 km，每10 d更新1次全球陆地表面成像数据，双星可达到5 d更新1次，因而能够获得实验区内较高频次的数据覆盖，更好地反映农作物生长过程，为进一步挖掘作物识别的时相特征提供支持。Sentinel-2光学遥感卫星具有较高的时空分辨率，适合多时相分类研究［16-17］。本研究采用Sentnel-2卫星数据，选取时相为2018年3月23日、4月12日、5月12日、6月6日、7月11日、8月15日、9月14日、10月14日、11月5日，获取研究区域2018年3—11月各1景数据，云覆盖率皆低于1%，影像清晰。

1.3 地面调查数据

部分数据是实地调查记录地物信息及GPS位置信息，部分较明显的地物则直接在卫星影像上标出，共标记水域、非植被区域、棉花、小麦、早玉米、晚玉米、辣椒、葫芦瓜、葡萄、树10种地物。将样本分为训练样本和验证样本，具体分布见图2、图3，样本数见表1。

图2 训练样本分布Fig.2 Distribution diagram of training samples

图3 验证样本分布Fig.3 Distribution diagram of verification samples

表1 样本数Table 1 Sample size

1.4 遥感指数构建

遥感指数作为遥感信息的一种有效描述,在对大气、海洋、土壤和植被等进行定性、定量评估时具有重要意义［18］。目前，农作物分类的特征选择主要是采用归一化植被指数，而其他特征量的应用还相对较少［19］。研究发现NDVI、改进的归一化差异水指数（MNDWI）、颜色指数（CI）和样本分类的相关性比较高，因此本研究采用这3种指数进行研究区多时项农作物的分类。

NDVI是一种测定光合作用活性的方法，与植被的密度和活力密切相关。正态化减少了地形和大气的影响，并使大范围的同时监测成为可能。NDVI计算可以将多波段数据变换成一个单独的图像波段，用于显示植被分布，较高的NDVI值预示着包含较多的绿色植被。其计算公式如下：

式中，NIR为近红外波段的反射率，Red为红波段的反射率。

MNDWI是由徐涵秋［20］在2005年提出的，可以增强开阔水域的特征，同时有效地抑制甚至消除建成区噪声以及植被和土壤噪声。水的增强程度越高，对开阔水域的特征提取就越准确，因为建成区、土壤和植被的所有负值都被明显地抑制甚至去除。其计算公式如下：

式中，Green为绿波段的反射率，MIR为中红外波段的反射率。

Pouget等［21］在1990年提出了颜色指数（CI）算法来区分田间土壤，低值的CI已被证明与高浓度的碳酸盐或硫酸盐的存在有关，而高值则与干旱地区的结壳土壤和沙子有关。在大多数情况下，CI提供与NDVI互补的信息，用于历时分析，有助于更好地理解土壤表面的演变。其计算公式如下：

式中，Red为红波段的反射率，Green为绿波段的反射率。

1.5 影像分类方法

遥感图像通过亮度值或像元值的高低差异及空间变化来表示不同地物的差异，这是区分不同图像农作物的物理基础［22］。识别动态变化的地表覆盖通常需要应用多时相数据［23-27］，地物在时间序列上的变化差异可以用于区分地物［28］，一般的分类方法主要有监督分类与非监督分类两种。常用的监督分类方法包括最大似然［29］、神经网络（N N）［30-31］、支持向量机（SVM）［32-33］；常用的非监督分类方法包括ISODATA（一种重复自组织数据分析技术）、K-均值、模糊c-均值（FCM）［34-35］和比例空间技术。由于研究区获得的地面数据、影像数量和类型、作物类型的不同，不同地物分类方法的应用各不相同，没有一致的分类模式。SVM、决策树自动阈值和随机森林3种分类方法。

SVM是由Vapnik等［36］于1995年提出，该方法是一种建立在统计学习理论基础上的机器学习算法。支持向量机算法在于寻找一个超平面，该超平面可以将训练集中的数据分开，且与类域边界的边沿垂直于该超平面方向的距离最大，从而达到最大的泛化能力。决策树自动阈值分类方法是基于回归树（CART）模型来实现分类。CART算法提供了一种非参数判别多数据层之间的统计关系，以产生一个二进制的决策树。对ROI样本进行分析，生成ENVI决策树工程文件。随机森林分类方法最早由Leo Breiman和Adele Cutler提出。随机森林是通过集成学习的思想将多棵树集成的一种算法，其基本单元为决策树，随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出。

1.6 精度检验

精度检验采用的是建立混淆矩阵，计算制图精度、用户精度、总体精度及Kappa系数，用于比较分类结果，本研究使用地表真实感兴趣区计算混淆矩阵。

总体分类精度等于被正确分类的像元总和除以总像元数，制图精度是分类器将影像正确分为某一类的像元数与该类真实参考像元总数的比，用户精度是正确分到某一类的像元总数与分类器将影像的像元分为该类的像元总数的比［22］。

1.7 技术路线

本研究选取3—11月的Sentinel-2卫星数据，经过辐射定标及大气校正之后重采样为ENVI格式数据并计算每景数据的3种遥感指数NDVI、MNDWI、CI，根据地面调查数据建立感兴趣区，将感兴趣区分为训练区与验证区。采用SVM的分类方法对不同月份的单景数据及时相数据的不同组合进行分类；融合NDVI、MNDWI、CI 3种遥感指数，采用SVM、决策树自动阈值、随机森林的分类方法进行分类；最后进行精度评价与结果分析。技术路线图见图4。

图4 技术路线图Fig.4 Technology roadmap

2 结果与分析

2.1 遥感指数分析

图5 MNDWI变化折线Fig.5 Line chart of MNDWI change

图6 CI变化折线Fig.6 Line chart of CI change

图7 NDVI变化折线Fig.7 Line chart of NDVI change

分别对3—11月的Sentinel-2卫星数据构建MNDWI、CI、NDVI 3种遥感指数，构建不同农作物在时相上的遥感指数变化曲线，结果见图5、图6、图7。由图5可知，水域的MNDWI指数在全时间段大于0，而其他地物的值基本上均小于0，在MNDWI指数上，水域与其他地物差别明显，因此，可以利用MNDWI值有效的区分出水域。由图6可知，非植被区域在全时间段的CI变化较小，在全时序基本呈现一条直线，葡萄地存在不变的裸土，因此与非植被区域特征差别较小，其他地物在时序上变化明显，小麦在4月份的CI明显小于-0.018；辣椒与棉花在8月份的CI明显小于-0.12。由图7可知，水域的NDVI值是所有地物里最小的，与其他地物差别明显；春小麦在3—4月播种，7月份左右收割，从3月份春小麦的NDVI值不断增长与春小麦的生长方式符合，到7月份春小麦的NDVI值急速下降，这是由于7月份是春小麦成熟及收获时期，因此可以根据这个特征区分出春小麦；由于新疆种植的玉米品种较多，本研究只区分在8月份左右收割的早玉米和10月份左右收割的晚玉米，对于早玉米在7—8月间NDVI值急速下降，可以由该特征区分出早玉米；树的NDVI值在全时相的变化较平缓，总体上是先增长再下降的趋势；棉花、晚玉米、葫芦瓜、辣椒的生育期较相近，NDVI值的区别也较小，但从NDVI、MNDWI来看还是存在一定区别。

2.2 不同时相分类精度比较

采用SVM的分类方法分别对3—11月的Sentinel-2卫星数据进行分类，分类精度见表2，由制图精度来看，晚玉米、辣椒、葡萄在10月份的分类精度最高，非植被在6月份的分类精度最高，早玉米在8月份的分类精度最高，葫芦瓜在7月份的分类精度最高，小麦和树在4月份的分类精度最高，棉花在9月份的分类精度最高，水域在3月份的分类精度最高。由用户精度来看，辣椒在9月份的分类精度最高，葡萄在5月份的分类精度最高，早玉米、非植被在8月份的分类精度最高，晚玉米、葫芦瓜、树、棉花在7月份的分类精度最高，小麦在4月份的分类精度最高，水域在9月份的分类精度最高。由总体精度及Kappa系数来看，7月份的分类效果最好，总体精度达到91.05%，Kappa系数达到0.8518。总体来说，作物在生长丰富的月份分类效果相对较好，在生长前期特征较不明显，分类效果相对较差。

表2 不同时相分类结果精度评价Table 2 Accuracy evaluation of different phase classification results（%）

2.3 时相数据的不同组合分类精度比较

对3—11月的Sentinel-2卫星数据进行不同形式的组合之后采用SVM的分类方法进行分类，分类精度见表3。分析数据不同叠加方式之后的分类效果，3月份加8月份的叠加分类效果明显，比3月份加4月份的叠加分类效果要好，总体精度要高13.3%。这是由于农作物物候生长期的影响，3、4月份大部分农作物仍未生长，地块处于撂荒状态，差异较小，而7、8月份是农作物生长丰富的月份，与3、4月份形成鲜明的差异，不同农作物物候期的差别，数据叠加之后会形成变化差异，有利于区分不同农作物。而对于3景、4景、9景数据的叠加并不能提高分类精度，这是由于相近月份农作物生长变化不明显，特征变化较小，多余信息并不能较好的提高分类效果，相反会带来更多的噪音影响分类的准确性。

由表3可知，3月份以及8月份单景NDVI数据的分类效果都较差，这是由于同种农作物长势不同，NDVI的值有高有低，物候期相近的农作物NDVI值的范围交叉严重，单景NDVI数据的分类错分严重，逐景增加NDVI数据，总体精度逐步提高，当增加到10月份NDVI数据时，总体精度达到最高为92.25%，Kappa系数达到0.8736，继续增加11月得NDVI数据，总体精度有所降低，这是由于11月份大部分农作物已经收割，地块差异不明显，增加11月份数据并不能提高分类效果。

表3 分类精度比较Table 3 Comparison of classification accuracy

2.4 不同分类方法的分类精度比较

融合3—11月的MNDWI与NDVI数据之后，分别采用SVM分类方法、随机森林分类方法、决策树自动阈值分类方法进行分类，对比3种不同分类方法，SVM的分类结果分类精度最高，总体精度达到94.19%，Kappa系数达到0.9024，总体精度比随机森林分类方法提高3.36%，比决策树自动阈值分类方法提高4.32%（表4）。

表4 不同分类方法分类精度比较Table 4 Comparison of classification accuracy among different classification methods

2.5 分类结果

由于水位的变化，水域范围也存在变化，因此采用单景数据提取水域范围。由遥感指数分析所得，本研究采用3月份CI小于-0.012且MNDWI大于0.15利用决策树提取水域范围；由于田埂范围较窄，容易与地物误分，因此在支持向量机分类之后继续采用遥感指数结合决策树的分类方法将田埂剔除，对于小麦地，采用4月份的CI小于-0.018将田埂剔除；对于辣椒地及棉花地，采用8月份CI小于-0.12，将田埂剔除。最终分类结果的分类精度达到94.49%，Kappa系数达到0.9077，最终分类结果见图8。

图8 分类结果Fig.8 Classification results

由表5可知，辣椒的制图精度达到92.08%，但用户精度较低，有部分棉花被错分为辣椒；葡萄的用户精度达到99.68%，但制图精度较低，有部分葡萄被错分为非植被与棉花；非植被的制图精度到达100%，用户精度为89.76%，有部分葡萄与棉花被错分为非植被；早玉米的制图精度达到97.61%，用户精度为74.89%，有部分葫芦瓜被错分为早玉米；晚玉米制图精度为59.93%，用户精度为71.72%，有部分晚玉米被错分为棉花，有部分棉花和树被错分为晚玉米；葫芦瓜的分类精度较低，一方面原因是地面真实调查数据较少，另一方面是与棉花和玉米较难区分；小麦的分类较低较高，主要是小麦与其他农作物物候期差异较大，易于区分；树的制图精度为68.15%，用户精度为82.3%，有部分树被分为棉花与晚玉米，棉花的制图精度为97.66%，用户精度为96.82%；水域的分类效果较好。

3 讨论

针对单一农作物在不同时相的分类精度不同，这是由于农作物物候期的差异，当某种地物在某个时期与其他农作物差异较大时，相应的分类精度就有所提高，这是提取该农作物的较为重要时期，有利于单一农作物提取的研究。时相数据的组合方式不同，分类精度有所差异，对于原始波段的叠加，时相的增加能够提高分类精度，这与李庆等［6］的研究结果一致，然而原始波段不经选择的叠加会造成数据的相似，产生数据冗余并造成更多的噪音，从而降低分类精度，因此，多时相分类应注意关键信息的提取。白燕英等［13］的研究结果表明时间序列的NDVI具有较高的时间分辨率，能够突出不同作物的物候特征及其变化，从而提高作物分类精度。然而，仅使用NDVI进行分类并不能完全区分所有地物，这也是单一遥感指数在分类上的局限性。针对特定的地物提取可以研究特定的波段组合计算指数进行分类，因此，对于地表覆盖的分类最好结合多种遥感指数，魏鹏飞等［8］结合3种遥感指数NDVI、EVI和WDRVI进行作物分类，吕红梅等［7］结合归一化植被指数和地表水分指数进行作物分类，都取得了较好的分类结果。李庆等［6］采用随机森林进行影像方法，吕红梅等［7］利用决策树分类方法提取早稻种植区，李振［9］采用面向对象的决策树分类方法研究森林类型的自动识别，魏鹏飞等［8］采用决策树分层分类方法成功提取作物种植空间分布，然而，对于决策树阈值分类，不管是人为判断阈值还是自动阈值分类或者随机森林分类，都无法准确的界定区分农作物之间的阈值，这是阈值分类固有的缺陷，本研究结合NDVI、MNDWI、CI 3种遥感指数进行分类有效提取了研究区主要农作物的种植分布情况。

表5 分类结果混淆矩阵Table 5 Confusion matrix of classification results

4 结论

通过对不同时相分类精度比较可知，在研究区域内，7月份是区分农作物最佳时相；通过时相数据的不同组合的分类精度比较，多时相分类精度明显高于单景数据分类，采用3—10月的NDVI数据叠加之后分类效果较好，总体精度达到92.25%，Kappa系数达到0.8736，相对于仅使用3月份NDVI数据分类的分类精度，总体精度提高了20.75%；结合NDVI、MNDWI、CI 3种遥感指数之后采用SVM的分类方法可以有效区分研究区的农作物。