月尺度农作物提取中GF-1 WFV纹理特征的应用及分析

时间：2024-07-28

王镕，赵红莉，蒋云钟，何毅，段浩

(1.中国水利水电科学研究院，北京 100038；2.兰州交通大学测绘与地理信息学院，兰州 730070)

0 引言

农作物种植结构反映了人类农业生产在空间范围内利用农业生产资源的状况[1]，是农作物种类、数量结构和空间分布特征等的信息组合，也是农业科学灌溉的基础。目前基于遥感的农作物种植结构提取多采用影像的光谱特征与纹理特征，光谱特征一般用于中低分辨率数据，如TM，SPOT，HJ等或NOAA，MODIS等[2]。中低分辨率的遥感数据获取来源较多，且影像覆盖范围广，但是一般适合大面积单一作物的识别[3]。针对复杂的地物类型，仅光谱特征难以准确的区分各类作物，最终影响其分类精度。如部分研究利用Landsat8[4]，HJ-1A/B[5]，MODIS-EVI[6]影像光谱信息构建小麦、水稻等作物的长时间序列变化特征，并提取相应地物的空间分布信息，精度可达到85%以上；而纹理特征一般用于高分辨率的遥感影像识别过程，如QuickBird，SPOT[7]，SAR，SuperView-1等。高分辨率影像拥有丰富的纹理、色调、形状和几何结构等特征信息，地物内部细节信息明显，边缘突出，具有较高的分辨精度与目标识别可靠性。如研究人员利用灰度共生矩阵[8]计算QuickBird，SPOT，SAR[9]等影像的纹理特征，实现植被类型的分布并实现长期的监测，精度均在90%以上。但是由于重访周期长、获取最佳时相困难、且价格高昂等缺点，难以满足农作物动态管理监测的需求。中高分辨率高分一号(GF-1)作为我国自主研发的卫星，因其重访周期短，分辨率高等特点，自发射以来，已开始应用于我国林业、农业、自然灾害、土地利用、定量化应用等众多领域。如黄健熙等[10]利用大豆等作物的最佳生长期与影像光谱信息的之间的变化规律实现了集中作物的分类，精度最高达到85%；王利民等[11]从不同的分类方法入手实现冬小麦等大面积作物的提取，进而对比面向对象、决策树等分类方法的提取精度[12]。同时，也有部分研究通过多种卫星影像数据的对比，从而分析GF-1在分类中的优势。如欧阳玲[13]等等利用Landsat8，HJ-1A/B与GF-1数据，采用农作物遥感反演方法实现地物空间分布信息的提取，并基于影像的时效性与分类精度等多个方面分析GF-1影像的优势，最终推广国产卫星的应用范围[14]。

经过对文献的阅读与整理可知，目前针对GF-1分类研究大多基于影像的光谱特征[15]，却忽略了GF-1自身所表现出来的纹理特征。针对大面积单一作物，利用光谱特征的分类识别精度要优于中低分辨率影像，但是在作物相对复杂的区域，仅光谱特征难以表征各类别之间的差异，进而导致分类过程中出现大量的误差[16]。基于此，本文以河北省石津灌区主要作物冬小麦、棉花和玉米为例，利用国产卫星GF-1的光学遥感数据产品以及现场调查和实测数据，提取各类作物在影像中的纹理特征；并采用随机森林分类算法对研究区种植结构进行识别分类，最终验证GF-1WFV纹理特征在农作物提取中的应用。

1 研究区概况及数据源

1.1 研究区概况

石津灌区位于河北省中南部[16]，是一座大型灌区，为我国的粮食产量提供了大量的支持。种植作物以冬小麦、玉米为主，还有少量的蔬菜、果树和棉花。本文以石津灌区为中心区域，研究其周边包括石家庄、衡水、邢台、保定、沧州5个市的22个县(市、区)，具体如图1所示，图1为研究区位置及GF-1 2019年5月份标准假彩色合成影像。

图1 研究区位置示意图Fig.1 The location of research area and the spectral characteristics of sample

1.2 试验设计与数据收集

1)试验设计。利用光谱信息识别农作物，需要依赖作物的最佳窗口期，无法实现农作物的动态监测。为实现不依赖作物最佳窗口期的前提下动态获取农作物的变化特征，本文以2019年GF-1WFV多期影像为主，提出利用纹理特征以及光谱辅助纹理等两组实验提取农作物，通过对比农作物空间分布信息与精度评价结果，分析纹理特征在农作物种植结构识别中的能力。

2)遥感数据。GF-1搭载了4台WFV相机，幅宽可达到800 km，重访周期为4 d，空间分辨率可达到16 m。根据对冬小麦[17]、夏玉米、棉花等作物的生长物候期分析以及本文对纹理特征在农作物识别效应的分析需求，选取2019年4月—2019年9月共计14景 GF-1WFV作物混杂程度不同的影像数据，实现了研究区内6期的全覆盖。对影像进行了辐射校正、大气校正、正射校正以及图像拼接裁剪等预处理。

3)实测样本库构建。冬小麦的生长期为每年的10月份—次年的6月份[18]；蔬菜主要分为春蔬和秋蔬，分别在4—8月、9—11月；棉花是4—10月；夏玉米为6—10月；经济园林为3—11月；为保证样本选取的代表性和随机性[19]，制作研究区10 km×10 km的规则格网，获取每个格网内的样方点(不少于3个)。最后根据上述要求对各个格网进行外业调查定位。之后利用ArcGIS等相关专业软件构建各类农作物的样本库，为后期作物分类提供有效的参考。经过大量的实测采样，最终获取样方位置283个，其中训练189个，验证94个，具体如图2所示。

图2 研究区样本点分布示意图Fig.2 Location of sampling points in study area

2 研究方法

2.1 影像纹理特征选取

纹理特征[20]是遥感解译的一个重要判读标志，可以反映影像的色调变化频率、清晰度等等以及地物的空间分布等重要信息，因而在农作物较为复杂的区域内，纹理可以提供更多有效的信息[21]。纹理分析统计最常用的方法是灰度共生矩阵(GLCM)[22]，通过计算在一定距离的两个像素点之间灰度相关系数来表示灰度重复出现的概率分布[23]。设像素灰度值为i和j，记作(i,j)；d表示距离像素点的距离；两像素连线向量的角度即为θ，通常取0°，45°，90°和135°；共生矩阵P(i,j)则表示在距离和方向确定的情况下出现相同像素对的频率[24]。具体计算公式为：

P(i，j)=[p(i,j,d,θ)]，

(2)

GLCM通过两点之间的相关性表达了影像灰度在方向、间隔和变化幅度上的空间信息[25]，但是在进行纹理分析时，还不能直接作为特征变量用于区别不同地物，需要通过在此基础上计算纹理特征量。常用的特征量一般有8种[26]，通过不同角度刻画不同的空间纹理信息。具体如表1。表中，i,j为以影像左上角为坐标原点的各个像元的行列号；p(i,j)为像元的灰度值；μ是p(i,j)的均值；n为像元行列号差值的绝对值；L为影像的行或列的总数。其中考虑到窗口大小、距离d以及方向θ等对GLCM计算的影响，通过多组窗口的提取试验，并结合文献中关于纹理计算的研究，本文将移动窗口确定为5×5，同时默认θ=0，d=1对纹理进行计算。

表1 纹理特征量Tab.1 Texture feature

2.2 分类方法选择

针对遥感影像的农作物种植结构识别，较为常用的方法有决策树、面向对象、神经网络、随机森林等[27]。如大量研究基于决策树实现研究区内的作物分布统计，但是该分类方法完全依赖人工操作，且需要操作人员具有较强的专业知识以及大量的经验积累；还有部分研究基于面向对象实现土地利用六大类的提取，结果表明面向对象方法通过合适的分割尺度可以减少分类中的破碎斑块现象，但是无法实现自动化，后期需要大量的人为操作；神经网络方法也常常用于影像的分类过程，该方法对专业性的要求不高，但是泛化性较差[28]；而随机森林是一个较为完善的分类方法，由于参数较少、方法简单而被广泛使用。其本质上是对决策树的改进以达到分类精度提高的目的，是通过集成学习的思想将多棵CART决策树集成的机器学习方法，减少了大量的人为干预；同时该方法也实现了样本与特征两者的随机性，从而避免了训练的过拟合现象，增强了方法的泛化能力[29]。利用随机森林方法可以有效的克服传统方法在分类中不足，具有较高的精确度。

3 基于纹理特征的农作物分类效果

在不考虑农作物时间序列最佳窗口期的影响，检验每期影像独立提取种植结构的精度，从而验证GF-1纹理特征在各期数据中的识别能力。首先利用纹理特征对2019年4—9月的6期影像进行分类，获取研究区内的农作物种植结构，分类结果统计如表2。

表2 纹理特征分类结果统计Tab.2 The statistic of texture (km2)

各时相内的作物面积变化幅度均在2%～35%以内，如冬小麦在2期面积变化为12%，棉花6期相差3%～35%；夏玉米3期面积相差3%～15%；蔬菜5期面积相差3%～21%；经济园林6期面积变化范围在2%～10%。与实际调查的作物面积统计数据相对保持一致，表明纹理可以为影像分类提供有效的信息，具有一定的应用价值。

利用纹理特征的分类结果具体如图3所示。可以发现，冬小麦、夏玉米种植较为集中，地块相对完整，主要集中在东部和南部，两者的空间分布基本一致；北部和西部经济园林面积相对较大；蔬菜等主要分布在城区周边；棉花主要分布在东北部，基本符合实际的种植情况。六期数据中4月和8月2个月的分类结果较好，而其他月份随着作物类别增加与作物生长特征不明显等原因，大大增加了遥感分类的难度。如标注内5月份林地和冬小麦大面积混淆，7月份易混淆的是林地和蔬菜；这也是由于两月份内几者的生长状态相似，纹理特征差异较小；6月份影像有大片云层干扰，忽略云层影响，棉花和蔬菜出现大量的错分，这是由于棉花和蔬菜较为分散，且六月份均处于苗期，16 m的分辨率很难表达两者的差异；而9月份的分类结果破碎斑块明显增加，夏玉米等作物错分现象明显。这4个月的结果也表明了单独纹理特征无法满足各个时相的分类需求。

(a)4月 (b)5月 (c)6月

4 引入光谱特征后的农作物分类效果

根据上述的结论分析，可以得知基于纹理的分类结果在5月、6月、7月、9月等月份存在大量的错分误分现象。考虑到植被指数作物的分布及生长状态呈线性关系，是作物生长状态监测的最佳指标。在纹理特征相对较弱的时相内引入植被指数，最终确定适合不同月份的最佳分类特征。将光谱与纹理组合后的结果与训练样本作为随机森林分类器的输入，利用随机森林的回归分析并训练分类模型，获取组合后的分类结果面积统计如表3所示，各类作物的面积统计与年鉴统计调查结果高度一致。与单一的纹理特征相比，各类作物面积变化幅度相对较小，均保持在150 km2以内。根据实测样本对2种分类结果进行精度评价，结果如表4所示。综合6期分类结果数据，单独纹理特征分类结果总体精度最高可达到为92.95%，Kappa系数为0.91；将纹理与光谱组合之后的总体分类精度最高可以达到95.22%，对应的Kappa系数为0.93。组合后6期的分类精度均在80%以上，分类结果较为理想；而单独纹理特征在不同时期出现了低值；如9月份的纹理特征信息较弱，大面积的林地减少，蔬菜等也出现了不同程度的破碎斑块。总体而言，两者组合后，分类特征增加，使得误分或错分的像元有所减少；与单独纹理特征的分类精度相比，提高6%～10%。更加验证了多特征组合的分类结果要优于单独纹理的分类结果。

表3 组合后分类结果统计Tab.3 The statistic of combination (km2)

表4 分类精度评价表Tab.4 Classification accuracy evaluation

在纹理的基础上引入植被指数生成研究区的主要农作物分布图(图4)。通过图中标注的区域与单独纹理分类结果中对应位置的对比，5月、6月、7月和9月的分类结果中各类别的错分和误分像元明显减少，而4月、8月份两组实验的结果相对一致，表明了光谱的引入大大提高了5月、6月、7月、9月份的分类精度；尤其是9月份效果更加明显，破碎斑块明显减少。

图4 两组实验分类结果对比图Fig.4 The classification results about experiments

通过对比两组实验，发现单独纹理特征分类更适合4月、8月2个月份的分类。这是由于4月份作物结构相对简单，各类作物在影像上所呈现的纹理结构相对完整，分类过程中不会造成太大的干扰，更加有利于影像的识别；而8月份是由于各类作物均处于最佳的生长状态，作物的形状、大小等差异也达到了最大化，在影像中纹理特征的区分度也有了很大的提升。因此，这2个月份内，单独纹理特征不仅可以达到农作物监测的精度要求，而且可以有效地降低分类的时间复杂度，极大程度地减少计算机的存储量。而针对其他时段，使用特征组合的方法要远远优于单独纹理特征的分类精度。这是由于5月、6月、7月、9月这4个月的作物大多处于萌芽阶段，形状及大小极为相近。作物区分难度增加，此时在纹理特征的基础上引入光谱特征，利用光谱的吸收和反射差异，增强不同作物的生长状态信息，从而提高分类特征的区分能力，精确的获取作物的种植结构，实现逐月的农作物动态监测。

5 结论与展望

本文基于GF-1WFV影像提取研究区主要种植农作物的空间分布信息。根据农作物由简单到复杂的生长期变化特点以及特征量的不同选择原则，选取2019年4月—2019年9月共6期影像进行2组实验，并利用实测样本数据进行验证，主要得到以下结论：

1)单独纹理特征可以为WFV影像分类提供许多有效的信息，如4月和8月份，分类精度可以达到80%以上，充分说明了GF-1WFV卫星影像数据的纹理特征在农作物识别过程中的可行性；但是在5月、6月、7月、9月等农作物复杂的时间段内，分类精度仍低于80%。

2)光谱与纹理组合使得各时相内的分类精度均超过80%，与纹理的分类结果相比，精度提高2.27%～9.75%。

3)通过几组实验对比，在满足农作物监测的精度要求以及影像分类效率等的基础上，4月、8月采用单一纹理特征的识别方法，而5月、6月、7月、9月则采用纹理与光谱组合的提取方法。

GF-1卫星以4 d的周期实现宽幅并且高精度的数据，与SPOT，MODIS，Landsat等卫星相比，满足农业遥感逐月监测的需求，为农业灌溉面积监测以及农作物估产等应用提供了有力的支撑。但是本文在农作物信息提取过程中，也存在着一定的缺陷。比如缺少对特征的筛选。灰度共生矩阵计算的纹理特征量较多，部分特征量之间存在一定的相关性，从而出现数据冗余，增加了分类的时间复杂度，同时也影响了农作物提取的精度；因此进一步的研究可以围绕特征的优选算法展开，通过动态的获取信息量最优的特征量并参与影像的分类，最终达到缩短分类时间、提高分类精度的目的。由于分类样本的不完整影响了分类的精度，由于种植时间、灌溉水量以及气候变化等存在差异，导致不同区域内农作物的长势存在差异，样本点无法完全覆盖作物的各个生长阶段，这在一定程度上影响了分类的精度。因此在进一步研究中，需要充分考虑各个时间段的农作物生长状态，尽可能的保证样本点的充分覆盖。