一种基于GEE平台制作逐年土地覆盖数据的方法——以黄河流域为例

时间：2024-07-28

方梦阳, 刘晓煌, 孔凡全, 李明哲, 裴小龙

(1.中国地质调查局海口海洋地质调查中心，海口 570000； 2.中国地质调查局自然资源综合调查指挥中心，北京 100096； 3.中国地质调查局廊坊自然资源综合调查中心，廊坊 065000)

0 引言

大尺度、长时序、高频次、高精度的土地覆盖数据对研究长期土地利用时空变化具有重要的意义。目前，国内外广泛使用的大尺度土地覆盖数据多存在频次和精度不能兼顾的问题。国外常用的全球土地覆盖数据产品主要有美国波士顿大学生产的全球土地覆盖数据产品(MCD12Q1数据集)[1]和欧洲空间局通过气候变化倡议生产的全球土地覆盖数据产品(ESA-CCI数据集)[2]。其中MCD12Q1数据集现有2001—2019年逐年500 m空间分辨率全球土地覆盖数据，总体精度为74.8%[3]； ESA-CCI数据集时间范围更广，现有1992—2019年逐年300 m空间分辨率全球土地覆盖数据，总体精度为74.4%[4]。国内全国土地覆盖数据产品主要有自然资源部发布的30 m全球地表覆盖数据产品(GlobeLand30数据集)[5]和中科院资源环境科学数据中心提供的中国多时期土地利用土地覆被遥感监测数据集(CNLUCC数据集)[6]。GlobeLand30数据集有2000年、2010年、2020年3期数据，CNLUCC数据集则有1980年、1990年、1995年、2000年、2005年、2010年、2015年、2018年8期数据，二者空间分辨率均为30 m。

总的来看，国内外广泛使用的逐年土地覆盖数据多为每5 a更新一次[7]，常见数据多为2000年、2005年、2010年、2015年、2020年数据，缺少中间年份数据。在土地覆盖长期监测中，5 a一次的数据频次明显无法满足监测需求，亟须开展逐年土地覆盖数据产品研究。

黄河是中华民族的重要发祥地，研究黄河流域多年土地利用情况，对科学推动黄河流域高质量发展有着重要的意义。Google Earth Engine(GEE)平台是目前世界上先进的PB级地理数据科学分析及可视化平台[8]，与传统遥感数据获取方式和数据处理软件相比，具有长时间存档数据、运行稳定、计算效率高、上手难度低、使用成本低等优点[9-10]。本文以黄河流域地表覆盖为例，通过GEE平台快速完成2000—2020年间20 a逐年高精度黄河流域地表覆盖提取工作，解决了现有土地覆盖数据频次与精度无法兼顾的问题，以此为大尺度、长时序、高频次、高精度土地覆盖数据制作提供一套基于GEE云平台的高效技术路线。

1 研究区概况及数据源

黄河流域(图1)从西到东横跨青藏高原、内蒙古高原、黄土高原和黄淮海平原4个地貌单元。

图1 黄河流域位置

整个流域地势为西高东低，西部河源地区平均海拔在4 000 m以上，由一系列高山组成，常年积雪，冰川地貌发育；中部地区海拔在1 000～2 000 m之间，为黄土地貌，水土流失严重；东部主要由黄河冲积平原组成。黄河流域主要属于南温带、中温带和高原气候区[11-12]。

本文收集并使用了不同的数据集。土地覆盖数据集为自然资源部发布的30 m空间分辨率的GlobeLand30数据集。遥感影像数据为2000—2020年间Landsat5/7/8影像，GEE平台自带该影像数据集。此外，来源于SRTM3的30 m空间分辨率数字高程模型(digital elevation model，DEM)数据和来源于DMSP-OLS与NPP-VIIRS的2000—2020年逐年灯光数据作为辅助数据以提高土地覆盖中植被和建设用地等地类的分类精度。

2 研究方法

2.1 技术流程

本文主要研究方法分为4步，技术流程见图2。

图2 技术流程

1)样本选取。利用2000年、2010年及2020年土地覆盖数据，根据“一致性”和“稳定性”原则，选取分类样本点，并将样本点划分为训练样本和测试样本。

2)数据处理。基于GEE平台，采用多年影像合成和云掩模的方法，获取黄河流域2000—2020年逐年无云的大气顶反射(top of atmosphere reflectance，TOA)影像。

3)监督分类。利用随机森林分类方法，对黄河流域2000—2020年逐年Landsat影像进行分类，并利用验证样本点对分类结果进行检查。

4)结果对比。选取2010年黄河流域土地覆盖数据结果，对比GlobeLand30数据集、MCD12Q1数据集和ESA-CCI数据集同一时期数据，检验基于GEE平台黄河流域土地覆盖数据产品精度。

2.2 样本点选取

本文参考CNLUCC分类系统，根据黄河流域实际土地覆盖情况，结合以往土地覆盖方面研究成果，确定本文中黄河流域土地覆盖分类体系，包括以下6个类别：林地、草地、耕地、水体、建设用地、未利用地。为便于后续对比分析，本研究将GlobeLand30数据集分类系统、MCD12Q1数据集采用的IGBP分类系统和ESA-CCI数据集采用的LCCS分类系统对应至CNLUCC分类系统[13]，对应关系见表1。

表1 4类分类体系对应表

样本点选取是影响分类结果的重要因素。传统分类方法多为人工选取样本点[14]，该方法针对面积较小的研究区效果较好，但对于大范围研究区，人工选取样本点工作量极大。本文通过对比2000年、2010年及2020年3个时间基点的土地覆盖数据，选择多年稳定不变区域作为样本区，选择样本区几何中心作为该区域样本点位置，样本类型即为该区域土地覆盖类型。一般来讲，某一区域多期次土地覆盖类型没有变化，即可认为该区域整个时段土地覆盖类型保持稳定，而区域土地覆盖类型变化多由边缘至中心改变，该区域几何中心位置变化概率最小。

通过上述方法选取10 000个样本点，样本点分布情况见图3。参考Google Earth Pro软件中的历史影像数据对所选样本点进行随机验证，随机抽取1 000个样本点对照Google Earth历史影像数据。结果表明，样本选择精度高于94.7%，选择多年稳定不变区域几何中心作为该地类样本点具有可行性。

图3 样本点分布

样本点按照分类体系进行标注，然后导入GEE平台中，以备后续分类模型使用。随机选择70%的样本点作为模型训练数据，余下30%的样本点作为模型测试数据。

2.3 影像处理

本文基于GEE平台，选取了近20 a逐年Landsat影像数据(30 m空间分辨率)进行土地覆盖提取，其中2000—2011年选取Landsat5 TM影像，2012—2013年选取Landsat7 ETM+影像，2014—2020年选取Landsat8 OLI影像。由于研究区跨南温带、中温带和高原气候区3个气候带，植被覆盖随气候有较大变化，同时高原气候区遥感影像受云影响较大。为保证土地覆盖提取结果稳定性，通过GEE平台的在线编程，筛选成像时间为当年5—10月的无云影像，以保证合成研究区最小云量影像，平均每年数据量为53景。利用GEE平台提供的SimpleComposite算法模块对每年的原始Landsat系列卫星影像进行大气校正、辐射定标、影像去云处理等操作，合成年际最小云量TOA影像。

2.4 监督分类

本文监督分类方法选用随机森林分类算法。近年来，随机森林算法已经应用到滑坡制图、城市树林制图和地表覆盖分类等领域。研究证明，该方法比传统方法运行更准确、速度更快，得到了研究者的广泛关注[15-16]。

选用多种类型的特征数据有利于提高监督分类精度。本文选取多光谱波段，光谱特征指数：包括归一化植被指数(normalized difference vegetation index，NDVI)、归一化水体指数(normalized difference water index，NDWI)、归一化建筑指数(normalized difference built-up index，NDBI)、地形特征(高度和坡度)和灯光特征作为随机森林算法的输入变量。根据测试数据对分类结果进行精度评价，主要精度评价指标包括用户精度、制图精度、总体精度及Kappa系数。

3 结果与讨论

3.1 分类精度

分类结果精度评价指标情况见表2。结果表明，基于GEE平台的黄河流域2000—2020年逐年土地覆盖数据各地类用户精度及制图精度均超过0.76，总体精度为0.82±0.03，平均Kappa系数为0.82，总体精度优于MCD12Q1数据集(74.8%)及ESA-CCI数据集(74.4%)，略低于GlobeLand30数据集(83.50%)。样本点与分类结果之间达到高度的一致性，同时多年数据的总体精度比较平稳，没有太大的起伏差异，这表明本研究在数据选择、特征选择及分类算法选择上可靠、稳定。

表2 基于GEE平台黄河流域逐年(2000—2020年)土地覆盖数据分类精度

3.2 结果对比

本文选取2010年作为时间基点，分别从整体和细节对比GlobeLand30数据集、基于GEE平台的土地覆盖数据、MCD12Q1数据集和ESA-CCI数据集同一时期数据，验证基于GEE平台土地覆盖数据产品的适用性(图4)。图4(a)为本文方法基于GEE平台的黄河流域2010年土地覆盖数据产品。整体来看，黄河流域林地主要分布于太行山与秦岭一带，甘肃陇南地区也有大片林地分布；草地主要分布于黄土高原中北部；耕地主要分布于渭河盆地及华北平原地区，黄河上游银川—呼和浩特地区也有大片耕地分布；黄河流域较大规模水体主要分布于黄河上游源头地区；建设用地主要为黄河流域内城市市域；未利用地主要分布于黄河上游下段内蒙古高原地区。

(a) 本文方法数据产品(b) GlobeLand30数据产品

图4-1 黄河流域2010年土地覆盖分类图

图4-2 黄河流域2010年土地覆盖分类图

对比4类产品可发现，各类型土地整体空间分布上保持着较高的一致性。4类数据产品各土地类型面积占比情况见表3，结果显示，4类数据产品各地类总体占比趋势一致，主要土地类型均为草地与耕地，占比60%以上。四者出入较大的地类主要为草地与未利用地，本文选取的影像时间为当年5—10月，因此草地占比稍高，未利用地占比较低。整体来看，基于GEE平台的黄河流域2010年土地覆盖数据分类结果合理可靠。

表3 4类数据产品各地类面积占比情况

为检验本文方法土地覆盖数据分类细节精度，本研究选取各地类典型区域作为对比区域，对比4类数据产品与Google Earth历史影像，对比结果见表4。

表4 4类数据产品逐地类对比

结果表明，本文方法基于GEE平台的分类结果，在水体、林地、耕地、建设用地4种分类结果上，均优于MCD12Q1数据集和ESA-CCI数据集，接近GlobeLand30数据集，具体表现在轮廓更为清晰，细节更为丰富。草地与未利用地分类结果上与MCD12Q1数据集分类结果相似，优于ESA-CCI数据集，略逊于GlobeLand30数据集。