训练样本数量选择和总体分类精度的关系研究

时间：2024-07-28

王春来，张森原，崔璐，葛玉停，张金禄，张淼泓

(1.河南黄河勘测信息工程院，河南郑州450045;2.黄河水文勘察测绘局，河南郑州450000)

近年来，航空航天遥感数据的获取趋向于“三多”(即多平台、多传感器、多角度)和“三高”(高空间分辨率、高光谱分辨率、高时相分辨率)，获取的遥感影像信息量更丰富，便于影像解译和信息提取，使得遥感技术对资源、环境、灾害、区域、城市等进行调查、检测、分析和预测、预报等方面的研究工作得到了长足的发展。而遥感影像的精确分类是遥感应用的重要前提，对遥感影像的分类主要分为监督分类和非监督分类。针对监督分类目前国内外对该技术的研究主要集中在分类方法上，而对训练样本数量选择和分类精度的关系研究较少。

2004年Foody针对SVM分类提出:以地物边界上较少数量的混合像元作为训练样本，可以达到选取大量纯净样本作为训练样本得到的分类精度［1］。2005年Van Niel T G等指出，训练样本数量选取规则是每个地物类别需要的样本数量为遥感数据波段数的10～30倍，并在此基础上越多越好［2］。2006年Foody又结合统计学理论，给出了训练样本数量的计算公式［3］。而国内的学者薄树奎、丁琳等于2010年选取TM影像通过实验分别验证了各个地物类别分类精度和选取各波段样本数量的关系［4］。王晓玲、杜培军等于2011年证明了针对SVM选取混合像元作为训练样本的可行性［5］。从上述研究成果中可以看出:对训练样本数量选取和分类精度的关系，前人的研究不但缺乏对逐像元分类和基于特征基元分类的对比分析，而且缺乏高分辨率遥感影像训练样本数量选择和整体分类精度关系分析。

1 样本选取原理

利用监督分类对遥感影像进行分类时，在确定分类方法和分类对象后，训练样本的选择也是一个关键步骤，训练样本的选择比分类算法的选择对分类精度的影响更大，因此，训练样本选取的好与坏，在一定程度上决定了分类精度的高与低。

遥感影像分类中，基于像元监督分类通常假设某一地物类别服从正态分布，选取地物类别的训练样本时，根据统计学理论，所需训练样本数量的计算公式［3］为:

式中:σ为地物类别的标准差;z为指定的置信水平;h为指定的置信区间的半宽;N为类别的大小。对于遥感影像中像元数目比较大的地物类别，式(1)可近似表示为:

在实际的遥感分类应用中，一般认为，基于像元监督分类时所要求训练样本数量是特征变量维数的函数，随着维数的增加而增加。通常采用试探性的方法来选取训练样本，选取训练样本的规则是每个地物类别的训练样本数量为数据波段的10～30倍［2］，且在此基础上训练样本数量越多，分类精度越高。

特征基元是与像元相对应的影像分析实体，是光谱信息类似的相邻像元集合体，其大小由影像分割尺度与影像空间结构决定［6］。特征基元的获取是根据特定的规则将相似的相邻像元合并成影像对象，每个特征基元的光谱值是其中所有像元的平均值，然后以这些特征基元作为影像分类的基本处理单元。这样就形成了影像分割前后两类不同的数据集。在基于像元分类中，需要大量训练样本，而基于特征基元分类方法中基本的处理单元发生了改变，因此，对影像分割后基于特征基元利用监督分类时，训练样本的选取数量也就区别于基于像元的监督分类。

实际上基于特征基元分类方法中的样本选择与基于像元分类方法中的样本选择类似，在原始影像上基于像元选取的训练样本，与分割影像上相对位置上的像元集，即为采用基于特征基元监督分类时，所需选取的训练样本。

2 样本选取与分类精度的关系分析

本文截取某城市400×400的高分辨率影像数据作为研究对象。截取的原始影像数据如图1所示，进行影像分割生成特征基元的影像数据如图2所示。

图1 原始影像

图2 分割影像

本文为验证基于特征基元分类和基于像元分类的训练样本选取数量与最终分类精度的关系，分别在分割影像和原始影像上选取5组样本数据进行研究，具体研究流程如图3所示。选取样本的数量和样本点的坐标在两类影像上均一一对应，同时满足选取各类地物的样本数量分别是影像波段数的3～4倍、6～8倍、12～15倍、24～30倍、48～55倍。具体各类地物样本选取的个数如表1所示。

基于特征基元SVM分类和逐像元SVM分类的训练样本确定后，分别利用交叉验证和格网搜索法对选取的两类训练样本进行参数寻优，最终各组训练样本对应的最优惩罚因子C和Gamma参数g如表2所示。

基于特征基元SVM分类和逐像元SVM分类的训练样本的最优参数求得后，选用各组数据的最优参数，利用SVM分类器对分割影像和原始影像分别分类，两组训练样本分类后求得最终分类结果的混淆矩阵分别如表3和表4所示。

将两组训练样本各自对应的分类混淆矩阵求出后，分别将两类影像训练样本数量作为横坐标(以波段倍数表示)，将得到的最终分类的总体精度作为纵坐标，生成的线性关系如图4所示。

图3 实验流程

图4 样本数量与分类总体精度线性关系图

表1 研究区各类地物样本选取状况

表2 各组训练样本参数寻优结果

表3 各组训练样本所得混淆矩阵及Kappa系数—基于特征基元分类

续表

表4 各组训练样本所得混淆矩阵及Kappa系数—基于像元分类

续表

从图3(其中，蓝色代表基于特征基元分类，红色代表基于像元分类)可以看出，随着训练样本数量的增加，两类影像分类总体精度呈现上升趋势。基于特征基元分类时，当样本数量是波段数6～8倍时，分类总体精度(95.29%)已经达到较高水平，之后，随着样本数量的增加，分类总体精度增幅变缓;基于像元分类时，当样本数量是波段数的24～30倍时，分类总体精度(89.4%)才达到较高水平。基于特征基元分类选择训练样本的数量比基于像素分类方法明显减少4倍左右，即基于特征基元分类训练样本选取的数量在6～8倍波段数目时分类精度就能达到较高的水平，并进入一个平稳阶段，而基于像元分类训练样本选取数量在24～30倍时分类精度才达到较高的水平。因此，基于特征基元分类与基于像元分类相比，基于特征基元分类选取训练样本时，只需选择较少的样本数量即可。

3 结论

本文通过实验分析得出基于像元分类和基于特征基元分类时训练样本的选取与分类精度的关系。认为基于特征基元分类训练样本选取的数量在6～8倍波段数目时分类精度就能达到较高的水平，并进入一个稳定阶段，而基于像元分类训练样本选取数量在24～30倍波段数目时分类精度才达到较高的水平。该结论对遥感信息的提取和遥感分类有重要的借鉴和指导意义。

［1］ Foody G M，Mathur A.Toward intelligent training of supervised image classifications:Directing training data acquisition for SVM classifications［J］.Remote Sensing of Environment，2004，93:107 － 117.

［2］ Van Niel T G，McVicar T R，Datt B.On the relationship between training sample size and data dimensionality:Monte Carlo analysis of broadb and multi－ temporal classification［J］.Remote Sensing of Environment，2005，98(4):468 －480.

［3］ Foody G M，Mathur A.The use of small training sets containing mixed pixels for accurate hard image classification.Training on mixed spectral responses for classification by a SVM ［J］.Remote Sensing of Environment，2006，103(2):179 －189.

［4］薄树奎，丁琳.训练样本数目选择对面向对象影像分类方法精度的影响［J］.中国图象图形学报，2010，15(7):1106－1111.

［5］王晓玲，杜培军.高光谱遥感影像SVM分类中训练样本选择的研究［J］.测绘科学，2011，36(3):127－129.

［6］ Baatz M，Benz U，Dehghani S，et al.Ecognition Professional User Guide［EB/OL］.［2009 －02 －25］.http//www.definiens.imaging.com.