时间:2024-05-30
李宏达,李德成,曾 荣†
(1. 南京信息工程大学地理科学学院,南京 210044;2. 土壤与农业可持续发展国家重点实验室(中国科学院南京土壤研究所),南京 210008)
土壤是地球关键带的核心之一[1],定量研究土壤发生学、土壤属性和功能、土壤发生的时空变化,是当今全球变化背景下土壤科学研究面临的挑战[2-3]。土壤有机碳含量是评价土壤质量演变的重要指标之一,它直接影响土壤肥力和作物产量,作为衡量土壤肥力的重要指标[4],其定量化快速监测成为精准农业研究的热点[5]。传统的测定方法费时、费力、费钱,且污染环境,可见-近红外光谱的发展为该问题提供了解决方法[6],土壤可见-近红外光谱是土壤理化参数的综合反映,结合化学计量模型已实现了对有机碳等诸多土壤属性的快速估算。目前,建立了局地、国家、洲际乃至全球等不同尺度的土壤光谱库,但前人的研究表明,基于光谱库采用全局建模预测的效果并不理想[7]。如何从光谱库中挑选合适的建模集以实现对任一局部地区土壤有机碳的高精度预测,是一个值得研究的问题。
前人的研究表明,利用光谱相似性匹配挑选建模集可以提高预测精度[8],光谱相似性匹配是依据某一特定的光谱相似性指数来判定未知光谱与参考光谱之间的相似度[9]。该方法提高预测精度存在如下假设:即相似的光谱具有相似的理化属性,依据光谱相似性匹配可以挑选光谱维度上的局部建模集(local model)。光谱相似性指数在遥感影像分类中的应用较多,但是利用光谱相似性匹配来预测土壤属性的研究较少[10]。光谱相似性匹配算法有多种,常用的有欧氏距离(Euclidean distance,ED)、马氏距离(Mahalanobis distance,MaD)、光谱角匹配(Spectral angle mapper,SAM)等[11],不同匹配算法所挑选的光谱会存在差异,进而也会影响模型预测精度,前人研究较少关注不同相似性匹配算法对局地土壤有机碳预测精度的影响。如魏昌龙等[10]采用光谱角匹配(SAM)、偏最小二乘回归(PLSR)和 SAM-PLSR 三种方法预测土壤有机质(SOM)和阳离子交换量(CEC),其研究表明光谱角匹配结合PLSR算法极大地提高了SOM(R2=0.89,RPD=3.00)和CEC(R2=0.91,RPD=3.06)的预测精度,也大大降低了建模样本的数量,但该研究基于土壤类型单一、土壤属性变异不大的小区域,对于土壤类型复杂、土壤属性变异大的区域是否适用有待研究。
在利用光谱相似性匹配算法挑选建模集时,建模集数量的确定也尤为重要。以往研究多采用简单数值比例来确定预测集与建模集的大小,比如1∶1、1∶3,这种划分缺乏一定的科学依据[12]。前人的研究表明,通过合适的建模集挑选,仅使用少量的样本数量,或建模集较小时,也能取得较高的预测精度。如Peng等[13]利用丹麦土壤光谱库预测农田土壤有机碳,仅从土壤光谱库中提取了30个样本,也得到了较高的预测精度,但该研究并未对最优建模集做具体探究。Zeng等[14]探索利用区域土壤光谱库预测局地土壤有机质的有效策略,也并未研究建模集最优数量。
利用相似性匹配算法挑选建模集后,可以采取两种不同的策略建模:(1)建模集结合化学计量模型对未知样本进行预测;(2)将挑选的相似性样本属性的均值赋值给未知样本。魏昌龙等[15]的研究结果表明,光谱相似的土壤,其部分理化属性也具有一定的相似性(如SOM和CEC),在该研究中两种建模策略均取得了较高的预测精度。但针对大区域、大尺度的光谱库,何种研究策略更优还有待探究。
综上所述,前人的研究主要存在如下可改进之处:(1)主要针对较小的研究区、较小的光谱库[13];(2)缺少不同光谱相似性指数影响模型预测精度的比较研究[16];(3)相似性光谱组成的建模集大小有待进一步探索。
因此,本研究旨在基于光谱相似性指数,探索利用全球光谱库[17]预测局部地区土壤有机碳的有效策略,以实现对局部地区有机碳的高精度预测。研究目标如下:(1)比较不同的光谱相似性指数对建模精度的影响;(2)比较不同建模集数量对建模精度的影响;(3)比较不同建模策略(建模预测与赋值预测)对建模精度的影响。
全球土壤光谱库由国际土壤参比与信息中心(ISRIC)建立,覆盖来自非洲、亚洲、欧洲、北美洲和南美洲等58个国家的土壤样本,挑选了其中测定了光谱及有机碳的样本,共计3 782个[17]。其中245个中国区域的样本作为预测集,3 537个非中国区域样本作为参考光谱库,用于建模集挑选及后续的预测研究。光谱测量采用FieldSpec FR(Analytical Spectral Devices, Boulder, CO)光谱仪记录,波长范围为350~2 500 nm,采样间隔为1 nm。光谱采集在暗室中进行,将约20 g风干研磨过2 mm筛的土样放入直径7.4 cm的玻璃培养皿内,样品高度约为1 cm,采用4.5 W卤素灯作为光源。为了减少数据冗余,在350~2 500 nm范围内,每10 nm求取平均值,每条光谱共216个波段数据。
首先将光谱反射率转换为吸收率,通过公式Lg(1/R)进行转换,其中R为光谱反射率。然后对吸收率采用Savitzky-Golay(SG)卷积平滑一阶求导方法[18]进行平滑去噪,其光谱预处理在软件R 3.2.5中完成。
在进行光谱相似性匹配计算时,分别使用欧氏距离、马氏距离[19]和光谱角算法[20]挑选相似样本,为探究不同数量建模集对建模精度的影响,本文将建模集大小(即所挑选的相似光谱的数量)设定为13个等级:5、10、20、30、40、50、100、150、200、250、300、400和500,便于探究不同建模数量对有机碳预测精度的影响。
本研究采用的建模方法为经典的偏最小二乘回归法。偏最小二乘回归法(Partial least squares regression,PLSR)是一种基于因子分析的多元统计数据分析方法,1965年由 Herman Wold首次提出[21]。本研究对PLSR模型采用五折交叉验证进行精度评定,交叉验证的方法可在所有样品参与建模的基础上,较好地评估模型精度。
PLSR因子数量的选择根据五折交叉验证最小的均方根误差来确定,中国区域数据作为预测集,非中国区域数据作为建模集。模型预测精度的评价指标包括决定系数(R2)、预测均方根误差(RMSEp)和相对分析误差(Relative percent deviation,RPD)。
R2越大,RMSEp越小,RPD越大,预测效果越佳。R2越接近1时,说明拟合效果越好;根据Chang等[22]对RPD的划分:当 1.0
本研究采用两种建模策略:第一种是PLSR建模预测,针对欧氏距离、马氏距离和光谱角算法挑选出来的相似光谱,利用PLSR建模来估算预测集中的土壤有机碳含量;第二种策略是赋值预测,利用相似性匹配算法挑选出相似样本,将相似样本土壤有机碳含量的平均值直接赋值给预测集中的未知样本。赋值预测建立于如下假设:光谱相似的土壤,其土壤有机碳的含量也较为相似。
全球土壤光谱库中土壤有机碳的相关统计特征如表1所示。建模集土壤有机碳含量范围为0~60 g·kg–1,平均值约为1.19 g·kg–1,含量分布极其不均衡。这是由于光谱库样本较多且分布涉及全球,造成土壤有机碳含量标准差以及变异系数较大。预测集土壤有机碳含量分布范围为0~6.03 g·kg–1,标准差和变异系数相对建模集而言较小,但变异系数也较高(119%),这是因为中国国土面积辽阔,土壤类型多样,造成土壤有机碳含量差异较大。
表1 全球光谱库土壤有机碳统计特征 Table 1 Soil organic carbon statistical features of the global soil spectral library
本研究为探索土壤有机碳含量与光谱曲线形态的关系,对预测集有机碳含量由小到大进行四等分[23],四个等级的有机碳含量平均值分别为0.10 g·kg–1、0.27 g·kg–1、0.58 g·kg–1和1.71 g·kg–1,其对应的光谱曲线平均值如图1所示。
有机碳含量越高,其整体反射率越低,可见光波段反射率曲线分异较小,随着波长增加,分异逐渐变大。虽然有机质含量为0.27 g·kg–1和0.58 g·kg–1的光谱反射率差异不大,但0.58 g·kg–1光谱平均反射率仍然低于0.27 g·kg–1光谱平均反射率。在近红外光谱波段的1 400 nm,1 900 nm和2 200 nm处存在明显吸收峰,通常被认为与黏土矿物中所含的水分子和羟基有关[24]。
为了便于建模精度的比较分析,在用光谱匹配方法选取合适建模集之前,采用参考光谱库中的所有光谱运用PLSR方法对预测集中的土壤有机碳进行全局建模预测,并评估其预测精度。全局建模预测精度低(R2=0.3,RPD=0.77),并不能较好地预测土壤有机碳含量。主要原因可能是建模集样本数量较多,且全球土壤光谱库样本来自于全球各个区域,参考集样本与预测集样本在地理位置、理化性质等方面均存在较大差异,光谱库中光谱曲线以及有机碳含量差异较大,才导致建模精度不高。这与邬登巍和张甘霖[6]的研究结果相似,通常情况下全局建模的预测精度不高。因此,准确预测局部地区土壤有机碳含量需要筛选合适的建模集,下文中将采用欧氏距离、马氏距离和光谱角算法来挑选合适的建模集。
将以上三种光谱匹配方法挑选出的13个数量等级的建模样本分别作为建模集进行PLSR建模预测土壤有机碳含量,其预测精度如下:
表2展示了基于三种相似性光谱匹配算法及不同建模集数量下土壤有机碳的预测精度。基于欧氏距离匹配所建立的模型,决定系数R2p范围介于0.40~0.75,RPD范围介于1.27~1.73;基于马氏距离匹配所建立的模型,决定系数R2p范围介于0.38~0.72,RPD范围介于1.23~1.67;基于光谱角匹配所建立的模型,决定系数R2p范围介于0.35~0.75,RPD范围介于1.21~1.73。使用上述三种匹配方法,尽管只挑选极少量相似的光谱(例如5条),相比于全局建模(RPD=0.77),预测精度也得到了极大的提升,RPD提升至1.20左右。
表2 不同相似性匹配算法及不同建模集数量下土壤有机碳的预测精度 Table 2 SOC prediction accuracy relative to similarity matching algorithm and size of the modeling sets
整体而言,在建模集数量较少时(<50),三种方法的预测精度均不高(RPD<1.4),而建模集数量较多时,光谱角算法略优于其他两种算法。从R2p、RMSEp和RPD随建模集数量的变异来看,建模数量大小对模型精度有较大的影响,有关建模集数量对建模精度的影响将在下文中深入讨论。
为探究不同相似性光谱指数所挑选的光谱有何差异,本研究在预测集中挑选出3条具有明显差异的土壤有机碳含量光谱曲线,其土壤有机碳含量分别为0.02 g·kg–1、0.65 g·kg–1和6.03 g·kg–1,提取出其所匹配的最相似的5条光谱进行对比分析,比较三种相似性匹配算法所挑选的光谱有何异同之处。如表3所示,无论是对低、中、高有机碳含量,欧氏距离与马氏距离挑选出来的相似样本重合率高达80%~100%;而SAM算法所挑选的光谱与欧氏距离、马氏距离有较大差异,相似度仅为10%~20%。这是由于算法的不同,欧氏距离和马氏距离的算法相似,均是计算两点间的空间距离,而SAM算法则是比较两光谱曲线的余弦夹角,故差异较大。
表3 不同相似性算法匹配光谱的比对 Table 3 Comparison between similarity algorithms in number of matching spectra
三种匹配方法所挑选出来的土壤光谱有机碳含量差异也较大,比如针对低土壤有机碳含量的样本(0.02 g·kg–1),ED算法所挑选出的5条相似性光谱中,有两条光谱有机碳含量(0.07 g·kg–1和0.08 g·kg–1)与目标样本相近,其他光谱有机碳的含量(0.12~0.38 g·kg–1)远高于目标样本。针对中高有机碳含量样本的匹配,也存在类似的情况,这反映了光谱的相似性与土壤有机碳含量的相似性并不完全一致。这是因为光谱曲线的反射率高低、曲线形态由多种因素控制,不仅是土壤有机碳,还受其他土壤属性的影响,如颗粒组成、氧化铁含量、碳酸钙含量等[25]。造成这一结果的另一原因在于,所匹配的建模集样品来自于除中国外的全球各地,光谱本身的差异性大,与预测集样品在光谱、理化属性上均存在较大差异。
图2分别展示了低(0.02 g·kg–1)、中(0.65 g·kg–1)、高(6.03 g·kg–1)有机碳含量下三种相似性匹配算法所挑选的光谱曲线。
针对低土壤有机碳含量的相似光谱,光谱角算法所匹配光谱的反射率均高于目标光谱,虽然光谱反射率存在较大差异,但光谱曲线形态较为相似。欧氏距离和马氏距离所匹配光谱中,有两条光谱曲线反射率较为接近,但曲线形态差异较大。
针对中土壤有机碳含量的相似光谱,通过欧氏距离和马氏距离方法匹配的光谱几乎完全相同。整体来看,三种算法所匹配光谱的反射率均低于目标光谱。光谱角算法所匹配的一条相似性光谱,其整体反射率明显低于其他光谱,这也反映了光谱角算法的特质,着重于形态差异而非反射率高低。
针对高土壤有机碳含量的相似光谱,欧氏距离和马氏距离算法匹配的光谱完全一致,其中三条匹配曲线的反射率高于参考光谱,两条匹配曲线的反射率低于参考光谱,无论是从反射率大小还是形态来看,已知光谱与匹配光谱间均存在较大差异。光谱角匹配的光谱从形态特征上与参考光谱更加相似,这也与光谱角计算算法的内涵相一致,光谱角所挑选的相似光谱其反射率均高于目标光谱。
无论是低、中、高有机碳含量的光谱,相比于目标光谱,匹配光谱的相似程度均不是太高,因而基于此的模型预测精度也比较低(1.21 在使用欧氏距离、马氏距离和光谱角算法挑选出建模样本之后,建模样本数量的差异极大地影响 了模型的预测精度,图3直观展示了三种匹配算法下13个等级建模数量对有机碳预测精度的影响。 如图3所示,建模集数量的差异对建模精度有较大的影响。从整体来看,随着建模集数量的增多,三种匹配方法的预测精度均呈现上升趋势,并且相比于全局建模,预测精度提升显著。 针对欧氏距离,建模集数量小于100时,R2呈上升趋势,但R2<0.6、RPD<1.4,此时所建立的模型并不能很好地预测土壤有机碳;当建模集数量大于100,小于300时,R2基本处于0.6附近,但RPD<1.4,模型预测能力较差;当建模集数量大于300,小于500时,R2>0.6、RPD>1.4,可以较好地预测有机碳含量,该方法下最优建模集数量范围为400~500。但由图上趋势来看,还需进一步探究建模集数量为600、700甚至更多的情形以及更细致的等级划分。 针对马氏距离,建模集数量小于100时,与欧氏距离的预测结果相似,R2呈上升趋势,但RPD和R2均较低,土壤有机碳预测精度不高;当建模集数量大于100,小于500时,R2>0.6、RPD>1.4,有机碳含量预测精度较高,由图3可知马氏距离的整体预测精度均优于欧氏距离,其最优建模集数量范围也为400~500。 针对光谱角算法,在建模集数量小于50时,R2和RPD均较低,所建立的模型并不能很好地预测有机碳;当建模集数量在50~100时,预测精度高于欧氏距离和马氏距离所匹配的模型;当建模集数量大于50,小于500时,除去样本数为200的情况下,R2>0.6、RPD>1.4,可以较好地预测土壤有机碳含量,由图3可知,除样本数为200以外其余建模集预测精度均优于欧氏距离和马氏距离,该方法下最优建模集数量范围同样为400~500。 建模集数量较少(样本数<50)时,三种方法预测精度均不高,但随建模集数量的增多,预测精度皆有提高,三者中预测精度较高的是光谱角匹配,且最优建模集数量范围为400~500。 本研究结果与预期有一些偏差,预期当建模数量样本较大时,越接近于全局建模,预测精度会降低,但三种匹配的最优建模集数量范围均为400~ 500。原因可能如下:(1)由于光谱运算计算量较大,本文仅采用了13个等级,对有限的建模集数量(5~500)进行了比较,在今后的研究中,有必要对建模集数量做更细致的等级划分;(2)相比于全局建模,相似性样本匹配的建模策略存在差异,全局建模是仅利用一个模型对整个预测集做估算;而相似性匹配是针对每一个预测样本均进行建模预测,这可能是样本数量为500时预测精度依然较高的原因。 由以上研究得出光谱角算法的预测精度略高于欧氏距离和马氏距离,因而在建模策略比较上,本文将针对光谱角算法匹配所挑选的样本,探究不同建模策略对预测精度的影响。如表4所示,建模预测精度随相似光谱数量的增加呈上升趋势,R2从0.35升至0.75,RPD由1.21升至1.73,此上升趋势在0~50条光谱时尤为显著,50条之后精度趋于平稳;赋值预测精度随相似光谱数量的增加呈下降趋势,该下降趋势在50~500条光谱时极其明显,R2从0.52降至0.30,RPD由1.43降至1.17。因而,当建模集数量较少时(<50),宜选择赋值预测的建模策略(R2>0.6、RPD>1.4);而当建模集数量较大时(>50),宜选择PLSR建模预测(R2>0.6、RPD>1.4)。 表4 PLSR建模预测和赋值预测精度比较 Table 4 Comparison between the PLSR modeling strategy and the assignment strategy in prediction accuracy 出现该结果的可能原因如下:当建模样本数量增多时,匹配的相似光谱与参考光谱的曲线形态相似程度越低,相似样本的有机碳含量差异就越大,其有机碳含量的平均值与实际偏差越大,精度越低。所以只有少量样本参与建模(<50)时,赋值预测精度才会较高。对于PLSR建模预测,当建模样本数量较多时(>50),模型的预测精度较高。建模策略的合理选取需参考光谱库本身的变异,以及参考光谱库与待预测样本光谱的差异。 相较全局模型,基于欧氏距离、马氏距离和光谱角三种光谱相似性指数选取样本所建立模型均显著提升了土壤有机碳的预测精度。总体而言,光谱角算法略优于欧氏距离和马氏距离。不过本研究中预测精度并不高,这可能是由于全球土壤光谱库中的光谱数据较多且土壤样本分布广泛,与预测集土壤样本属性差异较大有关。对于建模集大小的研究,当建模集数量较少时,三种方法预测精度均不高,但随建模集数量的增多,预测精度皆有提高,三者中预测精度较高的是光谱角匹配,且最优建模集数量范围为400~500。在建模策略上,当建模集数量较少时,宜选择赋值预测的建模策略;而当建模集数量较大时,宜选择PLSR建模预测。本研究还有待在如下方面进行进一步探索:(1)相似性样本数量需要进一步细化,并探究建模集样本数量为500以上的预测精度,以进一步探究最优建模集数量的选取;(2)增加其他光谱相似性指数的比较,比如相关系数法、兰氏距离以及多重测度方法,探究最佳的土壤有机碳预测策略;(3)尝试将该方法应用于其他土壤属性的预测,比如交换性阳离子、全氮、全磷、全钾,探讨该方法对其他属性预测的适宜性。2.4 不同建模集数量对土壤有机碳含量预测精度影响
2.5 不同建模策略对土壤有机碳含量预测精度影响
3 结 论
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!