时间:2024-05-04
陈昀琳
(浙江同济科技职业学院,浙江 杭州 311231)
高光谱遥感技术是集高光谱数据获取、处理、分析与应用为一体的遥感科学,拥有丰富信息量的高光谱数据为遥感图像分类和地物识别提供了更精确的处理依据,凭借窄波段成像技术反映地物的生物物理属性,在资源勘探[1]、农业监测[2]、海洋开发[3]、空天认识[4]等领域都有较明显的优势。
高光谱图像巨大的数据量给数据分析处理带来了较大的问题。如何有效地在保证不损失高光谱信息的情况下,尽可能保留数据的特征信息和去除数据冗余与相关性成为高光谱遥感图像领域中一个非常重要的研究方向。
高光谱遥感图像降维的主要目的是实现对高光谱图像特征的提取。现有的高光谱降维方法主要包括基于特征提取和基于非变换的波段选择。常见的基于特征提取的光谱遥感图像降维算法包括:主成分分析(Principal Component Analysis,PCA)[5]、独立分量分析(Independent Component Analysis,ICA)[6]、小波变换(Wavelet Transform,WT)[7]、最小噪声分离(Minimum Noise Fraction,MNF)[8]等方法。ICA算法是一种盲源信号分离技术[5],在使用ICA算法降维时,首先需要确定降维后的特征数目,由于高光谱相邻波段具有较强的相关性,因此特征数需要远远小于原始波段。
针对ICA不能学习过完备基,正交基对优化问题增加了硬约束,需要增加训练样本,从而增加了训练难度。本文在ICA算法的基础上特点,通过重建惩罚(Soft Reconstruction Penalty,SRP)替换ICA的正交性约束来克服ICA的缺点,即基于重建ICA(RICA)算法完成对高光谱影像的降维。
ICA基于统计独立的原则,将多通道观测到的信号借助于优化算法分解为独立的若干独立分量。不同于PCA基于数据的二阶统计量的协方差矩阵,ICA是基于数据间的高阶统计信息。因采用了更高阶的统计特性,能够有效消除信号之间的相关联性,同时确保在取得高压缩率时保证数据的光谱特性[6]。ICA利用高阶累计量提取各个分量不仅去除了分量间的相关性,且保持分量间统计独立,使得谱间维数得到有效压缩。
ICA算法原理如下:假设X为一组观测值,X∈R^(n×1),其中包含n个成员,每个成员为一个随机变量,如式(1)所示:
X=(x1x2…xi…xn)T
(1)
式中xi为随机变量,X中的n个随机变量之间非独立,在一定的条件下可用n个相互独立的随机变量线性组合重新表达X为:
(x1x2…xi…xn)T=A(s1s2…si…sn)T
(2)
式中A为满秩矩阵且A∈Rn×n,si为一个随机变量且两两相互独立,利用矩阵S替换si
S=(s1s2…si…sn)T
(3)
由公式(1)(2)(3)可得:
S=A-1X
(4)
令W=A-1可得:
S=WX
(5)
其中W∈Rn×n。假设对信号X采集m次,则可得到数据集D∈Rm×n为:
(6)
设随机变量si概率密度函数是psi(si),其中p的右下角si为随机变量标示,括号中的si表示自变量。因为S的n个成员si是相互独立的,因此S的概率密度函数为:
(7)
则X的概率密度函数是pX(X):
(8)
根据数据集计算W的值,从概率的角度来说,如果该数据集已经记录,则让该数据集出现概率最大的W就是最优值。根据最大似然估计法则可知,前述数据集出现的概率L为:
(9)
其中,∏表示连乘,di为数据集D的第i列,即:
di=(di,1di,2…di,n)T
(10)
当L具有最大值时,W取得最优解,对L偏导数得:
(11)
(12)
对公式(11)进行矩阵化,令:
K=WD
(13)
则K∈Rn×m,W∈Rn×n,K∈Dn×m,而gx为:
(14)
则:
(15)
因此对于W而言:
(16)
根据伴随矩阵相关性质可得W的更新方程为:
W=W+α(ZTD+m(W-1)T)
(17)
其中α为学习速率,需人为设定。
因此联合公式(5)(6)(9)(15)(17)可求得W的最优解,进而计算X的最优解,实现对信息的盲源分离。
但是在实际使用ICA方法对高光谱数据进行降维时会发现,因n维空间的正交基数为n,而特征矩阵W的特征数量(即基向量数量)大于原始数据维度时,会产生优化方面的困难,且样本训练时需要做ZCA白化预处理。
RICA是在ICA基础上的扩展,通过将正交性约束改为一个Soft Reconstruction Penalty,克服了ICA模型的缺陷。RICA旨在通过用软重建惩罚替换ICA的正交性约束来克服ICA的缺点,在使用梯度下降法对W进行训练时,模型的损失函数为:
(18)
根据RICA的损失函数,能够计算J(W)关于W的梯度为:
(19)
其中,N为样本的数量,./表示元素除,ε是一个极小的常量,防止分母出现0值。通过梯度下降的方法逐步最小化损失函数的值,能够得到最优的W矩阵。
本文采用一景经辐射定标、噪声波段删除、大气校正后大小为138×289像素的高分5号高光谱影像作为实验数据,空间分辨率为30 m。分别对PCA,ICA和RICA 3种降维方法进行对比实验,降维前高光谱影像真彩色合成的效果如图1所示,降维后前三单波段与RGB合成比较以RICA为例如图2所示。
图1 降维前高光谱影像真彩色合成效果
图2 RICA降维后影像
从降维后影像中可以定性看出,影像在经过不同的降维方法计算后,各个波段的信息量依次呈现递减趋势,即噪声逐渐增多,同时经过降维后的影像地物特征更加鲜明,同种地物在原始真彩色影像中出现的不同色调也在降维后呈现统一颜色,有利于分类前不同地物类型的确认。
遥感影像得知信息熵是描述各像元灰度值的总体分布特征的指标,所计算的值可以反映图像信息的分散程度,即影像的信息量。信息熵与影像所包含的信息量相关且呈正比。经过降维后的影像第一波段的信息量最大,所以对PCA、ICA和RICA降维后数据进行信息熵计算,结果如表1所示。
表1 降维后影像信息熵
从计算的信息熵中可以看出虽然三者信息熵数据差别较小,但是对实验数据而言,RICA的信息量相较其他两种降维方法保留的信息量更多。
支持向量机(Support Vector Machine,SVM)是遥感影像监督分类中的一种分类算法,是建立在统计学理论基础熵的机器学习方法。本文选择RBF核函数作为SVM分类核函数,同时核函数中的Gamma参数设置为输入影像波段数的倒数。
SVM分类样本最终确定包括林地、水体、建筑物、耕地和其他在内的5种地物类型,选择具有代表性和完备性的样本点共1 232个。确定样本后,需要计算样本分离度,样本的分离性可以定量确定两类不同地物之间的差异性。本文通过Jeffries-Matusita距离进行样本分离度计算,保证所有样本的可分离度均大于1.8。
同一分类样本对不同降维后的数据进行SVM分类的结果如图3所示。
图3 不同降维方法SVM分类结果
通过对以上分类结果目视分析,SVM分类算法对实验数据的分类效果较好。使用总分类精度和Kappa系数对分类结果进行定量分析,Kappa系数是检验数据一致性的指标,代表数据的平均分类结果,能间接反应分类精度。计算结果如表2所示。
表2 SVM总分类精度和Kappa系数
与PCA和ICA算法相比,重建的ICA分类精度有所提高,较PCA和ICA算法分别提高了2.80%和3.38%。降维降低了数据的复杂性,减少了空间损耗,提高了运行速率。在ICA的损失函数中加入重构惩罚项的RICA解决了ICA无法学习完备基的问题,在利用梯度下降算法后进行迭代求解,利用SVM分类得到较PCA和ICA更好的结果。
本文通过分析ICA不能学习过完备基,要求数据必须白化这一特点,对未白化的数据效果不好,且运用梯度下降的同时还需要额外的基正交化操作,增加了训练难度。对此,本文通过在损失函数中增加一个重建惩罚项代替强制的基正交化操作,即RICA算法,使模型的训练更简洁,并克服ICA无法学习过完备基的特点。通过SVM分类结果验证了RICA降维后的分类效果和精度都高于PCA和ICA算法,实验证明RICA是一种有效的高光谱数据降维方法。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!