可见光-近红外HSV图像融合的场景类字典稀疏识别方法

时间：2024-05-04

刘佶鑫，魏嫚

(1.宽带无线通信技术教育部工程研究中心(南京邮电大学)，南京 210003； 2.南京邮电大学通信与信息工程学院，南京 210003)(*通信作者电子邮箱liujixin@njupt.edu.cn)

0 引言

场景识别作为模式识别、计算机视觉系统、信号处理及人机交互等学科的重要技术，在图像(视频)检索、计算机视觉任务、数字图像处理、机器人移动定位、相机智能场景识别等方面都有非常重要的研究意义。常见的场景大致可以分为四类：自然场景、城市场景、室内场景和事件场景[1-2]。

目前，场景识别研究的重点主要有基于图像视觉词袋(Bag of Words, BoW)的方法[3-4]、多特征融合的方法[5-6]、基于显著区域学习的方法[7-8]以及基于稀疏表示(Sparse Representation, SR)[9]和卷积神经网络(Convolution Neural Network, CNN)[10]分类器的方法。这些方法在场景目标识别中都取得了较好的效果，尤其对室内场景识别效果良好；但在自然场景识别中，由于不同的场景经常有着相同的目标，所以具体的目标只能给自然场景分类提供一个依据，却不能完全决定场景分类的结果，这使得对本就复杂多变的自然场景的识别精度一直难以提升。

近年来，随着可见光-近红外(Near-InfraRed, NIR)共平台成像系统的普及，智能化自然场景识别[11]正在成为当前的研究热点。对于单一传感器下彩色自然场景图像信息不够丰富的问题，部分学者开始尝试将多光谱信息引入场景识别领域。Brown等[12]将近红外图像引入到场景分类中，并在他们采集的近红外-可见光数据库上通过实验验证了近红外图像在场景识别中的有效性。之后Salamati等[13]在该实验基础上通过提取并组合图像的尺度不变特征(Scale-Invariant Feature Transform, SIFT)和颜色特征达到了更好的分类效果。但他们的实验由于直接组合多个谱带的信息使得图像特征描述符维度随着波段的组合而快速增加，给分类任务提高了难度，且实验中采用的支持向量机(Support Vector Machine, SVM)方法在二分类情况下表现良好，而在多分类情况下却容易形成局部最优的情况。

因此，为了能够更加有效地利用近红外图像中的场景信息，本文提出一种融合可见光和近红外图像的场景识别方法。另外，考虑到稀疏识别由于具有较高的有效性和鲁棒性特点一直在图像识别领域中表现优秀，且深度学习需要较大的数据训练量[14]，所以本文采用稀疏分类器代替SVM分类器进行融合后场景图像的识别。不过值得注意的是，经典稀疏识别在图像识别任务中虽然表现良好，也仍然存在着一定的限制：一方面，稀疏表示模型要求图像样本空间足够大；另一方面，该模型不能很好地应对图像中姿势变化和没有对齐的情况。实验研究的近红外-可见光图像场景数据库[12]不存在图像对准的问题，所以针对样本不足的问题，本文将引入一种基于正则化K-奇异值分解(K-Singular Value Decomposition,K-SVD)的类字典学习算法，这种类字典学习算法与稀疏识别框架的结合可以大大增加场景图像的类内相关性和类间差异性，使得在没有大量训练样本的情况下依然可以获得比较高的算法效率，在可见光-近红外智能化自然场景识别领域具有很高的研究价值。

1 稀疏表示基本原理

稀疏表示是压缩感知(Compressed Sensing, CS)理论研究的重要分支，近几年已经被广泛地应用到计算机视觉和模式识别领域。CS理论最初由Candès等[15]提出，后来Wright等[16]将其应用到人脸识别中，将其称为SR下的分类(SR-based Classification, SRC)识别。

假设图像共有c个类别，A=[A1,A2,…,Ai,…,Ac]，其中Ai(i=1,2,…,c)是样本类别为i的类样本集。定义y为测试样本，则有：

1)输入向量y在样本集上可以线性表示为y=Ax，由于这种线性表示并不唯一，所以通过l1-范式最小化获得最佳的编码系数：

(1)

2)根据上述编码选取重构误差小的类别作为测试样本y的类别：

(2)

2 本文方法

整个系统可以分为三个部分：近红外图像与可见光图像的融合，图像的特征提取和融合，类字典稀疏识别和分类决策。算法的流程框架如图1所示，首先采用基于HSV颜色空间变换的方法融合RGB图像和NIR图像，之后提取融合图像的通用搜索树(Generalized Search Tree, GiST)特征和分层梯度方向直方图(Pyramid Histogram of Oriented Gradients, PHOG)特征进行特征融合，然后对融合的特征进行类字典稀疏识别，最后求得测试样本的稀疏系数进行分类决策，得到最终的识别结果。

图1 本文方法流程Fig. 1 Flow chart of the proposed method

2.1 近红外图像和彩色可见光图像的融合

可见光图像通常表示为三种颜色通道的组合：红色、绿色和蓝色，而近红外(NIR)图像则为灰度的强度图像。与彩色图像相比，NIR图像既拥有彩色图像的鲁棒性特点又有着比彩色图像更好的灰度对比度信息，因此用近红外图像替换可见光图像中表示亮度的通道便可以得到信息更加丰富的彩色图像。该方法借鉴了图像伪彩色处理的原理，并应用在自然场景稀疏识别上。

为了能够提取更多有用的场景特征，本文选用HSV颜色空间进行图像融合。算法首先将可见光图像映射到HSV空间：

(3)

(4)

V⟸max

(5)

其中：min和max分别表示取R、G、B中的最小值和最大值。

然后将表示图像明亮程度的通道(V)替换为NIR图像：

V⟸NIR

(6)

最后将得到的HSV图像按照原映射的逆变换还原到RGB空间，便得到融合了近红外信息的彩色图像。

图2为将RGB-NIR数据库中部分图片使用HSV颜色空间变换融合的效果图示。观察图2中相同场景的NIR和RGB图像，不难发现NIR图像有着比可见光图像增强的局部和云对比度、更明亮的植被、更黑暗的水等，而融合后的彩色图与近红外图像相比更清晰，与可见光图像相比具有更大的对比度。

图2 基于HSV颜色空间变换融合的近红外和可见光图像Fig. 2 Fused images of NIR and visible based on HSV color spatial transform

2.2 全局特征和局部特征的融合

特征融合是指将两个或多个特征向量按照某种规则组合成新的特征向量。为了能够很好地表征融合后的彩色场景图像，本文采用全局GiST特征[17]和局部PHOG特征[18]的融合方法。GiST特征模拟人的视觉提取图像中简明扼要的上下文信息，能够很好地获取场景类别的空间结构特性，但对场景图像的细节丢失较为严重，而PHOG特征提取的是场景图像的局部轮廓特征，能够很好地表达出场景图像的局部细节。将GiST特征和PHOG特征进行融合可以更加有效地表示出场景图像。虽然之前已经有学者提出过GiST特征和PHOG特征融合的方法，但都只是使用了简单的SVM分类器，在场景分类时没有很好地解决局部最优解的问题，所以本文将结合特征融合与本文提出的类字典稀疏分类器验证其在场景识别中的有效性。

GiST特征提取算法主要是使用Gabor滤波器组对图像进行滤波后通过稀疏网格的划分提取的场景图像的全局特征，步骤如下：

1)假设有灰度图像f(x,y)，大小为H×W，将其进行L×L的规则网格划分，则每个网格的大小为h×w，其中h=H/L，w=W/L。

2)建立m个方向、n个尺度的Gabor滤波器，并使用这些Gabor滤波器对每个网格内图像进行卷积滤波，将每个网格内的特征进行级联，得到网格内图像的GiST特征，即：

(7)

其中：cat为将各个特征级联的符号；gmn(x,y)为Gabor滤波器组，m为方向数，n为尺度数;“*”为进行卷积运算。

3)取每个网格内计算出的特征值的均值作为一个特征，将所有网格内的特征进行级联，便得到整个场景图像的GiST特征，维度为L×L×nc。

与大部分GiST特征提取的维度不同，本文从R、G、B三个通道分别将场景图像划分为4×4的网格，用8个方向、4个尺度的Gabor滤波器组进行处理，最终得到整幅图像的GiST特征维数为3×4×4×32 =1 536维。

PHOG特征提取算法是使用空间四叉树模型将场景图像分解形成多分辨率表示，然后按照低分辨率到高分辨率的顺序将多级的方向梯度直方图级联，步骤可描述如下：

1)使用Canny算子边界检测方法对场景图像的边缘信息进行统计；

2)将场景图像按照空间四叉树模型进行分层分块的表示，并提取每一层上所有子区域的HOG特征；

3)将每一层上的所有子区域上的HOG特征进行级联，进行归一化处理即可得到PHOG特征。

本文将场景图像分为4层，其中第0层表示整个场景图像，接下来每一层都按照空间四叉树模型将整个图像依次均分为4、16、64个子区域。最终得到的整幅图像的PHOG特征维数为(1+4+16+64)×8=680维。

在融合方法上，本文采用特征的串行融合方式。假设分别存在于特征空间Ω、Ζ的两个特征向量α和β，其中α∈Ω，β∈Ζ，串行融合的方法就是将α和β串联形成新的特征向量γ：

(8)

式中,k、l分别表示特征向量α和β的权值系数。为了充分体现GiST与PHOG在特征提取方面的互补性，本文采取与文献[6]相同的实验设置，采用均值加权的方式进行特征融合，即k=1、l=1。若α代表n维特征向量，β代表m维特征向量，此时新的特征向量γ为m+n维向量，即1 536+680=2 216维。

2.3 基于正则化K-SVD的类字典稀疏识别

在获得上述特征融合的特征矩阵后，需要解决稀疏识别样本数量不足的问题，为此本文提出了一种基于正则化的K-SVD算法的类字典稀疏识别方法。一般的字典学习的问题可以描述为：

(9)

s. t. ‖xl‖0≤s，l=1,2,…,N

‖dj‖2=1，j=1,2,…,n

其中:D为字典，dj为D的第j个原子;xl是X的第l行;s为稀疏表示系数中非0分量数量的上限。式(9)的计算过程是一个不断迭代的过程，首先固定字典D使用稀疏向量求解方法求解D上Y的稀疏表示A，然后根据A得到更优化的字典D，直到满足停止的迭代的条件时优化结束。

但如上所述，这种字典学习算法在优化时稀疏系数和对应字典码字不同时更新，这就有可能造成奇点的出现。为了可以同时更新所有的码字和所有的稀疏系数，Dai等[19]提出了一种正则化的字典学习算法，其优化目标函数为：

(10)

其中μ>0且μ是已知量。

这种算法虽然达到了稀疏系数和对应字典码字同时更新的要求，但依然没有很好地解决稀疏识别训练样本较少的问题，所以本文结合文献[20]提出的类字典稀疏识别方法与文献[21]提出的正则化K-SVD算法，提出一种基于正则化的K-SVD算法的类字典稀疏识别方法。首先假设D中除dj的其他原子都被固定，定义Ij为系数表达中用到dj的信号的维度，则信号的表示误差为：

(11)

从而可以推导出此时的优化函数为：

(12)

其中t=‖x‖。当t=σ1/(1+μ)时有最小值。

与典型的字典学习算法相同的是，正则化K-SVD算法也需要经过一系列的迭代优化得到学习的字典；与之不同的是，本文将正则化K-SVD算法与类字典稀疏识别方法相结合，也就是说通过上述步骤得到的字典并不会直接作为最终稀疏识别时的字典，而是将其作为类字典组合在一起成为一个全局字典后再进行稀疏分类。基于正则化K-SVD的类字典学习算法如算法1所示。

算法1 基于正则化K-SVD的类字典学习。

输入初始化字典D,信号样本集A=[A1,A2,…,Ai,…,Ac],迭代次数K;

fori=1 tocdo

//字典学习

fork=1 toKdo

//稀疏编码

固定D，使用正交匹配追踪(Orthogonal Matching Pursuit,

OMP)算法求解稀疏表示X

//字典更新

forj=1 tondo

根据Ij中使用到dj原子表示的信号的索引计算σ1、u1、ν1

设置新原子dj=u1以及新的稀疏表达式为Xj,Ij=

σ1ν1/(1+μ)

end for

(13)

与全局字典识别的方法相比，类字典识别方法有着很好的类内相关性，而与局部字典识别的方法相比，它又有着很好的类间差异性，因此该算法既可以有效地克服样本数量少的缺陷，又可以提高场景识别的效率。

3 实验结果与分析

本文采用RGB-NIR 场景数据库[12]，共有9类场景的近红外与彩色图像对，分别为country、field、forest、indoor、mountain、oldbuilding、street、urban、water，总计有477个图像对。仿照文献[12]的实验设置，实验每类别选取11张图像用作测试，其余图像用于训练。为了验证本文方法的有效性，将进行4组实验。

实验1 为了验证近红外图像在场景识别中的有效性，本文首先将原始图像和采用一些主流融合方法融合后的图像进行了对比，结果如图3所示。

图3(a)、3(b)分别为原始近红外图像和可见光图像，图3(c)、3(d)、3(e)、3(f)分别为采用平均加权融合法、主成分分析法(Principal Components Analysis, PCA)、HSV颜色替换法、YCbCr颜色替换法得到的图像。从图3中可以看出，虽然图像融合后颜色上有一定的失真，但图像的分辨率和对比度都得到了很大的提高。如图3中图像2显示的山峰，融合后的图像颜色更加突出，景物表现更加丰富，云层的对比度也更加明显。

图3 不同方法图像融合结果Fig. 3 Image fusion results by different methods

实验2 在从视觉效果上看出近红外图像和可见光图像融合的效果后，还需要从客观指标上验证融合图像的优势。所以，在其他实验设置都相同的情况下，将未融合的图像与融合的图像分别进行特征提取与融合、类字典稀疏识别等步骤得到各种识别结果，实验结果如表1所示。

表1 不同图像的分类准确率对比Tab.1 Classification accuracy comparison of different images

从表1中可以发现，当只使用可见光图像进行分类时，平均分类精度可以达到63.64%，但只使用将近红外图像进行分类却只能达到27.27%，这说明可见光图像中含有的场景信息比近红外图像中含有的场景信息要多得多。但是将近红外图像和彩色可见光图像融合之后，识别准确度最高达到了74.75%，明显比单一传感器下的场景识别效果更优秀，这说明图像融合之后场景信息增加了，场景的可辨识度得到了一定的提高，从而证明了融合近红外图像场景识别中确实是有效的。另外从实验结果最后一行来看，使用HSV颜色替换的融合方法达到了最高的识别精度，相比简单加权平均的方法提高了5.05个百分点，比热门的PCA融合的方法也提高了7.07个百分点，证明在进行近红外图像融合进行场景识别时，采用HSV颜色替换的融合方法更加有效。

实验3 由于实验2中进行场景分类时用到了特征融合以及基于正则化K-SVD算法的类字典稀疏场景识别，所以本文又设计了实验3和实验4来分别验证这两种方法的性能。首先，实验3是为了验证融合GiST和PHOG特征在本文方法中的有效性。对使用了HSV方法融合后的彩色图像分别提取GiST和PHOG这两种特征(具体的特征提取过程见2.2节)，然后对这两种特征进行类字典稀疏识别，单独使用GiST特征、单独使用PHOG特征进行分类和融合两种特征(GiST+PHOG)进行分类的分类准确率分别为67.12%、45.23%、74.75%。上述结果为所有类别的平均分类准确率，通过该结果可以看出，其他参数相同时，融合两种特征进行分类分别比单独使用GiST特征或是PHOG特征进行分类的效果分别提高了7.63个百分点和29.52个百分点，这表明这两种特征的融合能够获得更多的场景信息，在自然场景识别中是非常有效的。

实验4 为了验证本文提出的基于正则化K-SVD算法的类字典在稀疏场景识别中的有效性，实验4中将本文的基于正则化K-SVD算法的类字典和一些常见的字典学习(Dictionary Learning, DL)方法进行了比较，实验结果如表2所示。

表2 不同DL方法的分类准确率对比Tab. 2 Classification accuracy comparison of different DL methods

从表2中可以看出，当使用经典的K-SVD算法进行字典学习时，局部字典的使用识别精度最高，这是因为在使用K-SVD算法时，往往要求生成的字典是过完备字典，即需要输入的样本量够大，而本文实验采取的数据库样本量较少，因此在使用K-SVD算法进行字典学习时，使用局部字典可以达到更高的识别精度；但是当使用正则化K-SVD算法时，本文使用的类字典学习方法便显示出了其优越性，识别精度也达到了最高，相比简单的全局字典、局部字典的方法，本文方法的识别精度分别提高了36.37个百分点和 6.75个百分点，比局部字典与经典K-SVD算法的结合也提高了9.09个百分点。

4 结语

基于图像融合的原理，本文从实用角度出发，提出一种彩色可见光和近红外图像融合的场景类字典稀疏识别方法。该方法将可见光图像和近红外图像进行HSV融合，提取融合图像的GiST全局特征和PHOG局部特征，结合类字典稀疏识别得到场景分类结果。与现有使用多特征提取符分类的方法相比，所提方法利用了近红外图像中的有效信息，为场景识别提供了更多的依据。通过在RGB-NIR数据库上的实验结果表明，将两种不同传感器获得的图像进行融合后的场景识别准确率明显高于单一传感器下的场景识别准确率。