当前位置:首页 期刊杂志

基于鲁棒主成分分析的多聚焦图像融合

时间:2024-05-04

王书朋,蒋 艺

(西安科技大学 通信与信息工程学院,陕西 西安 710054)

0 引 言

由于成像设备受光学镜头景深的限制,只能对聚焦区域内的物体产生清晰的图像,而聚焦区域以外的物体在图像中都是模糊的[1]。为了克服物理设备的限制,多聚焦图像融合技术将来自同一场景的两幅或多幅聚焦区域不同的图像进行融合生成单幅全聚焦图像,使同一场景下的所有目标都清晰地呈现出来,从而便于人们后期对图像进行分析和处理。然而现有的多聚焦图像融合算法通常难以准确地区分聚焦区域和非聚焦区域,导致融合图像中聚焦区域的边界处有伪影的现象。针对该问题,该文拟提出一种新的多聚焦图像融合方法。

现有的多聚焦图像融合方法可以分为三类:基于空间域的方法、基于变换域的方法和基于深度学习的方法。基于空间域的方法[2-3]主要是依据某种清晰度指标,直接从源图像中选择清晰的部分组合成融合图像,但这类方法容易受到噪声的影响,融合结果中通常存在块效应问题[4]。基于变换域的方法是通过某种变换将图像分解成不同频带的系数,然后选取不同的融合规则得到融合系数,最后通过逆变换生成融合图像。如基于多尺度变换的方法[5-6]、基于稀疏表示的方法[7]等。这类方法比基于空间域的方法能更好地提取图像的边缘和轮廓等特征,但图像分解过程中会缺失部分高频分量的信息,融合结果中易产生振铃效应[8]。近年来,机器学习及深度学习理论不断发展[9-10]。Liu等人[11]将CNN引入到多聚焦图像融合中,通过训练CNN模型直接生成焦点图,克服了手动设计聚焦区域检测方法的难题。多聚焦图像融合的关键是准确区分源图像中的聚焦区域和非聚焦区域。鲁棒主成分分析(robust principal component analysis,RPCA)是一种新的聚焦点检测算法,该算法可以将图像分解成代表背景的低秩分量和代表图像显著性特征的稀疏分量。杨明伟等人[12]用RPCA分解源图像得到稀疏分量,然后对稀疏分量进行三方向一致性和区域生长法处理。Zhang等人[13]用引导滤波器对稀疏分量进行处理得到增强图像,用增强图像与源图像之前的差值图像提取背景区域,从而确定聚焦区域的位置。尽管这类方法可以避免振铃效应,提高了融合决策图的准确性,但基于像素值取大和空间频率的融合规则没有得到最优的聚焦区域检测结果,融合图像中有严重的块效应,且聚焦区域的边界有晕影的现象。

为解决上述问题,该文提出了一种基于RPCA的多聚焦图像融合方法。该方法首先通过RPCA将源图像分解为低秩和稀疏分量。针对低秩分量,利用CNN构建权重图,可以较好地区分聚焦区域和非聚焦区域。对于稀疏分量,采用基于拉普拉斯能量和的方法构建稀疏分量的融合决策图,然后用引导滤波器优化决策图,使决策图的边缘与源图像保持一致,避免伪轮廓。从主观和客观两个方面将所提算法与其他七种经典算法进行比较。实验结果表明,所提方法可以准确区分聚焦区域和非聚焦区域,融合图像中聚焦区域的边界清晰且不会引入伪影。

1 鲁棒主成分分析

为了解决主成分分析(PCA)鲁棒性不佳的问题,Wright等人[14]提出了鲁棒主成分分析(RPCA)理论,它的基本思想是数据矩阵在最优化准则下可以表示为一个低秩矩阵和一个系数矩阵的和。假设有一个输入矩阵I∈NH×W,那么该矩阵可以分解为:

I=L+S

(1)

其中,L是低秩矩阵,S是稀疏矩阵,输入矩阵I的大小为H×W。

与其他稀疏表示方法类似,RPCA采用核规范作为近似稀疏约束:

(2)

其中,rank(•)是矩阵的秩,‖•‖0是0范数矩阵,λ是加权参数且λ>0。

在一般情况下,这种分解是NP难问题。由于一个矩阵的秩与它的非零奇异值的个数相等,可以用矩阵的核范数近似代替矩阵的秩,用0范数等价为1范数,则稀疏矩阵可以转化为以下凸优化问题:

(3)

图1 多聚焦图像的RPCA分解

2 所提算法

为了准确地检测源图像中的聚焦区域,提出了基于RPCA的多聚焦图像融合方法。该方法的框图如图2所示。

图2 算法框图

首先,输入两幅聚焦区域不同的源图像IA和IB,用RPCA对这两幅源图像进行分解,得到低秩分量LA、LB和稀疏分量SA、SB。然后,针对低频分量包含源图像整体结构和细节的特性,采用基于CNN的融合规则构建决策图。针对稀疏分量包含聚焦区域的边缘和纹理特性,采取基于引导滤波[15]改进的拉普拉斯能量和(SML)的融合规则。最后,将融合后的低秩分量FL和稀疏分量FS重构得到融合图像F,即F(i,j)=FL(i,j)+FS(i,j),(i,j)为像素点的位置。

2.1 融合低秩分量

低秩图像包含源图像大部分的结构和能量,一般的融合规则很难准确地区分聚焦区域和非聚焦区域的边界。实际上,在多聚焦图像融合过程中,决策图的生成可以看成二分类问题,CNN对解决这类问题是有效的[11]。因此通过图3中的CNN模型对低秩分量进行特征提取和分类,将低秩图像利用滑窗技术分成大小为16×16的图像块,卷积层和池化层用于特征提取,全连接层用于分类。然后判断两幅低秩图像相同位置处的图像块哪个是清晰的,哪个是模糊的。最终得到低秩分量的融合决策图。

图3 CNN模型

为了降低网络训练的复杂度,文中的CNN模型为暹罗网络[16],使两个分支获得相同的权重,每个分支包含了三个卷积层和一个最大池化层[11],第三个卷积层的输出特征图可以表征不同源图像聚焦区域的特征。如果输入图像块过大,可能同时包含聚焦区域和非聚焦区域,会导致聚焦边界的误判。当图像块过小时,图像中包含的特征信息过少,可能会降低图像分类的准确性,所以该文将训练的图像块大小设为16×16。卷积核的大小及步长分别为3×3和1,池化层的池化因子和跨度分别为2×2和2,将每个分支得到的256个特征级联后与256维特征向量全连接,最后再与2维特征向量全连接。经Softmax层分类后,输出值的大小即为这一对输入图像块的聚焦属性。

基于CNN的低秩分量融合规则步骤如下:首先将两幅RPCA分解得到的低秩图像LA和LB输入到训练好的CNN模型中进行焦点检测得到得分图Smap,Smap中的每个系数表示来自两个低秩图像相同位置处的一对图像块的聚焦特性。当Smap∝1时,说明LA聚焦,LB散焦;当Smap∝0时,说明LA散焦,LB聚焦。

然后对得分图进行阈值分割得到初始的二值图像:

(4)

(5)

最后,利用所获得的决策图融合低秩图像,得到低秩融合图像FL。

FL(i,j)=DL(i,j)LA(i,j)+

(1-DL(i,j))LB(i,j)

(6)

流程如图4所示。

图4 基于CNN的低秩图像融合

2.2 融合稀疏分量

传统的图像清晰度检测的方法有方差、空间频率和SML等,文献[17]从主观和客观评价两个方面证明,SML比其他清晰度检测的方法具有更好的性能。所以该文对稀疏分量采用基于SML的融合规则。

首先分别计算稀疏分量SA和SB的SML值,得到SMLA和SMLB。像素点(i,j)处的SML值可通过如下公式计算:

(7)

其中,局部窗口的大小为m×n,文中m=n=3。拉普拉斯算子ML定义为:

(8)

其中,I(i,j)是像素点(i,j)处的像素值。

然后根据如下公式得到稀疏分量的初始融合决策图G:

(9)

然而,初始决策图中部分像素会出现不连贯的现象,因此需要对初始决策图进行优化处理。引导滤波[7]是一种边缘保持滤波器,具有较好的保留边缘和去除噪声的能力。该文用引导滤波器对决策图G进行平滑滤波,提高决策图的空间一致性,公式如下:

DS=Guidedfilter(I,G,R,eps)

(10)

其中,DS是通过引导滤波器处理后的稀疏分量决策图,I是引导图像。为了使决策图的边缘与源图像保持一致,该文用两幅源图像的均值作为引导图像,即I=(IA+IB)/2。R表示引导滤波器的半径,R值越大,平滑效果越好,但边缘保持能力下降。eps表示正则化参数,eps值越大,滤波效果越明显。该文将R设为7,eps设为0.01。

最后,通过下式可得融合后的稀疏分量FS:

FS(i,j)=DS(i,j)SA(i,j)+

(1-DS(i,j))SB(i,j)

(11)

3 实验结果及分析

为了验证所提算法的有效性,从主观视觉感知和客观评价指标两个方面将文中方法与七种方法进行比较,包括基于非下采样轮廓波变换的方法[5](NSCT)、基于NSCT与SR相结合的方法[7](NSCT-SR)、基于引导滤波的方法[18](GF)、基于密度尺度不变特征变换的方法[3](DSIFT)、基于稀疏分解和背景检测的方法[13](RPCA)、基于脉冲耦合神经网络的方法[10](PCNN)、基于卷积神经网络的方法[11](CNN)。实验选取了2种不同类型的灰度图像[18]进行对比分析。

CNN模型的训练样本是由ILSVRC 2012中的自然图像生成的。将每个源图像使用标准偏差为2,大小为7×7的高斯滤波器处理后,获得五种具有不同模糊程度的模糊图像。对于每类模糊图像和源图像,随机采样20对大小为16×16的图像块,总共获得100万对清晰和模糊的图像块。用Softmax损失函数作为网络的目标函数,用随机梯度下降法最小化损失函数。在训练过程中,批处理的大小设置为128。使用Xavier算法[14]初始化每个卷积层的权重,学习率为0.000 1。

3.1 主观分析

图5是“pepsi”图像及不同方法的融合结果。从图5(c)和(d)中可以看出,NSCT和NSCT-SR方法使融合图像丢失了部分边缘信息,可乐瓶左侧的轮廓模糊。GF方法的融合图像中桌子的底部细节保留不完整。DSIFT方法可以较好地提取源图像中大部分的细节。图5(g)显示,基于RPCA的方法错误提取了源图像中条形码的聚焦区域,融合图像的视觉效果最差。PCNN的融合图像有重影。图6是图5中方框区域的放大图。NSCT和NSCT-SR算法在图6(c)(d)中聚焦区域的伪轮廓是明显的。DSIFT和RPCA算法使字母的边界有一些扩展,且RPCA算法的空间连续性较差,PCNN的融合结果中字体严重模糊。CNN和文中方法不会引入伪影,融合结果具有较高的视觉质量。

图5 源图像“pepsi”及不同方法的融合结果

图6 图5中方框区域的放大图

图7是源图像“office”及不同方法的融合结果。NSCT和NSCT-SR方法在融合图像中的电脑区域引入了明显的伪影,DSIFT、RPCA和PCNN方法使闹钟边界处有不同程度的模糊,部分细节丢失并引入较多的人造纹理。CNN的融合结果中桌子边缘不清晰。图8是图7中方框区域的放大图。除所提算法以外,其余七种算法在人的头部都引入了伪边界,还有一些白色的伪影,人耳的轮廓模糊,图像视觉质量较差。文中方法的结果图对比度较高,人耳和头部细节保留完整,轮廓清晰,图像融合效果更好。

图7 源图像“office”及不同方法的融合结果

图8 图7中方框区域的放大图

3.2 客观评价

为了定量评估不同融合方法的性能,选择三种客观评价指标对实验结果进行评估:结构相似性[19](SSIM)、基于人类视觉感知的度量[20](QCB)、边缘梯度算子[21](QAB/F)。其中,SSIM根据图像的结构评估融合图像和源图像之间的相似性,SSIM值越大,融合结果与源图像的结构相似度越高。QCB是描述图像视觉特性的度量,QCB值越大,图像的对比度越高,视觉效果越好。QAB/F通过度量融合结果包含源图像的边缘信息量来评估融合性能,QAB/F值越大,融合图像中包含的边缘信息量越多。

表1列出了上述三种融合图像的客观评价结果。文中方法在QCB和QAB/F两种指标上都取得了最大值,说明基于文中方法的融合结果中包含充分的纹理细节信息。其中有两幅图像在指标SSIM上并未取得最大值,但是与最大值之间的差距较小,说明融合图像与源图像在结构上保持良好的一致性。这是因为利用RPCA对图像进行分解,增强了算法的鲁棒性。同时设计了基于卷积神经网络和SML的融合规则,提高了决策图的准确性,使融合图像更符合人类视觉感知。

表1 不同图像融合结果的客观指标

4 结束语

提出了一种基于RPCA分解的多聚焦图像融合方法。首先利用RPCA将源图像分解为低秩和稀疏分量。然后利用基于CNN的融合规则得到低秩分量的融合决策图,可以更好地提取图像的细节信息。对于稀疏分量,采用基于SML值取大的方法构建决策图,再用引导滤波器对决策图进行优化,提高了决策图的空间一致性。最后通过重构得到最终的融合图像。将所提方法与七种经典方法进行比较,从主观和客观的分析结果可以表明,所提方法能准确地提取聚焦区域,充分保留了源图像的细节信息,融合结果更自然。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!