时间:2024-05-04
班 颖,田 韵,邵泽军
(燕京理工学院建筑学院,廊坊 065201)
近年来,扩展的鲁棒主成分分析模型(robust principal component analysis, RPCA)[1]在 运动目标检测领域得到了较好的发展,其模型简单,求解高效。该模型将视频序列组成的矩阵分解为低秩静态背景、稀疏平滑前景和稀疏动态背景,并分别利用核范数和L1范数进行低秩和稀疏约束。
上述扩展的RPCA 存在如下不足:①核范数被定义为背景矩阵所有奇异值之和,没有考虑不同奇异值对秩函数的影响;②RPCA 模型将前景看作背景中存在的异常像素点,在复杂背景中前景检测精确度下降,而L1范数不能有效应对复杂背景对前景提取造成的干扰。
为解决问题①,Gu等[2]提出了加权核范数,考虑了不同奇异值对秩函数的影响,加强了背景的低秩性。为提高背景建模在复杂场景中的稳定性,加权Schatten-p 范数最小化模型被提出[3]。文献[4]基于t-product 提出了一种新的张量核范数,为准确恢复低秩和稀疏成分提供了保证。为解决问题②,并提高目标检测的准确率,高阶鲁棒主成分分析模型(Higher-order RPCA,HoRPCA)被提出[5]。在文献[6]中,3D全变分(3D Total Variation,3D-TV)被提出用来约束稀疏前景,有效抑制了由动态背景造成的噪声干扰。文献[7]利用超像素生成步骤和树结构稀疏性动态估计前景,有效去除了背景。
基于以上认识,为加强对实际背景的近似和应对复杂背景的变化,提出了一种结合加权核范数与3D 全变分的目标检测模型。该模型将视频序列组成的矩阵分解为低秩静态背景、稀疏平滑前景和稀疏动态背景,利用加权核范数对背景进行低秩约束,考虑了不同奇异值对秩函数的影响;为加强前景的时空连续性,利用3D-TV 对运动目标进行稀疏约束,有效抑制了动态背景的噪声干扰。
假设给定的视频序列I∈Rm×n×t,m和n分别表示视频的宽和高,t表示视频的帧数,将每帧图像向量化形成矩阵O。矩阵O可分解为
其中:B∈Rmn×t是静态背景,M∈Rmn×t为残差。
为应对现实生活场景的复杂多变,将残差M分解为稀疏前景F和动态背景E:
其中:F∈Rmn×t和E∈Rmn×t均具有较强的稀疏性。
由于静态背景具有较强的相关性,因此对背景B采用低秩约束。对前景F和动态背景E分别采用稀疏约束,具体模型如下[1]:
在RPCA模型中,核范数定义为背景矩阵的所有奇异值之和,没有考虑不同奇异值对秩函数的影响,因此对秩函数的近似程度不够,Gu等[2]提出了加权核范数,定义如下:
由于较大的奇异值对秩函数的影响大,因此施加较大的权重系数,对较小的奇异值施加小的权重系数。上述加权核范数考虑了不同奇异值对秩函数的影响,使其更加接近实际背景的秩。基于以上考虑,本文采用上述的加权核范数对背景进行低秩约束,进一步加强了背景的低秩性。
运动目标,一般是视频中的显著性运动对象,且在整个图像上的分布占比较小,因此前景目标具有稀疏性。另外,运动目标往往是占据一定比例的连续区域,因此具有时空连续性和光滑性,而视频背景中的雪花和摇晃的树叶等呈现不连续的噪声特征[2]。在数学上,3D 全变分[6]具有平滑信号的功能,可以有效抑制视频中不连续的噪声干扰。对于前景张量F(i,j,k) ∈Rm×n×t(i= 1,2,…,m;j= 1,2,…,n;k=1,2,…,t),利用3D 全变分来约束前景的稀疏性和时空连续性,如下[6]:
3D全变分通过将上述TVi,j,k相加得到:
为方便计算,引入沿水平方向、垂直方向以及时间方向的向量差分算子:
令Df=[(Dh f)T,(Dv f)T,(Dt f)T]表示三个向量差分算子的联级,则上述3D 全变分模型可改写为
从3D 全变分的定义看出,沿水平和垂直方向的差分算子说明3D 全变分考虑了运动目标在二维空间上的连续性;沿时间方向的差分算子说明其考虑了运动目标在时间上的连续性。另外,3D全变分能有效抑制动态背景造成的不连续噪声干扰,且考虑了运动目标在时空上的连续性,加强了模型在复杂背景中的稳定性,提高了目标检测的准确性。基于以上考虑,本文采用3D 全变分约束运动目标的稀疏性和时空连续性。
综上所述,本文提出了一种新的结合加权核范数和3D-TV 的目标检测模型,具体模型如下:
利用3D-TV 的变形公式(7),上述模型可转换成如下:
其中:γ1,γ2,γ3为权重系数。
引入辅助变量g求解上述模型,式(9)变形为
利用交替方向乘子法(alternating direction multiplier method,ADMM)[8]求解式(10),其增广拉格朗日函数为
其中:Y1,Y2,Y3是拉格朗日乘子,μ为参数。
进行变量分离,上述增广拉格朗日函数转化成几个子问题。
(1)固定变量Mk,Ek,Fk,gk,Y1k,Y2k,Y3k和μk,更新Bk+1:
问题的解为[2]
(2)固定变量Bk+1,Ek,Fk,gk,Yk1,Yk2,Yk3和μk,更新Mk+1:
该子问题可以通过软阈值算子求得[9]:
其 中:P=(O+Ek-Fk-Bk+1)/2 +(Y1k-Y2k)/2μk,Sa(b) = sgn(b)max( |b|-a,0)是软阈值算子。
(3)固定变量Bk+1,Mk+1,Fk,gk,Yk1,Yk2,Yk3和μk,更新Ek+1:
通过软阈值算子求得[9]:
其中:N=Mk+1-Fk+Yk2μk。
(4)固定变量Bk+1,Mk+1,Ek+1,gk,Y1k,Y2k,Y3k和μk,更新Fk+1:
其 中:G=vec[Y2k+μkMk+1-μkEk+1+DT(Y3k+μkgk)]。
通过3D 快速傅里叶变换(3D Fast Fourier Transform,3D FFT)[6]求解有:
其中:fftn和ifftn分别为快速3D傅里叶变换和逆变换。
(5)固定变量Bk+1,Mk+1,Ek+1,Fk+1,Y1k,Y2k,Y3k和μk,更新gk+1:
通过软阈值算子求得[9]:
(6)更新拉格朗日乘子Y1k,Y2k,Y3k和参数μ。
为了验证所提算法的效果,将本文算法与RPCA[10],IALM-RPCA[11],HoRPCA[5],KBRRPCA[12],TRPCA-TNN[4],以及KBR-L112[13]分别从主观和客观两个方面进行比较。所有实验的运行环境为Matlab 2014a,Inter Core i5-6500 处理器,8 GB 的内存,Win10 64 位操作系统。实验的测试数据均来自于CD.net数据库[14]。
为了在客观上准确评估本文算法的性能,采用Recall(查全率)、Precision(查准率)和综合评价指标F值(F-measure)作为提取运动前景的评价指标[15]。
在仿真实验中,本文主要选取了5类监控视频进行结果展示和分析,分别为:Bad Weather(a-b)、Camera Jitter(c-d)、Dynamic background(e-f)、Shadow(g-h)和Thermal(i-j),如图1 所示。
图1 前景目标时空连续性图
图2 前6 行分别给出了复杂天气、相机抖动和动态背景的视觉对比图。从图中看出,对于复 杂 天 气Blizzard 和Snowfall,IALM-RPCA 和HoRPCA 提取的目标受动态背景的干扰较大,提取的运动目标出现了较多的背景部分,RPCA和KBR-RPCA 提取的前景较为模糊空洞,TRPCA-TNN 和KBR-L112对目标的提取效果较好,但有部分的前景误判,本文算法提取的运动目标较为完整清晰,且对前景的误判较小,有效抑制了复杂天气对前景提取的干扰。对于相机抖动Boulevard 和Traffic,IALM-RPCA、HoRPCA和KBR-L112,虽然提取的前景目标较为完整,但同时由于相机抖动前景视觉图中提取了较多的背景线条,RPCA、KBR-RPCA和TRPCA-TNN 提取前景的精确度较低,前景目标中的空洞现象较大,且把部分背景误判为前景目标,本文算法提取的运动目标较为完整,对背景的干扰作用去除较好,且对前景的误判较小。对于动态背景Overpass 和Fall,RPCA、KBR-RPCA 和TRPCATNN 提取的前景目标只出现部分轮廓,运动目标不完整,IALM-RPCA 和HoRPCA 的视觉效果图中出现了大量的背景物体,KBR-L112和本文算法提取的前景较为完整,但由于湖水荡漾和树叶摆动,KBR-L112的前景视觉图中出现较多的噪点,而本文算法对前景的误判较小,有效抑制了动态背景的干扰作用。
图2 不同视频的视觉对比
图2 后4 行分别给出了阴影和热成像的视觉对比图。对于阴影图像Bungalows 和Copymach,IALM-RPCA 和HoRPCA 的视觉效果图中出现了较多的背景部分,前景背景的区分度较低,RPCA、KBR-RPCA、TRPCA-TNN 和KBR-L112提取的前景较为空洞,前景目标的提取精确度较低。本文算法提取目标的精确度较高,去除背景的效果较好。对于热成像图像Corridor 和Library,RPCA、KBR-RPCA 和TRPCA-TNN 提取前景的效果较差,HoRPCA 和KBR-L112的视觉效果图中出现较大的空洞现象,IALM-RPCA 和本文算法提取前景的精确度较好,但两者相比本文算法去除背景的效果更好。
图3 给出了视频Badminton 在4 个不同帧下的视觉对比图。从中看出,IALM-RPCA 和Ho-RPCA 提取的前景较为完整,但同时把背景误判为前景的错误率较高,RPCA、KBR-RPCA、TRPCA-TNN 和KBR-L112提取的运动目标空洞较多,同时含有较多的背景线条,本文算法提取的前景目标较为完整,且去除背景的准确率较高。
图3 不同算法下不同帧的视觉对比(Badminton)
综上所述,与其余6种算法对比,本文算法提取的前景较为完整,且有效去除背景,对前景的误判较低,整体获得最佳的检测效果。
将本文算法的Recall和Precision值分别在5类不同的监控视频上与其他6 种算法进行对比,其对比如图4所示。从图4可知,除IALM-RPCA外,本文算法的Recall和Precision值基本上高于其他算法,虽然本文算法的Recall和Precision低于IALM-RPCA,但综合评价指标F值远高于IALM-RPCA,说明本文算法有较好的前景查全率和查准率。
图4 Recall和Precision数值对比
由于Recall只能反映丢失运动目标内部信息的相关性,Precision只能反映丢失目标外部信息的相关性,且两者指标值有时会出现矛盾的情况,因此采用它们的调和平均值F值来综合判断提取效果更为准确。本文算法与其他6种算法的F值对比见表1,其中加粗为最优值,下划线为次优值。从表1 可以看出,本文算法的F值均处于最优或次优的情况,说明本文算法有较好的前景提取效果,对前景的误判较小。
表1 不同算法下的F值
表2 给 出 了 视 频Badminton 在955、965、975 和985 帧不同算法的F值。从表2 看出,所提算法在相同视频不同帧下的F值基本上处于最优的情况,说明所提算法能稳定地分离视频的前景与背景,且分离准确率较高。
表2 不同算法下不同视频帧的F值
本文提出了一种结合加权核范数与3D 全变分的目标检测模型。该模型以改进的RPCA为基础,将视频分解为低秩静态背景、稀疏平滑前景和稀疏动态背景。为加强背景的低秩性,利用加权核范数对背景进行低秩约束,考虑了不同奇异值对秩函数的影响,提高了背景的去除率;并利用3D-TV 对前景进行稀疏约束,加强了前景的时空连续性,提高了目标检测的准确率。从实验视觉对比图看出,所提算法提取的运动目标较为清晰完整,去除背景的准确率较高,能有效抑制复杂背景对目标检测的干扰作用。所提算法的综合评价指标F值均处于最优或次优,说明本文算法的目标检测准确率较高。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!