当前位置:首页 期刊杂志

自适应模型的视觉跟踪算法*

时间:2024-05-04

朱洪波

(厦门弘搏科技有限公司 厦门 362000)

1 引言

视觉跟踪在视频监控、自动驾驶、车辆导航和人机交互等领域有着广泛的应用。但由于固有因素(如规模变化和变形)和外部因素(如光照变化、遮挡)。目标跟踪方法可分为判别[5~9]或生成法[1~4]。其中生成方法学习可以通过提取的特征表示的外观模型,然后制定跟踪任务,如搜索与定义为目标的模型最相关的目标图像区域。常见生成模型包括增量跟踪器(IVT)[1]、跟踪器[2]、多任务跟踪器(MTT)[3]、稀疏表示[4]等。判别方法可以看作是二进制分类问题,通常可以称为逐导检测方法,其中一种是目标对象,另一个是周围的背景。这些方法的主要任务是通过学习分类器来确定当前帧位置上的目标,从而区分目标和不断变化的背景。一般判别模型已被提出包括多实例学习(MIL)[5]、支持向量跟踪[6]、P-N学习[7]、压缩传感[8],所有相关过滤器为基础跟踪器。生成模型具有更全面的能力来描述目标对象的特征,但缺点是没有考虑到目标对象周围的背景信息。考虑到目标和背景信息的判别模型具有很高的判别能力,可以区分目标和复杂的背景,很容易导致过度拟合现象[10]。

目前,传统的视觉跟踪算法可以简单地分为两种方法,包括基于相关滤波器(CF)[13~20,27~29]和基于深度学习的[21~23,33~37]方法。这两种方法都可以从不同的方面提高算法的性能。基于深度学习的跟踪方法通常采用从卷积神经网络(CNN)中提取的预先训练的深高维特征来表示特征。虽然实现了理想的跟踪结果,但在特征提取过程中增加了大量的计算复杂性,将严重影响实时性能。在跟踪过程中,跟踪模型的更新过程对于确定跟踪是否准确至关重要。目前大多对跟踪模型进行了从一个帧到下一个帧更新。这种更新方法存在缺点。当目标遇到显著的外观变化,如照明变化、遮挡、超出视图,将产生错误的跟踪信息。这些信息将被传递到下一帧,积累很长时间后,将增加跟踪漂流的风险,最终会导致跟踪失败。

本文针对上述问题研究如何设计一个稳健的策略来更新模型,以进一步提高模型的质量。以前帧中的正确跟踪信息可以及时传递到下一个帧,并且当目标对象经历复杂的情况(如遮挡和照明变化)时,可以正确地更新模型,从而使模型保持随后的视频序列在一定程度上被恶化。

2 基于相关滤波器的跟踪算法

2.1 基于判别相关滤波器的框架

首先介绍了关于本文算法中使用的上下文感知相关滤波器框架的先验知识,然后介绍了有关尺度相关滤波器如何集成到本文的算法。最常见的基于识别性相关的跟踪器总是倾向于忽略周围的上下文信息。然而,目标位置周围的上下文区域在跟踪性能方面发挥着重要作用。文献[18]提出了基于判别相关滤波器的上下文感知框架,将全局上下文信息集成到学习滤波器中。目标是训练一个对目标图像补丁有较高响应和对上下文区域的响应接近于零的滤波器。在CACF框架中,主要目标是训练最佳相关滤波器w,对于所有训练样本DO(DO包含由循环移位运算符和理想的回归目标y生成的矢量化图像补丁dO的所有循环转换)(y是二维高斯的矢量化图像),如式(1):

根据傅里叶域中循环矩阵性质,本文将训练一个滤波器w,它对目标图像补丁具有较高的置信度响应,对上下文补丁具有接近零的置信度响应。通过在标准配方中添加上下文补丁作为正则化术语如式(2):

由于目标图像补丁包含许多上下文图像信息,并形成了一个新的数据矩阵B∈R(k+1)n×n,主目标函数(2)可以重写如下:

其中B=and=,yˉ∈R(k+1)n∈R(k+1)n表示

新的理想回归目标。由于目标函数是凸函数,可以通过派生操作将其最小化,如下所示:

2.2 尺度判别相关滤波器

在跟踪过程中,参考文献[15]提出了一种基于判别相关滤波器的精确尺度估计方法。通过训练一个尺度判别相关滤波器的规模金字塔表示,然后估计规模从最好的置信度框架。以用于比例估计的目标为中心的图像补丁大小为

其中P和R分别表示当前帧中的宽度和高度,表示比例因子,s表示比例滤波器的大小。目标是通过最小化以下目标函数来获得最佳的尺度相关滤波器h:

其中g表示理想的相关输出,l表示特征的维度,是一个正则系数。上述频域中的解决方案是通过以下方式给出的:

为了获得准确的结果,H1中的分母分别更新如下:

η是一个学习速率参数。在下一帧中通过以下公式求解比例滤波器的响应:

3 本文提出跟踪模型

3.1 多特征自适应融合策略

视觉特征表示是视觉跟踪框架的重要组成部分。本文主要集中在手工制作的功能。常见的手工制作功能包括HOG功能和CN功能,两个都有自己的优点和缺点。HOG功能被广泛用于大多数现有的跟踪器和对象检测。通过计算和完成图像贴片单元空间网格中梯度方向的统计直方图来生成特征,使其与几何变形和光学变形保持了优越的不变性。CN特征[27]描述符利用PCA技术进行降维。局部强度(HOI)[17]的直方图是HOG特征的补充,通过计算局部强度的直方图,使其对遮挡和运动模糊等剧烈的外观变化更加稳健。为了实现卓越的特征表示,并补充了各自的优势。本文考虑将上述分析的HOG、CN和HOI的两个特征结合起来。本文首先在CACF框架的基础上,分别计算HOG和CN分别与HOI集成所产生的相应的最大响应分数。每个要素的权重根据相应响应分数的比例进行分配。因此,下一帧中的视频序列将被优先用于选择权重较高的要素。在t-th框架中分别与HOI集成的HOG和CN特征的归一化权重为

HOI表示像素强度直方图特征,fHOG+HOI表示与像素强度直方图特征集成的HOG特征的相应输出响应分数,,fHOG+HOI表示CN特征与像素强度直方图特征集成的相应输出响应分数。t+1-th框架中的权重wt+1用于更新以前的要素权重wˉt:

本文根据响应分数的比例为所有要素分配权重。最终响应是由HOG和CN功能分别与HOI集成而生成的,响应分数Rt如下所示:

3.2 本文算法的自适应模型更新方法

本文将响应图的PSR及其响应图作为跟踪质量评估的高峰。表达式方程是通过以下方式给出的:

该模型可以根据每个不同视频序列的最大响应分数自适应地判断结果。只有当满足特定条件时,PSR大于其最大响应峰值分数Rmax(x),转换滤波器模型。在当前帧中,跟踪结果是准确的。它有效地防止了不正确的更新信息被传输到后续帧,从而导致跟踪漂移,从而创建了一种自适应的方式来更新比例模型和翻译模型。该算法的总体流程如下所示。

初始化:确定第一帧要跟踪目标状态,设定更新阈值T为0.43

fort=1 toT(T为视频总帧数)

ift>1

1)位置估计:

Step1:根据目标的状态,采样图像块,分别采用HOG和CN特征表达;

Step2:(H O G+H O I)W t、(CN+HOI)W t分别对HOG、CN特征表达的图像块进行相关滤波,求出响应图

Step3:根据式(15)计算融合响应图,估计当前帧的位置;

2)尺度估计:

Step4:根据式(16)求得最大尺度相关滤波得分,估计当前帧的尺度,并使用式(13)、(14)更新;

end

3)if max(Rt)>T

Step5:根据目标状态,训练和更新HOG和CN特征的滤波器模型(w t,x t)、尺度滤波模型(At,Bt);

Step6:根据式(13)(14)更新HOG和CN特征的融合权重;

end

end

4 实验结果

本文采用OTB基准数据集评估,并与目前主流的跟踪方法包括SRDCF[16],LMCF[19],C-COT_HOG[39],LCT[17],KCF[14],CSK[13],SAMF[28],DSST[15],STAPLE_CA[18],DCF[18],SAMF_CA[18],MOSSE_CA[18]、CNSVM[41],数据集中的所有这些视频都由包含不同挑战性场景的11个属性进行注释:照明变化(IV)、比例变化(SV)、遮挡(OCC)、变形(DEF)、运动模糊(MB)、快速运动(FM)、平面旋转(IPR)、超视点(OV)、背景离合器(BC)和低分辨率(LR)。图1表明本文算法在几个属性挑战中具有较好的距离精度和重叠成功率,并表明该方法在光照变化属性(80.7、55.5)方面达到了优越的DP和OS,平面内旋转(82.4,54.4%)、平面外旋转(82.4,54.7%)、刻度变化(82%,50.3%)。结果表明本文更新方法和多重特征的融合策略大幅度提高跟踪精度。

图1 部分不同状态的跟踪结果(平面旋转,平面外旋转,规模变化)

5 结语

本文提出了一种基于判别相关滤波器的精确模型自适应更新方法。利用判别相关滤波器生成的响应峰值分数作为动态阈值,并与各帧响应图的峰值侧瓣比进行了比较,然后将比较结果作为实现平移滤波模型和尺度滤波器模型更新的差异化条件,实现自适应更新方法。为了实现较好的特征表示,提出了响应层中的HOG、CN和HOI等多种手工制作特征的自适应融合策略。实验结果表明,该跟踪器与最先进的基于滤波器的判别相关跟踪器相比效果良好,在遮挡、尺度变化、变形、快速等复杂情况下表现良好的跟踪效果。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!