拟人视觉系统的显著性检测方法*

时间：2024-05-22

张文康，朱倩，陈潇君

(1.江苏大学附属医院信息科，江苏镇江212013；2.江苏大学计算机科学与通信工程学院，江苏镇江 212013)

拟人视觉系统的显著性检测方法*

张文康1，朱倩2，陈潇君2

(1.江苏大学附属医院信息科，江苏镇江212013；2.江苏大学计算机科学与通信工程学院，江苏镇江 212013)

从人眼的视觉机制出发，提出了一种拟人视觉系统的显著性检测方法。该方法首先对图像进行量化并选取出高频颜色，降低了计算的复杂度，然后对图像进行分割对比，初始的视觉点以图像的中心作为基准点，通过提出的视觉引力模型迭代计算出视觉点的移动轨迹，最终寻找到显著区域。在公开的数据集上的实验结果表明，本方法所寻找到的显著区域相对于其他方法能够更精确地对显著区域进行标注，更加符合实际应用。

显著性检测；拟人视觉；图像量化；视觉引力

0引言

显著性可以描述为场景中的某一元素相对于同场景其他元素更加能吸引人的注意力，是人类在视觉感知的过程中总结出来的，由于人的视觉共性，使得有些元素对于不同的人来讲吸引力是共同的，这些区域往往集中了最重要的信息，因此显著性检测在图像处理领域显得十分重要，主要的应用领域包括：图像的检索、数据压缩、目标识别、导航定位等。目前国内外学者对这一领域进行了广泛深入的研究，主要的研究方法有：ITTI L和KOCH C[1]提出跨尺度周边算子模型来进行显著区域的检测，主要原理是通过计算小尺度和大尺度特征差别来计算显著性。但是该方法计算过程复杂，并且精确性不高。HARBEL J[2]提出使用马尔科夫链计算中心周边概率，并用基于图论的概率模型得到显著图，此方法的提取精度有提升，但是计算仍然复杂。GAO D[3]通过最大值法提取中心和周边区域中特征分布的相互信息，提取的效果较好。

1 图像量化

图像的显著性计算需要对每个像素点进行计算，那么在计算时就有2563种颜色。颜色变化范围很小时人眼是无法准确区分的。如图1所示，每个通道的颜色小范围变化时，所得到的最终颜色图的差异是不大的。每个通道的颜色变化较大时，最终所得到的图的颜色可以观察到明显的变化。所以，在小范围减少图像中颜色数目，图像质量会下降，但是对最终图像的显示影响很小，所以可以将相似的颜色量化为相同的颜色。

图1 颜色变化对比图

定义如下：

其中Q(Ii)表示量化图像 Ii，RGB三通道每个通道的色值最终被映射为12等分。

对于每个像素 Ps，t∈Ii，其色值量化为：

量化后的像素库定义为：

经过量化后的RGB空间有1 728中颜色，也就是123，很显然自然图像的色彩只属于这1 728种颜色的一小部分，同时人眼也无法精确辨别这些颜色。所以就需要对图像进行筛选，为了不影响图片的质量，就要确保筛选出的色值能够覆盖大多数的像素点，对于少部分没有覆盖到的像素点可以用距离其最近的色值替代。

则图像集被定义为：

在本文约定选出的色值要能覆盖95%的像素点，也就是剩余的5%的像素点用相近的色值代替。则：

截断的范围定义如下：

Ni-k≥256表示像素累加到5%时，若此时能够合理表征图像的颜色个数还是超过 256，则 Mi取值为 256，避免了颜色的相似性。

根据式(9)、式(10)可把出现频率比较低的颜色用最相似的颜色代替。

经过量化后大大降低了颜色的数目，以图2为例，量化前颜色数目为58 921，量化后的颜色数目为100，这样就加快了图像处理的速度。

图2 图像量化对比图

量化后的数据集定义为：

2 颜色空间转换

将图像从RGB空间转换到XYZ空间，转换矩阵如下：

转化后得到像素带点在XYZ空间下每个通道的色值，接着再转换到 Lab颜色空间，经过一系列的颜色空间转换之后，颜色数据集定义为：

3 拟人视觉系统的显著性计算

使用GB分割算法对图像进行分割，得到每一个小的图像块，相同的图像块可认为是一个整体，则可认为一个图像块中的像素点具有相同的显著性。当两个图像块距离较远时，对人的视觉影响比较大，同理，较近时对人眼的视觉影响较小。则显著性计算公式如下：

其中，S(sk)代表图像块 sk的显著值，w(si)表示图像块 si对 sk的显著值影响，这里的影响值计为图像块 si的总像素数。Ds(sk，si)是图像块 sk和 si中心之间的欧式距离，表示空间权值，Dc(sk，si)表示图像块 sk和 si之间的颜色距离：

其中，f(ck，j)表示图像块sk中第 j种颜色出现的次数。

视觉角度来讲，人眼在观察图像的时候首先是会集中在图像的中心，然后再移动到显著性区域，所以本文提出一种拟人视觉系统的显著性计算方法，显著性计算公式改写如下：

其中，Ds(sk，VFn)表示图像块sk和视觉点VFn之间的距离。

分割后不同的图像块对人眼的吸引是不同的，人在观察图像时最先会被中心吸引，然后才会被显著性区域吸引，这种吸引称为视觉引力。视觉引力的大小与像素点的显著性和视觉点之间的距离有关，这里定义每个像素对视觉点的引力如下：

其中，S(pi)表示显著点 pi的显著性，D2(pi，VF)表示像素点pi到视觉点 VF的距离，γ为调节参数，本文设为 1。

则所有的像素点会形成一个合力，如下所示：

想要获得最终视觉点的位置，就需要计算初始的视觉点的位移偏量，由式(18)得出每个像素点在水平和垂直方向上的分力：

其中，px和py表示像素点在水平和垂直方向的坐标，VFx、VFy表示视觉点在水平和垂直方向的坐标。

这里参考力学模型，所以可以理解，视觉点在视觉引力的作用下，移动的规则与力学中的规则是一致的。

例如，如图3 F2的值比 F1的值大，但是他们的方向是相反的，因此视觉点就从L1移到L2。

图3 引力分解模型

所有像素点在水平和垂直方向上分力的合力为：

对像素点坐标与 FH、FV进行量化：

则可得最终视觉点的坐标：

则根据式(16)可得最终的视觉点。

算法流程如下：(1)输入图像，并分割得到其图像块集；(2)计算图像块集中每一个图像块的显著值；(3)计算每一个像素对上一个视觉点的引力；(4)计算引力在横坐标和纵坐标上的分力；(5)计算所有像素在横坐标和纵坐标上分力的合力；(6)计算出视觉点移动的距离；(7)计算出新视觉点的位置；(8)重复步骤(2～7)，直到两个视觉点的距离小于一个阈值，则可认为最终计算的视觉点为显著性区域。

4 实验与分析

采用achanta图像集，选用该图像集的好处就是每一张图像都对显著区域进行了标注，有利于确认算法最终结果的准确性。对其中的图像进行分类，选取200张显著区域在中心的图片，记为数据集A；选取200张显著区域不在中心的图片，记为数据集B。

评价指标选用准确率和召回率，并选用目前常用的区域对比显著性检测方法[4]和多尺度显著性检测方法[5]同时来处理图片，与本文方法进行对比。实验中分别检测数据集A和数据集B中的显著性区域，并与人工标准的结果进行对比计算，获得每一副图像的准确率和召回率。

使用实验集A去评估3种方法的显著性检测结果，并计算出准确率和召回率的平均值，绘制出直方图进行对比。

如图4所示，使用本文方法和区域对比法计算出的准确率和召回率要高于多尺度法，这是由于选取的数据集A中的图片显著性区域都位于图片的中心，使用本文算法和区域对比法方法进行视觉焦点加权时，显著性检测的效果会更好，使得图片中的显著性区域会被准确地检测出来。

图4 3种算法在实验集A上的对比

再使用实验集B来评估本文算法、区域对比法、多尺度法对于显著性区域的检测效果。

如图5所示，本文算法和多尺度法的准确率和召回率比区域对比法高，这是由于数据集B中的图片的显著区域没有位于图像的中心。区域对比方法的效果较差是因为加强了中心区域，也就是非显著性区域，而使用本文算法，由于是模拟人眼的视觉机制，可以正确找到视觉显著区域，所以在数据集B上使用本文算法方法可以更加准确地检测出显著性区域。

图6分别表示显著性区域在中心和不在中心的检测结果。可以看出，区域对比方法对显著区域不在中心的检测效果不理想，因为其会分割出不属于显著区域的部分并对其效果进行增强。多尺度法对于显著区域在中心的图片检测效果不理想，是因为其会导致周围的区域显著值过大，从而影响中心区域的显著值。

图5 3种算法在实验集B上的对比

图6 实际检测效果对比

5 结束语

本文从人眼视觉机制角度提出了拟人视觉系统的显著性检测方法，首先概述了目前常见的显著性检测的研究方法，然后详细阐述了本文所提算法的前提条件，也就是图像量化和颜色筛选。从人眼视觉机制出发，提出了视觉引力的概念，并给出了详细的计算方法，通过视觉引力计算出人眼对于图像中的视觉点，并最终获取到显著性区域。通过实验构建了两个不同类型的数据集，通过与其他常见算法的对比证明本文所提算法的准确性要高，并证明了算法的可行性。

[1]ITTI L，KOCH C，NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transaction on Pattern Analysis and Machined Intelligence，1998，20 (11)：1254-1259.

[2]HAREL J，KOCH C，PERONA P.Graph-based visual saliency[C].Advances in Neural Information Processing Systems，2006：545-552.

[3]GAO D，MAHADEVAN V，VASCONCELOS N.The discriminant center-surround hypothesis for bottom-up saliency[C].Advances in Neural Information Processing Systems，2007：497-504.

[4]敖欢欢.视觉显著性应用研究[D].合肥：中国科学技术大学，2013.

[5]李勇.多尺度特征检测：方法和应用研究[D].合肥：中国科学技术大学，2010.

The saliency detection based on mimic human visual systems

Zhang Wenkang1，Zhu Qian2，Chen Xiaojun2
(1.Department of Information，Affiliated Hospital of Jiangsu University，Zhenjiang 212013，China；2.Department of Computer Science and Telecommunication Engineering，Jiangsu University，Zhenjiang 212013，China)

This paper presents a saliency detection based on human visual systems.To begin with，it quantifies image and chooses high frequency color to reduce the complex of calculation.Then,it splits image and chooses the center point of image as the first visual point,iteratively calculates visual point according to visual attraction model，and acquires saliency area.The experimen results show that the method is more accurate than other methods to mark the salient and is very useful for practical application.

saliency detection；mimic human visual systems；image quantization；visual attraction

TP391

10.16157/j.issn.0258-7998.2016.11.033

张文康，朱倩，陈潇君.拟人视觉系统的显著性检测方法[J].电子技术应用，2016，42(11)：122-125.

英文引用格式：Zhang Wenkang，Zhu Qian，Chen Xiaojun.The saliency detection based on mimic human visual systems[J].Application of Electronic Technique，2016，42(11)：122-125.

2016-03-14)

张文康(1982-)，男，硕士，工程师，主要研究方向：图像识别。

朱倩(1979-)，女，硕士生导师，副教授，主要研究方向：模式识别、图像处理。

陈潇君(1981-)，男，博士研究生，主要研究方向：图像识别。

国家自然科学基金(61502206，61502208，41474095)