基于大数据内容标签的近似图像搜索算法研究

时间：2024-05-04

许金玲，孟庆福

（北京理工大学珠海学院会计与金融学院大数据研究中心，广东珠海　519000）

许金玲，孟庆福

（北京理工大学珠海学院会计与金融学院大数据研究中心，广东珠海519000）

摘要：准确计算图像多特征距离成为大数据时代影响基于图像的内容标签的一个关键问题，对基于内容的图像检索技术至关重要。在借鉴欧氏距离和高斯归一化两种方法的优势的基础上，对高斯归一化算法进行改进，提出一种基于特征距离纠偏的多特征距离计算算法。该算法首先采用欧氏距离法计算定量特征距离，然后利用改进高斯归一化法完成距离纠偏，最后通过自由设定权重得到最终的图像多特征距离。与传统高斯归一化算法进行比较，实验结果表明，利用该算法既能有效得到特征间的定量距离，又能方便地把多个特征的地位均衡，从而达到提高相似图像搜索质量的目标。

关键词：大数据；内容标签；图像检索；高斯归一；欧氏距离

0　引　言

随着互联网和多媒体技术的迅速发展，大数据［1⁃2］时代已经到来，多媒体信息资源呈指数增长，基于内容的标签体系应运而生。为了从大量的图像信息中快速、准确地找到需要的内容，传统的基本文本的图像检索已经远远不能满足人们的需求，基于内容的图像检索技术［3⁃5］引起了国内外众多学者的关注。图像内容实质上就是图像中所包含对象的特征（如颜色，形状）等，这些特征决定了图像的特性，也成为区别其他图像的关键因素。相似图像区分的越精确，基于内容的图像检索准确度也就越高。因此，如何精准区分相似图像，准确计算图像多特征距离成为影响图像检索质量的一个关键问题。

通过对多个特征进行聚类［6⁃7］分析，使用K⁃mean等类似的聚类算法可以得到相似特征集合，但不能得到定量特征距离成为使用该方法的制约因素；直接使用广义欧氏计算公式［8⁃10］ED（Euclidean Distance）进行多特征整合，虽然能定量得到特征的距离，但是，由于多个特征之间的地位不平等，需要进行大量的试验确定权重。使用高斯归一法GN（Gaussian Normalization）［11⁃13］计算多特征计算距离，是一种简单、高效的方法，但由于对特殊距离进行模糊处理导致了搜索的质量降低。

受到启发，整合欧氏距离和高斯归一化两种方法的优势，本文提出一种基于特征距离纠偏的图像多特征距离计算算法（C⁃GN），采用欧氏距离法计算定量特征距离，利用改进高斯归一化法完成距离纠偏，通过自由设定权重［14］得到最终的图像多特征距离。该算法既能有效定量得到特征间的距离，又能方便地把多个特征的地位均衡，从而达到提高相似图像搜索质量的目标。

1　现有算法简述

1.1高斯归一化算法

高斯归一法将特征距离归到0～1区间，进行最终归一处理的公式为：

式中，Ni为每一个特征归一化后的值。

该算法导致距离小于0的多个距离值都被归一为0，而大于1的就被处理成1，造成了计算结果的不准确。

1.2欧式计算法

欧氏计算公式实现了多特征整合，整合公式如下：

式中w是权重。优点是能定量得到特征的距离，但是，多个特征之间的地位不平等，需要进行大量的试验确定w。

2　本文提出的算法

2.1算法流程

该算法的基本思想是采用欧式距离计算公式对二类特征分别求取距离，采用改进的高斯归一化方法进行距离归一处理，然后对归一距离加权求和，最终输出距离数组。算法的基本流程如图1所示。

图1　计算相似距离流程图

图1中，待检测图像是需要比较的图像，需要计算出这张图像和库里的图像的距离，从而知道相似程度最接近的是哪些图像。首先需要对图像进行预处理，把图像规格成统一大小。经过预处理后开始提取图像的特征，在此，提取图像的颜色、形状二个特征。

对于该流程的实现重点，是在图1的第二个虚框中，在这个部分完成特征距离的计算、特征距离归一以及特征距离加权求和。

2.2计算特征距离数组

采用通用的欧氏距离计算式（2）对二类特征分别求取距离。

颜色特征数组，结果如下：

式中，n为特征库中特征图像的数量。

2.3改进的高斯归一化算法

改进的高斯归一化算法如下：

（1）计算均值Tave:

式中：n为特征的个数；Di为形状、颜色或者纹理的距离值。

（2）计算标准差：

式中：n为特征的个数；Tave为式（3）计算出的均值。

（3）归一：

式中：Ni为初步归一的距离值。

（4）计算得到偏离常数Contoff：

（5）对距离值进行正值化（纠偏）：

（6）使用广义欧氏计算式（2）进行多特征整合。

2.4设定权重求和

各个特征经过第2.3节的归一化后，特征的地位平等了，然后可以设定权重。较为重要的特征可以设定高的权值。这里的计算方法如下：

式中：Cj，Sj，Tj分别对应着特征距离数组的值。

针对该实施例子，这里仅有前两项，对于更多的特征，可以继续扩展，例如式（8）中的wi·Tj。

这样就得到了颜色和形状的加权距离和数组，可以推广到大于两个特征的情况，加权距离和数组如下：

式中，n为特征库中特征图像的数量。这里，权重的选择可以根据重要程度等原则进行取值。

3　实验分析与应用

本文对上述算法进行了实验，实验数据为某购物网站提供的10万条商品图像数据，该实验数据符合大数据的数据量大、搜索数据种类多、搜索内容类域交叉等多个特点。将这些数据按照图像相似度分成5大类，每类图像数量为2万张，将每两张图像分为一组进行对比，最后再将1万组图像的特征距离进行汇总后平均得到每类相似度图像的特征距离。分别采用高斯归一化GN算法、欧式距离ED算法和改进的C⁃GN算法进行计算，得到表1所示的计算结果。

表1　算法核心运算比较

计算结果表明，较传统的高斯归一化GN算法和欧式距离ED算法，改进的C⁃GN算法更能准确识别相似图像，图像搜索质量较高。将此算法应用在网络公开课程标签体系建设中，对于网络中提取到的公开课图像进行分析识别，准确定位课程内容，形成精准的内容标签，网络公开课标签的精准度从62.8%提升到82.3%，满足了教师和学生搜索视频资料的准确度。

4　结　语

本文提出了一种快速、准确计算图像多特征距离的算法C⁃GN。该算法采用欧式距离计算公式对二类特征分别求取距离，以便得到定量的特征距离，准确识别图像特征；然后采用改进的高斯归一化方法进行距离归一处理，通过设定偏离常数对距离值进行正值化纠偏，实现了图像特征的地位平等化；既保证了对多个特征做归一化处理时值均大于等于0，又实现了不同的图像的特征有惟一的不同的归一化值，同样的图像的距离归一后为0；最后，根据重要程度等原则可自由设置特征权重，对归一距离加权求和，从而准确获取相似图像的特征距离。实验结果表明，与现有的欧氏计算方法和高斯归一化方法相比，本文提出的算法在相似图像搜索的质量和效率上表现出良好的性能。

注：本文通讯作者为孟庆福。

参考文献

［1］TIEN J M.Big data：unleashing information［J］.Journal of sys⁃tems science and systems engineering，2013，22（2）：4⁃9.

［2］王元卓，靳小龙，程学旗.网络大数据：现状与展望［J］.计算机学报，2013，36（6）：1125⁃1238.

［3］施智平，李清勇，赵晓东，等.基于内容图像检索中的优化鉴别特征［J］.计算机辅助设计与图形学学报，2012，24（12）：1592⁃1598.

［4］余明艳，丘衍航，刘海员.内容图像检索IALA算法的设计与实现［J］.科技通报，2013，29（2）：103⁃105.

［5］HUSSAIN M，EAKINS J P.Component⁃based visual clustering using the self⁃organizing map［J］.Neural networks，2007，20 （2）：260⁃273.

［6］陈湘涛，王爱云，谢伟平，等.基于内容图像检索的聚类算法研究［J］.计算机应用研究，2008，25（12）：3546⁃3549.

［7］张白妮，骆嘉伟，汤德佑.动态的K⁃均值聚类算法在图像检索中的应用［J］.计算机工程与设计，2004，25（10）：1843⁃1846.

［8］贾迪，孟祥福，孟琭，等.结合高斯加权距离图的图像边缘提取［J］.中国图象图形学报，2014，19（1）：62⁃68.

［9］张闯，王婷婷，孙冬娇，等.基于欧氏距离图的图像边缘检测［J］.中国图象图形学报，2013，18（2）：176⁃183.

［10］ZHANG C，WANG T T，SUN D J，et al.Image edge detec⁃tion based on the Euclidean distance graph［J］.Journal of image and graphics，2013，18（2）：176⁃183.

［11］YANG Xiaohui，YAO Xueyan，LI Dengfeng，et al.Adaptive image retrieval based on generalized Gaussian model and LBP［C］//Proceedings 2010 2nd IEEE Symposium on Web Society. ［S.l.］：IEEE，2496⁃2503.

［12］HOU Biao，TANG Xu，JIAO Licheng，et al.SAR image re⁃trieval based on Gaussian mixture model classification［C］// Proceedings of 2009 2nd Asian⁃Pacific Conference on Synthetic Aperture Radar.Xi’an，China：IEEE，2009：796⁃799.

［13］WEI Xiao.Research on image retrieval algorithm based on Gaussianmixturemodelsclustering［J］.Softwareguide，2011，4（10）：48⁃50.

［14］JAIN A K，VAILAYA A.Shape⁃based retrieval a case study withtrademarkimagedatabase［J］.Patternrecognition，1998，31（9）：1369⁃1390.

中图分类号：TN919⁃34；TP391

文献标识码：A

文章编号：1004⁃373X（2016）16⁃0058⁃03

doi：10.16652/j.issn.1004⁃373x.2016.16.015

作者简介：许金玲（1979—），女，河北霸州人，硕士研究生。研究方向为大数据分析、标签体系。孟庆福（1953—），男，吉林长春人，教授。研究方向为信用评级、信用标签。

收稿日期：2015⁃12⁃23

基金项目：广东省教育厅2015年广东高校省级重点平台和重大科研项目：珠港澳高校基于互联网的教学支持系统研究（2015GXJK181）；广东省教育厅2014及2015年“创新强校工程”项目：珠港澳高校基于互联网的教学支持系统开发与应用集群自主创新平台（XK⁃2014⁃07）；珠海市哲学社会科学“十二五”规划项目：基于大数据的横琴自贸区信用管理标签体系探索与研究（2015YB081）

Research on similar image search algorithm based on big data content label

XU Jinling，MENG Qingfu
（Research Center of Big Data，School of Accounting and Finance，Beijing Institute of Technology at Zhuhai，Zhuhai 519000，China）

Abstract：The accurate calculation of image’s multi⁃feature distance is a key problem in big data era，which influences on the image⁃based content label，and plays an important role in content⁃based image retrieval technique.On the basis of the ad⁃vantages of Gaussian normalization method and Euclidean distance method，the Gaussian normalization method is improved，and a multi⁃feature distance calculation（C⁃GN）algorithm based on feature distance rectification is presented.The Euclidean dis⁃tance method is used in the C⁃GN algorithm to calculate the quantitative feature distance，and then the improved Gaussian nor⁃malization method is used to rectify the distance.The image’s multi⁃feature distance is obtained through the free weight setting. The experimental results show that，the algorithm can not only effectively obtain the quantitative distance among the features，but balance the status of multi⁃features conveniently，which improve the search quality of similar images.

Keywords：big data；content label；image retrieval；Gaussian normalization；Euclidean distance