基于迁移学习的快速图像检索算法

时间：2024-05-04

苏勇刚，高佳琴

（常州工业职业技术学院，常州213164）

0 引言

科技互联网的飞速发展，人们可以利用手机、平板等移动终端拍摄照片或短视频，借助一些社交网络平台分享到互联网上，这就使得网络空间上的多媒体数据呈几何式暴涨。社交网络上的多模态图像数据[1]不仅包含自身的视觉信息、文本信息，还包含时间、地点、面部表情和声音等其他形式信息。当用户在这种数据规模庞大网络中检索此类图像时，简单使用文本特征或视觉特征检索时，检索性能和友好性会大打折扣。因为常规的图像检索方法只会考虑到图像单个信息，从而丢失掉其他模态下的信息。

在这种网络环境下，如何设计一个快速的图像检索算法，是一个急需解决的问题。由于人工智能的发展对于社会的现代化和信息化起到了非常重要的作用，人工智能对人们的工作方式做了很大的改变，同时人们的生活质量和水平都得到了很高的提升。机器学习作为人工智能的一个分支，在计算机视觉的发展方向上做出了很大的贡献。本文利用前沿的机器学习先进理念，提出了一个迁移学习的快速图像检索算法，迁移学习主要学的是图像的位置和行为特征，然后再把图像多特征进行自适应融合进行哈希编码，最后利用协方差度量的图像的相似性。

1 国内外研究现状

目前研究人员基于机器学习的图像检索算法，大致分为三个方向。一是，基于卷积神经网络的图像检索算法；二是，基于深度哈希的图像检索算法；三是，基于多模态学习的图像检索算法。

（1）卷积神经网络

第一类比较出色的神经网络有LeNet5、AlexNet和VGGNet等，LeNet5[2]是早期用于工程应用的网络结构，发展到AlexNet[3]。与AlexNet相比，VGGNet深度上是其2倍，参数量大小也是两倍多，共16层，其中13层是卷积层，3层是全连接层。VGGNet[4]的主要贡献是当加深其网络的深度至16-19层，可以大大优化以往的神经网络结构，其方法是利用带有卷积核（3×3）的网络对逐渐加深的网络进行了深度评估。但是目前的VG⁃GNet也同样存在一些缺点，因为该网络的深度相对过大，所以算法训练周期长。

（2）深度哈希

第二类代表性的算法有CNNH（Convolutional Neu⁃ral Network Hashing）、DNNH（Deep Neural Network Hashing）和DSH（Deep Supervised Hashing）算法等，与常见的值编码和机器深度学习哈希算法不同，哈希方法的主要研究目标之一就是快速得到二值编码。而机器深度哈希算法目前被广泛采用的另一种做法是对二值图像的编码约束改用一个更宽松的方法进行优化值编码约束，即不再编码。CNNH的方法[5]:首先通过对相似度矩阵的样本进行计算和分解，得到对应两个样本的二值编码，然后再通过利用CNN对得到的二值图像编码对样本进行计算和拟合。与比CNNH的方法相比，DNNH[6]其中的网络深得多的Network in Network的网络结构的做法：其中的网络结构使用三张图像构成的三元组进行训练。但由于上述两种算法的激活函数具有饱和的性质，即当输出接近期望的值的时候（0/1或-1/+1），梯度就越小，网络训练也就越困难。DSH算法[7]的创新点在于添加一个正则项，来对网络的输出进行约束，使之接近二值编码。当网络的输出和期望得到的值偏差越大的时候，损失也越大，但是同时，梯度的值保持在-1或+1，来保证训练过程的稳定性。第三类，后来研究人员把目光转移到迁移学习，文献[1]提出了基于迁移学习的图像检索算法，对图像文本和视觉信息学习的结果迁移到视觉信息领域并与之融合，从而构建了代表性的图像特征，进而可以高效地检索图像。

（3）多模态学习

相对传统图像检索系统排序是根据图像的一个单模态的相关性，随着社交网络的发展，图像以多模态数据的形式出现。当多个模态共存时，我们需要同时从多个异质信息源提取被研究对象的特征。在单模态表示学习的基础上，多模态的表示学习还要考虑多个模态信息的一致性和互补性。文献[8]提出多模态相关性学习Canonical Correlation Analysis（CCA），通过计算图像间的嵌入向量的余弦距离度量图像的相似性。文献[9]中提出了一种面向跨模态检索的一致表示学习方法。特别地，该方法可同时学习多个模态的基矩阵。另外，该方法还采用了局部组稀疏的正则项以保证多模态特征的一致性。文献[10]中通过从互联网获取有监督数据，提出了一种多模态知识表示学习方法。该方法具有以下优点：①可自动从互联网平台获得可表征文本-视觉两模态关联关系的相关数据，并借此挖掘多模态数据中潜在的知识；②可构造模态无关、任务无关的公共知识表示空间；③通过迁移从已知节点和关系中所学的知识，能够表示在已知样本上未观测到的多模态关系。

2 基于迁移学习的快速图像检索算法

2.1 本文算法

基于迁移学习的快速算法通过构建迁移学习特征来提高相似度的精度，并采用类目预测来缩小检索范围以及对融合特征进行哈希编码，从而有效地提高算法的效率并采用自适应（多特征权重系数）优化检索图像结果集的排序，算法框架如图1所示，算法总共五个步骤。

图1 本文算法整体框架图

第一步，初始化图像库，预处理。

统一图像的尺寸64×64，选取视觉、位置和行为这三种模态作为迁移学习的特征，并以文本模态作为辅助特征，去除其他多余模态。

第二步，多模态特征提取。

对每一幅图像的各个模态下的特征如：视觉特征、行为特征和位置特征，随机得到M个描点，同时对每一种模态下的特征进行核函数公式（1）变换得到一个维度为M的特征矩阵。提取多模态特征是为了构建迁移学习特征和融合特征做铺垫。

第三步，构建迁移学习特征。

将初始化某类图像库的源领域图库、目标领域图库，再选择一个其他类辅助领域图库，构建视觉、位置和行为迁移图，然后训练模型并最终提取出迁移图中的参数。

图2 迁移特征构建图

所构建迁移图2中的连接三个节点分别为视觉特征集合中心的节点、位置特征和行为特征集合中心的节点，当迁移学习特征分类的节点与该节点对应的图像类别一致时，则将该边的权重系数变大，反之则该边的权重系数变小。设W1、W2和W3分别表示视觉特征相关边的权重系数、位置特征和行为特征相关边的权重系数，W1+W2+W3=1且它们之间相等，若当有与视觉特征相关节点的图像被预测类目一致，其系数W1的计算如式（2）所示。

其中，σ为伸缩系数。

第四步，融合多特征并哈希编码。

将视觉T1、位置T2和行为特征矩阵T3依据特征权重系数公式（3）融合在一起，然后按照感知哈希算法对其进行哈希编码：

第五步，度量图像相似度。

若给定两幅图像特征的哈希编码为的两个长度为l二值编码序列a=(a1,a2,…,al)，b=(b1,b2,…,bl)，a,b∈{0,1}l，a与b之间的汉明距离定义为两者对应位置上不同编码值的个数，即：

一般情况下，若两幅图像哈希码间的汉明距离不超过3～5，则说明图像非常相似；若它们哈希码间的汉明距离大于10，则说明图像不相似。

2.2 本文算法流程图

（1）图像查询：提交带查询的图像，然后对其预处理。

（2）类别预测：类别预测不但提高了检索的效率，而且提高了的精准程度。因为类别的预测无需对整个图像库进行全局检索，只需检索相应的某个类库图片。

（3）特征提取：提取图像多特征为构建迁移学习特征，因为其提取已经远远优于传统的特征提取。同时也提取局部特征提取，是因为对图像特征局部殊性的表达。

（4）检索引擎：对带查询图像的多特征图片融合并进行哈希编码，与检索引擎的哈希编码库进行匹配，快速返回检索结果。

（5）检索与排序：排序模块能够有效结合特征与局部特征，迁移特征主要从高层来提取信息，而局部特征关注的是根据图像的局部信息。

图3 本文算法流程图

3 实验过程与分析

为了验证本文算法的性能，本文使用Wiki数据库作为基础图像库，这图像库主要包括动物、植物、建筑和汽车等10类图像，共9000幅图像，同时图像都带有各自的维基百科的文字描述，加上从社交资源图库中下载1000幅图像，这些图像也都对应有文字描述，总共10000幅图像进行算法训练与测试。实验硬件平台为2.67GHz主频的CPU，可用内存16G，软件开发平台Ubuntu 14.04下的PyCharm，开发语言Python。

3.1 实验设计

本文设计三个对照实验，实验一用于对比这两种算法查准率；实验二用于验证本文算法在检索相同数目图像库时的时间复杂度更低；实验三用于验证本文算法检索出的图像结果排序更佳。三个实验目的是与传统单模态SIFT算法进行比较，验证本文算法具有更高的效率和更好的用户友好性。

3.2 实验结果与分析

实验一是本文算法与传统SIFT算法对图像库中三类（花、巴士、水果）的查准率，见表1。

表1 传统SIFT与本文算法对某类图像库的查准率对比

从表1可知，本文算法对各类平均查准率较传统SIFT算法高约32%，说明本文算法优势明显。

实验二是本文算法与传统SIFT算法在不同容量的图像库下检索的时间复杂度进行对比，结果详见表2和图4。

表2 传统SIFT与本文算法对不同图像容量库的检索时间对比

图4 本文算法与传统SIFT算法运行时间对比

从表2可知看出，当图像库的数量成倍增长时，传统SIFT算法检索耗时也成倍增长，呈现正相关；而本文算法检索耗时不是成倍增长，呈现负相关。

从图4可以看出，随着数据规模增大，传统SIFT算法时间代价增长较快，而本文算法时间代价增长相对较缓，本文算法的运行效率明显优于传统SIFT算法。

实验三为本文算法与传统SIFT算法对候选检索结果排序的对比，结果详见图5。

图5为待检索查询的图像结果为搭乘红色双层巴士（如图1）时的候选图像检索查询结果，图5（b）的本文传统SIFT算法页面检索查询的结果中对于候选欧氏图像的排序是依据欧氏图像之间距离的相似度和大小来进行排序，从而使得欧氏图像的排序比较粗糙，即会严重影响到对用户的友好浏览体验；而对于图5（a）的本文算法传统在页面检索查询的结果中对于候选欧氏图像则是依据欧氏图像多特征的相似度和大小来进行排序，从而使得欧氏图像的颜色特征排序更加合理，（排在最前面的图像则是欧氏颜色特征权重占多的，其次是形状特征，最后是位置特征。）最终会改善用户的体验。

4 结语

本文提出了一种基于迁移学习的快速图像检索算法，该算法创新在构建了迁移学习特征，将自适应调整多特征权重系数进行特征融合，然后再哈希编，最终计算哈希距离度量相似度。实验证明，这种基于迁移学习的快速图像检索算法有效地解决了多模态图像检索的检索效率、查准率偏低和检索结果集的图像不合理排序等问题，最终有效地提升了用户友好性。