基于显著性语义区域加权的图像检索算法

时间：2024-05-04

陈宏宇邓德祥颜佳范赐恩

摘要：针对计算视觉领域图像实例检索的问题，提出了一种基于深度卷积特征显著性引导的语义区域加权聚合方法。首先提取深度卷积网络全卷积层后的张量作为深度特征，并利用逆文档频率（IDF）方法加权深度特征得到特征显著图;然后将其作为约束，引导深度特征通道重要性排序以提取不同特殊语义区域深度特征，排除背景和噪声信息的干扰;最后使用全局平均池化进行特征聚合，并利用主成分分析（PCA）降维白化得到图像的全局特征表示，以进行距离度量检索。实验结果表明，所提算法提取的图像特征向量语义信息更丰富、辨识力更强，在四个标准的数据库上与当前主流算法相比准确率更高，鲁棒性更好。

关键词：图像检索;卷积神经网络;深度特征显著性;语义区域加权;特征聚合

中图分类号： TP391.413; TP18

文献标志码：A

Abstract： For image instance retrieval in the field of computational vision， a semantic region weighted aggregation method based on significance guidance of deep convolution features was proposed. Firstly， a tensor after full convolutional layer of deep convolutional network was extracted as deep feature. A feature saliency map was obtained by using Inverse Document Frequency （IDF） method to weight deep feature， and then it was used as a constraint to guide deep feature channel importance ordering to extract different special semantic region deep feature， which excluded interference from background and noise information. Finally， global average pooling was used to perform feature aggregation， and global feature representation of image was obtained by using Principal Component Analysis （PCA） to reduce the dimension and whitening for distance metric retrieval. The experimental results show that the proposed image retrieval algorithm based on significant semantic region weighting is more accurate and robust than the current mainstream algorithms on four standard databases， because the image feature vector extracted by the proposed algorithm is richer and more discerning.

Key words： image retrieval; Convolutional Neural Network （CNN）; deep feature saliency; semantic region weighting; feature aggregation

0 引言

近二十多年來，由于信息时代的到来和发展，各种类型的数据爆炸式地增长，图像数据也随之大量积累。为了方便人们对图像数据的直观获取，基于内容的图像检索（Content-Based Image Retrieval， CBIR）[1]技术应运而生，给定一个描述特定对象、场景、体系结构的查询图像，目的是检索包含相同对象、场景、体系结构的图像，这些图像可能在不同的视角、光照或遮挡下被获取。

2003年词袋（Bag-of-Words， BoW）[2]模型被引入图像检索领域，这种方法依赖于尺度不变特征变换（Scale-Invariant Feature Transform， SIFT）等传统特征描述符[3]。“BoW模型”开始在检索领域发挥着重要的作用，在过去的十多年里，人们提出了许多改进意见。进入2012年，Krizhevsky等[4]与AlexNet在ILSVRC（ImageNet Large Scale Visual Recognition Competition请补充ILSRVC的英文全称）竞赛中取得了最优秀的识别精度，大幅度超过了之前的最佳结果。之后，图像实例检索的研究重点开始转向基于深度学习的方法，特别是卷积神经网络（Convolutional Neural Network， CNN）。这是一种分层结构，在许多视觉任务中，它的表现优于人工特征，如图像分类[5]、目标检测[6]以及语义分割[7]等。在检索任务中，即使是短的CNN向量，也拥有能够与BoW模型相竞争的性能。基于CNN的检索模型通常计算获取紧凑的表示，并使用Euclidean距离或一些近似最近邻（Approximate Nearest Neighbor， ANN）[8]搜索方法进行检索。有些方法是基于全连接层特征生成全局表示[9]，例如Neural Codes算法[10]使用降维后的全连接层特征向量，用于图像检索。与这些方法不同的是，研究人员开始对全卷积层后的特征更感兴趣[11]，例如CroW（Cross-dimensional Weighting for aggregated deep convolutional features）算法[12]对全卷积层张量进行加权聚合得到全局表示特征向量，并取得了更好的效果。最近的一些方法通过收集地标建筑物数据集，重新训练图像表示端到端的图像检索任务[13]，例如Deep presentation算法[14]使用孪生网络结构对图像通用网络进行微调提取图像全局表示。微调过程显著提高了对特定任务的适应能力;然而这些方法需要收集标记的训练数据集，性能严重依赖于收集到的数据集，并且不同检索任务需要不同训练数据集，例如基于地标的微调模型不适用于标识检索。

最近有多篇论文开始研究CNN特征图的含义，发现卷积特征图中的不同通道可以表示为全卷积网络不同类别的像素级标签掩码。Xu等[15]提出PWA（Part-based Weighting Aggregation请补充PWA的英文全称）算法选择一些具有鉴别力的深度卷积层的通道作为与固定语义内容相对应的滤波器，称之为“概率建议（probabilistic proposals）”。“概率建议”将输入对象各个部分的空间布局编码为各种语义内容，并表达了属于固定语义像素的概率。

受到Xu等[15]的启发，本文提出了一种通过深层卷积特征获得图像显著性区域，优化方差排序的通道选取方法，并通过显著性区域引导获取更优的“概率建议”。通过增加无监督显著性约束，使算法获取更集中可靠的“概率建议”，从而排除一些复杂背景对于图像特殊语义信息获取的干扰，实验证明针对检索任务，使用“概率建议”进行区域加权聚合的全局表示更加有效可靠。

1 研究现状

随着深度学习领域的火热，研究人员不再将卷积神经网络当成一个黑匣子，转而开始研究卷积神经网络的真正意义，Zeiler等[16]通过反池化、反激活、反卷积等方法将特征图（feature map）还原映射到原始输入图像空间上来进行特征图意义的解释，证明了不同的模式（pattern）可以激活不同的特征图。Grad-CAM感觉英文全称不太对，哪几个单词的首字符缩写为CAM的，请明确（Gradient-weighted Class Activation Mapping）[17]使用最后卷积层的梯度信息生成热力图，显示了用于分类等任务下输入图像中的重要像素。同样地在语义分割领域也证明了特征图可以表示不同标签的像素级掩码。在目标检测领域，SPPNet[18]也通过可视化卷积层的特征图发现卷积特征中仍旧包含了位置信息，证明了特征图中不同通道信息被特定的语义信息所激活，这些特殊通道可以作為特定区域检测子。

随着目标检测研究的深入发展，图像实例检索任务开始引入目标检测方法辅助提取前景信息和抑制背景噪声，BING（BINarized normed Gradients for objectness estimation at 300fps）[19]、Faster R-CNN（Faster Regions with Convolutional Neural Network feature请补充Faster R-CNN的英文全称）[6]等辅助图像检索算法，通过框定原始图像中的目标信息再进行特征提取和距离检索。Mask R-CNN[20]研究表明，在目标检测任务中，应当使用不规则的检测框替代矩形框，拟合原始目标的形状。

受上述研究的启发，本文通过选取卷积特征图中具有特殊语义和判别力的通道作为图像的区域检测子，进而聚合生成与之对应隐藏语义信息的深度特征。这些选取的区域检测子包含了原始输入图像的位置和语义信息，且在形状上充分拟合了原图中目标形状。

2 基于特征显著性引导的区域加权算法

基于深度特征显著性引导特征通道加权聚合的图像检索算法主要包含两个部分：“概率建议”选择、区域检测子加权聚合，算法流程如图1所示。

1）“概率建议”选择：

2.1 “概率建议”的选择

本文通过非监督的方法，对数据库中所有图像的深度卷积特征通道进行排序，并选取排序靠前通道作为深度特征的“概率建议”，这些通道对应的特殊语义信息激活图，作为特征聚合阶段的区域检测子。

2.1.1 深度卷积特征表示

通过将图像I输入一个预先训练好的深度神经网络或一个经过微调（fine-tuning）后的网络，提取卷积层的激活图作为图像的深度特征，表示为非负三维张量F∈Rh×w×c，其中w和h表示空间分辨率（宽度、高度），c是特征通道的数量。使用Fpj表示深度特征F中对应位置p∈（[h]，[w]）和通道j∈[c]的元素，用F·j表示深度特征F中通道j∈[c]的2D特征图。

2.1.2 生成深度特征显著性图

受到CroW算法的启发，本文加权深度特征F获取深度特征显著性图。根据逆文档频率（IDF）[21]加权的思想，简单来说不同通道特征图表现得越稀疏，那么对应位置的非零激活值就越重要。由此得到不同通道对应的F·j权重为：

其中对于通道j∈[c]，a=1wh∑p∈P1[Fp·]∈Rc表示为每个通道下平均非零激活值的数目，通过对每个通道求加权和，最终得到深度特征显著性图（如图2）：

2.1.3 区域检测通道选取

每一个“概率建议”对应着原始输入图像的特定的语义信息，有一些代表着塔顶信息、建筑底部信息、整体轮廓信息、特定的弧形形状信息等，这些区域信息包含在深度特征F的特定通道F·j中，本文在离线阶段采取一种无监督的方法选取。

PWA算法考虑具备较大方差响应的通道则具有更大的区分性，且各种物体之间的差异越大对应的响应差异越大，所以PWA使用一种简单的方式来进行区域检测子的选择，即通过统计数据库深度特征对应通道F·j的方差信息并进行排序，选取方差较大的F·j作为“概率建议”。

这种方差排序方法容易受到背景复杂差异大图片的干扰，导致选取“概率建议”区域检测子激活原图的背景信息。为了排除背景信息的干扰，本文改进了方差排序的选取方法，通过得到的深度特征显著性图Sf来进行通道显著性加权和排序。考虑到显著性图Sf在某些显著性区域的激活效果相对于其他显著性区域过于明显，为防止显著性图和深度特征加权后只激活了部分显著性区域，影响区域特征的丰富性，需要对显著性图Sf进行二值化以区分图像中的前景区域和背景区域。为了激励前景信息、抑制背景噪声信息，二值化显著性区域为正值v∈R+，非显著性区域为负值t∈R-：

得到二值后的深度特征显著性图Sfb，需要对数据库中的所有样本图片进行深度特征加权求和，并统计归一化后的深度特征通道重要性。统计单幅图像深度特征F的通道显著性加权和：

将数据库的所有N张样本图片进行通道显著性统计得到通道显著性向量In=[T0，T1，…，TC-1]，并对所有的通道显著性向量进行2范数归一化。得到归一化后的通道显著性向量后，按通道对所有样本进行通道显著性统计叠加：

最后对得到的通道显著性统计向量Vj=[v0，v1，…，vC-1]的向量进行降序排序，由此可以无监督获取到显著性通道，作为“概率建议”以用来进行区域检测。得到包含特定复杂语义信息的“概率建议”后，利用它们进行深度特征的加权聚合。

图3可视化了4组排序靠前的“概率建议”，可以观察到419通道在建筑物窗户弧形区域有较高的激活、430通道重点激活了建筑物的顶部，相应地486通道则对应建筑物底端，而360通道反映了图片中建筑物的整体轮廓。算法选取的其他通道同样地代表着图像中特殊的结构语义信息。

“概率建议”提取深度特征特定语义信息区域，强化了对应语义的特征信息，挖掘了物体的形状纹理信息，从而提升了全局表示的判别力及鲁棒性。通过大量图像数据训练得到的深度卷积网络，其卷积层包含的不同卷积核可激活特定的图像模型。本文选取的“概率建议”区域检测子是根据不同语义信息而生成出的各种不规则区域候选框。对比算法R-MAC（Regional Maximum Activation of Convolution请补充R-MAC的英文全称）[22]提取的矩形区域，本文使用的“概率建议”区域检测子对真实物体的形状更加贴合，且根据语义概率提取的区域位置比R-MAC使用网格切割定位的更加准确，形状和尺度也都更多样。本文使用的选取“概率建议”方法，特征显著引导排序，可以约束选取在重要且丰富语义信息显著性区域下的“概率建议”。显著性激活值加權排序算法在显著性区域中，充分地考虑了不同语义区域的特征，丰富了特征的多样性。通过对选取通道的大量数据观察，选取的区域检测子分别蕴藏了屋顶、塔尖、窗户、建筑底部、栅栏、石柱等特殊语义信息。

深度特征的聚合需要选取数量合适的“概率建议”作为区域检测子。如果区域检测子数量过少，聚合不到足够丰富的区域特征;如果区域检测子数量过多，会引入低级（例如梯度、颜色等）特征信息干扰检索，降低检索精度。算法最终选取“概率建议”的数量将通过实验确定。

2.2 区域检测子加权聚合

将这些通过深度显著性约束排序算法得到的“概率建议”，作为特殊语义区域特征检测子，对原始深度特征进行加权，利用全局平均池化聚合得到更加丰富的局部区域特征表示，拼接所有区域特征表示并降维得到最终的全局图像表示向量，利用距离度量完成检索任务。

2.2.1 深度特征聚合池化方法

早期利用深度特征的图像检索算法，主要使用卷积神经网络中全连接层后的向量作为图像全局表示进行检索，随着对卷积神经网络研究的深入，深度特征提取的研究重点则转向全卷积层后的深度卷积张量上。全卷积结构可以对任意尺寸比例的图像进行特征提取，保留了原图特定区域的位置特征属性。

不同于传统特征编码常使用的费舍尔向量（Fisher Vector， FV）编码和局部聚合描述符（Vector of Aggregate Locally Descriptor， VLAD）编码，对深度卷积特征的聚合一般使用全局平均池化（Global Average Pooling， GAP）全局最大池化（Global Max Pooling， GMP）[22-23]和全局最大池化（Global Max Pooling， GMP）全局平均池化（Global Average Pooling， GAP）[24]等。

全局平均池化：

全局最大池化：

全局平均池化聚合尽可能地保留了原始深度特征图的整体信息，弱化了个体的激活信息;相应地全局最大池化则保留特殊的个体激活信息，损失了整体信息。通过区域检测子加权后的深度特征张量，已经提取了原始深度特征中不同的个体区域激活信息，本文的特征聚合方法只需尽可能保留深度特征的整体信息，因此选取全局平均池化方法进行特征聚合。

2.2.2 区域加权的深度特征聚合

使用选取的W×H维2D“概率建议”对C×W×H维的深度卷积特征进行加权并使用全局平均池化方法聚合特征：

φn=1W×H此处原来为小写的w×h，为与上面保持一致，改为大写的，符合表达吧？∑Wx=1∑Hy=1（ωn（x，y）F（x，y））（8）

因子ωn（x，y）原来此处是ωn，感觉不对，为与式（8）中的书写保持一致，修改为现在，符合表达吧？为根据本文选取“概率建议”对应位置（x，y）激活值vn（x，y）的归一化权重：

将不同“概率建议”区域检测子加权聚合得到的局部区域特征向量连接起来作为全局深度特征表示，选取N个“概率建议”区域检测子，得到对应的局部区域深度特征聚合向量φn，维度为c，简单地将这些局部区域深度特征聚合向量连接成为用于后续处理需要的全局深度特征聚合向量Φ=[φ1，φ2，…，φN]，针对不同的检索任务可调整选取的“概率建议”个数来平衡算法执行效率和检索精度。

2.2.3 全局深度特征向量降维白化

全局深度特征向量是通过多个区域检测子加权聚合的局部深度特征向量连接而来，维度为N×C，鉴于图像检索任务的特殊性，需要提取和保存数据库中所有样本图像的全局特征向量，这使得后续相似性度量以及扩展查询阶段的计算效率低、内存消耗代价巨大，因而需要对提取的全局深度特征向量进行主成分分析（Principal Component Analysis， PCA）降维和白化处理[25]。

作为一种常见的降维手段，PCA的思想是将n维特征映射到k维上，且这k维为正交特征，即主元特征。具体地，先寻找方差最大方向作为第一个坐标轴，接着寻找与第一个坐标轴正交且方差最大的坐标轴，依此类推最后得到这k个坐标轴，将原始特征向量投影到这k个坐标轴即得到降维后的k维特征向量，将得到的k维特征向量进行白化，得到最终的检索特征向量：

其中：Vpca是PCA矩阵，σ1，σ2，…，σk为相关奇异值。

PCA降维舍弃一些冗余维度信息，提高了总体的检索效果，深度卷积特征聚合中会产生很多不利于图像检索的噪声信息，PCA降维产生去噪的效果，从而提高最终特征向量的判别力和鲁棒性。

2.3 拓展查询

为进一步提升最终检索精确度，本文增加了拓展查询（Query Expansion， QE）[26]步骤，在第一次查询阶段，通过计算数据库中待检索图像深度特征向量Φ0与数据库中所有图像深度特征向量的空间距离，得到数据库中排名前t的图像深度特征向量{d1，d2，…，dt}。对这t个深度特征向量进行均值求和，重新归一化处理得到新的待检索图像深度特征向量表示davg：

将新待检索图像深度特征向量davg在数据库中再进行一次空间验证查询，得到最终图像检索结果列表。拓展查询进行了两次空间验证，在提升最终检索准确率的同时带来了算法时间成本上的开销。

3 实验结果

本文将算法在4个标准的实例检索数据库上进行：

均值平均精度（mean Average Precision， mAP）[29]作为图像检索中重要的评价指标，遵循Oxford数据库中给出的计算方式。不同检索图像对应的数据库ok和good真值文件中标记的数据库样本作为正样本。对算法得到的检索序列与正样本集进行召回率（Precision）和准确率（Recall）的计算，最终计算PR曲线对应的下面积作为AP值，平均所有检索图像的AP值得到作为信息检索评价指标的mAP：

3.1 实验设置

采用预先训练好的VGG16[30]网络进行特征提取，直接将pool5层输出的feature map作为后续算法使用的深度卷积特征，其中通道数c为512。为证明算法的广泛性和可靠性，对比实验了微调后的ResNet101[30]网络深度特征，通道数为2048。由于只需要网络的特征提取即全卷积层，输入原始图像不需要对尺寸进行缩放或裁剪，直接以原始尺寸进行输入。对算法参数和算法部件的对比实验展示均是采用VGG16原始网络进行特征提取。深度特征显著图二值化过程中v取值为1，t取值为-0.6。

3.2 算法参数影响

本文算法包含影响算法效果的超参数，主要体现在选取“概率建议”的个数N、降维的最终特征表示维度M。通过实验来观察和讨论这些超参数的影响和作用。

本文根据深度特征显著性约束的通道重要性排序了深度特征的c个通道，这些重要性靠前的通道激活值与原始图像的特殊语义信息有关，选取前N个通道“概率建议”作为区域检测子来加权聚合深度特征，实验结果如表1。

实验使用全局平均池化聚合，并通过PCA降维至4096维。观察表1，根据两个数据库的整体效果，选择“概率建议”的个数在20～25效果最佳，仅选取通道重要性前1/20的通道“概率建议”作为区域检测子，算法达到最佳状态，与选取所有通道作为区域检测子相比在两个标准数据库上提升2.6个百分点，且计算复杂度也仅为选取所有通道的1/20，证明了排序算法的优异效果。在达到最优状态后随着选取的区域探测子增多效果反而下降，由于深度卷积特征中不同的通道不仅含有一些有利于图像检索的图像前景特殊语义信息，也具有例如背景光照、背景纹理等一些冗余甚至是不利于图像实例检索的语义内容，这也验证了通道排序算法筛选了图像前景中高判别力的语义区域。只需选取1/20的“概率建议”进行区域检测加权聚合，这极大地节省深度特征提取阶段的计算量和内存消耗。

针对全局平均池化和全局最大池化方法在第2章进行了理论上的分析，考虑到区域检测子提取了深度特征的个体区域信息，算法选择使用全局平均池化方法，并與全局最大池化方法进行对比，检索效果如表2所示。

观察表2结果，使用全局平均池化方法要比全局最大池化的检索效果更优秀。实验选取25个区域检测子并通过PCA降维至4096维度。使用全局平均池化方法的mAP相比全局最大池化方法在Oxford和Paris数据库上可以总体带来8.15个百分点的提升分别有4.43和3.72个百分点的提升。

在图像实例检索任务中，数据库图像对应的最终图像表示Φpca是检索系统的最终端，在实际应用中，需要存储数据库中每一幅图像的全局表示，检索过程中也是对图像的全局表示进行相似性度量，所以图像检索任务的内存消耗和效率都直接与最终图像表示Φpca的维度M有关。表3是本文选取不同PCA最终降维维度的结果。

观察表3不难发现在维度128～4096中保持维度越大图像检索的效果越好的特点，即检索效果与内存消耗成反比。这可以理解为维度越大在经历PCA降维后留下来的主成分分量越多，包含具有分辨力的特征信息就越多，最终的检索效果就越好。与早期使用传统特征的词袋模型上万维度相比，这样是深度特征模型的优势，深度特征代表了更高层次的语义信息而不是图像底层的颜色、梯度等图像基本特征。对于Paris6K数据库的实验结果，2048维度的mAP值与4096维相比更高一些，一定程度上反映了PCA降维算法的作用以及本文“概率建议”通道选取的可靠性。与其他固定维度的深度特征算法相比，本文算法提供了最终PCA降维维度的选择，可以根据不同数据库、不同任务需求来选择最终图像表示维度，具有很大的灵活性。

区域检测子选取数量N与维度M的最佳状态是相互影响的，特征维度M越小，对区域检测子的语义显著性要求越高，最佳“概率建议”通道数N也越小;反之，特征维度M越大，对区域检测子的语义多样性要求越高，最佳“概率建议”通道数N也就越大。

3.3 與主流算法对比

在现有未进行任何微调的VGG16卷积神经网络框架下，本文算法与当前一些主流算法结果进行比较，对比全局特征向量维度为512维下的结果（如表4～5），本文算法的mAP值，与当前的主流算法PWA[15]“主流算法”指代不清晰，需指明哪个文献算法？是“PWA[15]算法”吗？请明确。相比在Oxford5K上提升了1.4个百分点，在Paris6K上提升了0.5个百分点。本文算法维度提升至4096维度，最终在Oxford5K上提升了0.5个百分点，在Paris6K上提升了0.8个百分点。与Tri-embedding、FAemb、RVD-W这些传统的“BoW模型”方法相比，本文算法在提升检索的准确率的同时，对空间和时间消耗也大幅度降低。本文算法的深度特征语义加权聚合与R-MAC、SPoC、CroW等算法相比，充分考虑了语义区域的不规则性以及显著性区域的重要性。

算法通过加入扩展查询等后处理手段来提升整体算法效果，本文算法在QE=10时检索效果有了大幅度提升。512维度情况下在Oxford5K和Paris6K数据库上共提升了3.3个百分点分别提升了1.6和1.7个百分点这个描述不清晰，需指明是分别提升了哪两个百分点（需两个数值）。，对比PWA算法，本文算法通过改进该算法的通道排序算法和深度特征聚合算法在四个主流数据库上的表现均有明显提升。在维度较低情况下，Paris106K数据库上的表现在使用扩展查询前后相比当前主流算法效果稍差一些，考虑是由于加入的10K100K数据库中的图像背景较为丰富，算法在选取显著性语义区域而忽略了背景信息，导致在显著前景特征维度不足的情况下，背景信息特征也具有较强的分辨力。

本文对使用微调后的ResNet101网络进行相同的对比实验，比较当前主流算法使用微调或端到端训练的图像检索网络的检索效果。与文献[15]中使用的方法一致，本文也根据文献[14]端到端训练的方法对ResNet101进行微调，并提取res5c_relu层的输出最为原始图像的深度特征，其中通道数c=2048。对比当前主流算法NetVLAD（Network with Vector of Locally Aggregated Descriptors layer）、CNNBoW（CNN image retrieval learns from BoW）、DeepRepresentation（learning Deep Representations for image search请补充NetVLAD、CNNBow、DeepRepresentation的英文全称）等，本文算法在进行过微调后的网络结构中效果同样要优于这些主流的进行过训练的方法。

4 结语

本文在PWA算法的基础上提出了全新无监督基于深度卷积特征显著性约束的通道重要性排序算法，优化选取“概率建议”步骤。本文使用的区域探测子更加符合语义显著性，所提取聚合的特征向量更加丰富，在特征维度被降到较低维度时效果也十分优秀。在特征聚合阶段使用全局平均池化相比全局最大池化提高了聚合后特征向量的判别力，在各种维度情况下效果均提升明显。本文提出的无监督算法不依赖于深度神经网络的状态，不论基于现有的通用图像特征提取网络，还是基于特殊环境和任务微调后的网络，都可以进行语义加权的特征聚合以供图像检索使用。

参考文献（References）

[1] ZHENG L， YANG Y， TIAN Q. SIFT meets CNN： a decade survey of instance retrieval [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2018， 40（5）： 1224-1244.

[2] 董健.基于加权特征空间信息视觉词典的图像检索模型[J].计算机应用，2014，34（4）：1172-1176.（DONG J. Visual vocabulary with weighted feature space information based image retrieval model [J]. Journal of Computer Applications， 2014， 34（4）： 1172-1176.）

[3] LOWE D G. Distinctive image features from scale-invariant key-points [J]. International Journal of Computer Vision， 2004， 60（2）： 91-110.

[4] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 25th International Conference on Neural Information Processing Systems. New York： ACM， 2012： 1097-1105.

[5] HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2016： 770-778.

[6] REN S， HE K， GIRSHICK R， et al. Faster R-CNN： towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2015， 39（6）： 1137-1149.

[7] 姜楓，顾庆，郝慧珍，等.基于内容的图像分割方法综述[J].软件学报，2017，28（1）：160-183.（JIANG F， GU Q， HAO H Z， et al. Survey on content-based image segmentation methods [J]. Journal of Software， 2017， 28（1）： 160-183.）

[8] ARYA S， MOUNT D M， NETANYAHU N S， et al. An optimal algorithm for approximate nearest neighbor searching fixed dimensions [J]. Journal of the ACM， 1998， 45（6）： 891-923.

[9] 刘兵，张鸿.基于卷积神经网络和流形排序的图像检索算法[J].计算机应用，2016，36（2）：531-534.（LIU B， ZHANG H. Image retrieval algorithm based on convolutional neural network and manifold ranking [J]. Journal of Computer Applications， 2016， 36（2）： 531-534.）

[10] BABENKO A， SLESAREV A， CHIGORIN A， et al. Neural codes for image retrieval [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin： Springer， 2014： 584-599.

[11] RAZAVIAN A S， AZIZPOUR H， SULLIVAN J， et al. CNN Features off-the-shelf： an astounding baseline for recognition [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2014： 512-519.

RAZAVIAN A S， SULLIVAN J， CARLSSON S， et al. Visual instance retrieval with deep convolutional networks [J]. ITE Transactions on Media Technology and Applications， 2016， 4（3）： 251-258.

[12] KALANTIDIS Y， MELLINA C， OSINDERO S. Cross-dimensional weighting for aggregated deep convolutional features [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin： Springer， 2016： 685-701.

[13] RADENOVIC F， TOLIAS G， CHUM O. CNN image retrieval learns from BoW： unsupervised fine-tuning with hard examples [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin： Springer， 2016： 3-20.

[14] GORDO A， ALMAZN J， REVAUD J， et al. Deep image retrieval： learning global representations for image search [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin： Springer， 2016： 241-257.

[15] XU J， SHI C， QI C， et al. Unsupervised part-based weighting aggregation of deep convolutional features for image retrieval [C]// AAAI 2018： Proceedings of the 35th AAAI Conference on Artificial Intelligence. Menlo Park， CA： AAAI， 2018： 7436-7443.

[16] ZEILER M D， FERGUS R. Visualizing and understanding convolutional networks [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin： Springer， 2014： 818-833.

[17] SELVARAJU R， COGSWELL M， DAS A， et al. Grad-CAM： visual explanations from deep networks via gradient-based localization [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2017： 618-626.

[18] HE K， ZHANG X， REN S， et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin： Springer， 2014： 346-361.

[19] CHENG M M， ZHANG Z， LIN W Y， et al. BING： binarized normed gradients for objectness estimation at 300fps [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2014： 3286-3293.

[20] HE K， GKIOXARI G， DOLLR P， et al. Mask R-CNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2017： 2980-2988.

[21] BEEL J， GIPP B， LANGER S， et al. Paper recommender systems： a literature surveyResearch-paper recommender systems： a literature survey [J]. International Journal on Digital Libraries， 2016， 17（4）： 305-338.

[22] TOLIAS G， SICRE R， JGOU H. Particular object retrieval with integral max-pooling of CNN activations [EB/OL]. （2016-02-24） [2018-05-21]. https：//arxiv.org/abs/1511.05879.

[23] RAZAVIAN A S， SULLIVAN J， CARLSSON S， et al. Visual instance retrieval with deep convolutional networks [J]. ITE Transactions on Media Technology and Applications， 2016，4（3）： 251-258.

RAZAVIAN A S， SULLIVAN J， MAKI A， et al. A baseline for visual instance retrieval with deep convolutional networks [EB/OL]. （2016-05-09）[2018-05-21]. https：//arxiv.org/abs/1511.05879.

[24] BABENKO A， LEMPITSKY V. Aggregating local deep features for image retrieval [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2015： 1269-1277.

[25] JGOU H， CHUM O. Negative evidences and co-occurences in image retrieval： the benefit of PCA and whitening [C]// Proceedings of the 2012 European Conference on Computer Vision. Berlin： Springer， 2012： 774-787.

[26] CHUM O， MIKULIK A， PERDOCH M， et al. Total recall II： query expansion revisited [C]// Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2011： 889-896.

[27] PHILBIN J， CHUM O， ISARD M， et al. Object retrieval with large vocabularies and fast spatial matching [C]// Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2007： 1-8.

[28] PHILBIN J， CHUM O， ISARD M， et al. Lost in quantization： improving particular object retrieval in large scale image databases [C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2008： 1-8.

[29] EVERINGHAM M， GOOL L V， WILLIAMS C K I， et al. The Pascal Visual Object Classes （VOC） challenge [J]. International Journal of Computer Vision， 2010， 88（2）： 303-338.

[30] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL].（2015-04-10）[2018-05-21]. https：//arxiv.org/abs/1409.1556.

[31] JGOU H， ZISSERMAN A. Triangulation embedding and democratic aggregation for image search [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2014： 3310-3317.

JGOU H， ZISSERMAN A. Triangulation embedding and democratic aggregation for image search [C]// Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2014： 3310-3317.

[32] DO T T， TRAN Q D， CHEUNG N M. FAemb： a function approximation-based embedding method for image retrieval [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2015： 3556-3564.

[33] HUSAIN S， BOBER M. Improving large-scale image retrieval through robust aggregation of local descriptors [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39 （9）： 1783-1796.

[34] XIE L， ZHENG L， WANG J， et al. Interactive： Inter-layer activeness propagation [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2016： 270-279.

[35] ARANDJELOVIC R， GRONAT P， TORII A， et al. NetVLAD： CNN architecture for weakly supervised place recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington， DC： IEEE Computer Society， 2016： 5297-5307.