服装图像检索研究综述

时间：2024-05-04

兰丽　耿增民

摘要：该文介绍了服装图像检索的背景，梳理了服装图像检索的两个发展阶段：基于文本的服装图像检索和基于内容的服装图像检索，分析了服装图像检索的研究热点和关键技术，总结了目前服装图像检索系统的发展状况，最后指出了服装图像检索技术的发展趋势。

关键词：服装图像；图像检索；图像检索系统

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2015）12-0184-04

The Clothing Image Retrieval Research Review

LAN Li ， GENG Zeng-min

（Beijing Institute of Fashion Technology， Beijing 100029， China）

Abstract： This article introduces the background of the clothing image retrieval ，gives a complete review of the two stages of the development of the clothing image retrieval：text-based clothing image retrieval and content-based clothing image retrieval，analyses the research hotspot and key technical issues about the clothing image retrieval，then summarizes the current development situation of the clothing image retrieval system，finally it presents some directions for future research about the clothing image retrieval technology.

Key words： clothing image； image retrieval； image retrieval system

随着信息技术的发展和互联网时代的到来，电子商务因其成本低廉和传播广泛占据了极大的市场，给人们的生活带来了很多便利。作为电子商务一份子的服装电子商务的迅猛发展标志着服装商务新模式的出现。人们购买衣服不再仅仅考虑实体店，更多的是依靠网络即通过上网对服装图像进行浏览、挑选、价格的对比、付款等购买自己喜欢的服装。但是服装购物网站服装商品数量剧增，出现了许多款式多样、质量参差不齐、价格匪夷所思的服装，导致用户挑选出满意的服装花费的时间和精力越来越多。所以，快速准确地检索到所需服装图像的研究成为学术界和产业界的一个具有划时代意义的课题，同时也是目前服装图像检索领域面临的棘手的难题[1]。经过多年的研究，服装图像检索已经获得了巨大的成就，下面是服装图像检索研究综合论述。

1 服装图像检索的发展历程

服装图像检索的发展经历了两个阶段：基于文本的和基于内容的服装图像检索，这两种服装图像检索方法都有各自的优缺点[2]。

1.1 基于文本的服装图像检索

基于文本的图像检索技术是通过关键字或自由形式的文本来描述图像，然后借用文本匹配检索进行图像的匹配，实质是以文字搜图[3]。目前就像搜索引擎百度、服装购物网站淘宝等各主流大型电子商务网站都采用TBIR技术检索服装图像。

TBIR技术检索的特点快速精准，但是目前服装图像数量迅速增多，其不足之处也逐渐显现出来：首先，关键字标注服装图像不能全面地反映服装本身的重要信息；其次，海量的图像数量造成人工标注工作量大；最后，人工标注主观性也具有差别[4]，这些都会直接影响到用户检索的准确性。再加上生活节奏越来越快，人们对购衣的满意度要求越来越高，故基于内容的服装图像检索技术的出现是必然的，不仅可以替代TBIR技术，还可以弥补其不足，成为目前研究的热点。

1.2 基于内容的服装图像检索

基于内容的服装图像检索包含两部分内容：视觉特征的检索和语义的检索。它检索的一般程序是按照图像特征的描述来搜索，然后通过比较特征间的相似性，按照相似性大小来排序给出最终的检索结果[5]。但是服装图像中具有颜色、形状、纹理等很多特征，怎样提取这些特征可供人们精确得检索成为近几年研究人员一直探索的课题。

1.2.1 基于视觉特征的检索

服装图像中的服装是整个图像的主角，其图像的特点相对自然风景、生活类图像背景简单、目标突出、颜色多样、款式的细节具区分度。这些特点可以归结为服装的颜色、形状、纹理三大主要特征，这三大主要特征是服装图像信息的载体，是提取服装图像特征的首要出发点。在利用视觉特征进行服装图像检索时，首先分析与处理图像提取其视觉特征，然后定义合理的测量方法来计算特征向量间的匹配程度，即可实现基于视觉特征的服装图像检索[6]。下面是服装图像三大特征提取方法综述性论述。

1）颜色特征

颜色是服装本身重要的构成成分，它作为服装特征之一，在服装款式、流行程度中起到了举足轻重的作用，所以颜色特征提取对服装图像检索有重要的意义。早期的研究是通过对图像中各像素点的颜色值进行统计来获取颜色特征，近几年的研究是如何实现基于颜色信息及其空间分布的图像检索方法。其代表性的工作：Strieker等人提出分块颜色矩，其思想是将图像划分为不同的区域，再对各区域进行颜色特征的提取[7]；Pass等人提出了一种统计图像中各颜色最大连续区域的像素值作为颜色特征的方法[8]。目前这方面的研究聚焦于局部颜色直方图的图像检索，代表性工作包括：Li等人提出基于分块颜色直方图的检索方案[9]；丁贵广等人提出切分兴趣点空间进而构建局部颜色直方图来实现检索[10]；苏小红等人提出基于兴趣点凸包构建局部颜色直方图并实现检索[11]。除此之外，该方法最新研究成果还包括：Chen等人提出自适应颜色特征提取方法来描述图像并实现检索[12]；金伟提出了一种新的颜色特征提取法—像素不连通区域面积直方图法[13]；邵天日提出了多颜色特征相结合的图像检索算法[14]。

2）形状特征

款式是服装重要的表现形式，设计师将自己独特的设计理念和设计风格融入自己精心的设计中，制作出一款又一款别致的服装为消费者提供更多购买的机会。服装款式主要通过服装的形状特征来体现，形状特征在CBIR 特征提取中应用十分广泛，其一般分为基于轮廓的特征和基于区域的特征[15]，下面是这两种形状特征提取方法的综合论述。

基于轮廓的特征是指从图像形状的边界提取的特征，比如边界点。描述轮廓的特征包括：面积、角度、周长、离心率等。图像查询所用到的轮廓的研究包括：Livarinen等人提出链码直方图[16]；Rangayyan等人提出P阶边界矩[17]；Berretti等人提出基于平滑曲线分解特征等[18]。

基于区域的特征是指从图像形状区域内部提取的特征，比如像素点。常用区域特征提取的方法是关于矩的方法，该方法的相关工作主要包括：Chin、Liao等人提出几何不变矩来提取形状特征[19]；Kim、Zhang、叶斌、Papakostas等人在Zemike的基础上，提出了矩的改进性研究[20-21]；Wee等人提出Zernike在误差范围内的最小化快速计算等[22]。

近年来在形状特征的检索方面，值得探索的课题是如何有效地计算形状间的相似性。最新代表成果包括：Peter等人提出K最近邻图，其思想是用K最近邻图构建形状特征空间来计算相似性[23]；Bai等人提出形状间的相似性与图之间的相互关系。形状间的相似性可构建图，运用图的转换能更有效得去测量形状间相似性[24]；Yang等人提出形状间具有一定的关联性，可以更好地计算相似性[25]。

3）纹理特征

服装花型种类的丰富多彩能使服装具有强大的外在美，提取得服装花型特征应用于检索中可以获得相似度高的服装图像。而纹理是服装面料最明显的特征，也是最具区分特点的，通常表现为花型。纹理特征提取方法可分为四类：基于统计的方法、基于频谱的方法、基于结构的方法和基于模型的方法[26]。但是目前在纹理特征研究方面运用广泛且被广大研究人员深入探索的方法是基于统计的和基于频谱的方法。

在基于统计的特征提取方面，代表性的工作有：基于纹理单元及纹理谱的特征描述[27]；LBP（local binary pattren）纹理特征描述算子[28、29]；基于自相关函数的纹理特征描述[30]等。

在基于频谱的特征提取方面，通常是在频域上来分析图像的频谱特征从而进行纹理分析，常用的频谱纹理分析方法包括：基于Fourier变换方法[31]，Kumar等人利用Gabor函数的实数及虚数部分来进行纹理监测[32]；Bodnarova等人采用Fisher代价函数来确定Gabor滤波器的参数，从而进行纹理监测[33]。

1.2.2 基于语义的检索

基于语义的图像检索是基于内容图像检索发展而来的，是研究人员通过分析和提取图像的语义内容来实现检索。基于语义的图像检索是解决语义鸿沟的重要方法及思路，它不仅考虑低层视觉特征，而且深入到图像的高层特征如空间关系、场景、行为和情感等[34]。这也是各个领域近几年的研究课题，有着巨大的潜在应用价值。

提取图像语义是语义图像检索极其重要的一步。图像语义提取的方法主要分为三类：低层物理特征、机器学习和相关反馈方法[35]。近几年更多研究聚焦于相关反馈技术，目前已经取得了不小的成就。相关反馈技术，其原理可简单概括为：用户判断系统的检索结果，然后反馈给系统，最后系统根据反馈结果进行重新计算，之后再返回更加符合用户所需结果的过程[36]。下面是该方面现有研究工作的综述性论述。

用户反馈可提高图像检索的准确率。代表性研究工作包括：基于最优查询规则选择方法，其通过用户反馈获得一个基于语义的差异最小的排序结果[37]；基于特征权重调整方法，该方法是调整用户反馈处理的结果所对应各特征值的权重从而给出有效的检索结果[38]；Wu等人提出将合作学习用到反馈处理中，实现了语义相似性测量和视觉相似测量相组合的图像检索[39]。

用户反馈的距离测量学习也是目前受重视的课题。其思想是用户反馈信息的语义学习来修正用于测量图像视觉特征向量间相似性的距离函数。代表性研究工作包括： Jin等人提出在多特征多标签图像上来进行距离测量学习[40]；Frome提出了建立在局部特征表示基础上的局部距离函数的学习[41]；陈等人提出了基于局部词频相关性和SIFT特征距离矩阵的Bundled特征匹配方法[42]。

用户反馈处理过程在更多时候可看作是模式识别中的有监督学习或分类问题，代表性研究工作包括： Harchaoui等人提出图的核函数，其思想是用图像的局部特征向量的空间分布构建图，之后定义核函数计算相似性[43]；Wang等人提出用局部线性约束编码来量化特征向量集合，进一步提升空间金字塔匹配核函数的性能[44]。

2 基于内容的服装图像检索中的难题

虽然基于内容的图像检索技术在服装电子商务领域有了不小的成绩，但是依然存在着无法回避的难题。首先是图像特征提取。对于图像底层视觉特征（颜色、形状、纹理）来说，它们的提取已经是一项巨大的挑战，再加上目前大容量数据库的出现，这个问题变得更加严峻。同时提取图像特征，除了图像处理技术之外，还需要其他多门学科的辅助才能使检索更加精确。其次是图像特征的融合。实验研究表明，利用单一图像特征检索图像效率很低，几乎不能满足用户需求。所以如何将多个图像特征结合进行图像检索是目前该研究领域的又一大难题。最后，图像特征的维数。一般提取出来的图像特征维数都很高，有的甚至上千维，怎样降低图像特征的维数也是目前亟待解决的难题。此外还存在图像存储、人工交互等其他难题也需要进行深入研究。

3 服装图像检索系统发展现状

随着对图像检索理论和技术上的研究，CBIR已取得良好的检索效果，许多大学、研究机构都对 CBIR 系统有深入的研究。早期国外经典的图像检索系统有：IBM 开发的QBIC 系统，UIUC 开发的 MARS系统，Virage公司开发的Virage系统，麻省理工学院开发的Photobook系统，哥伦比亚大学开发的 VisualSEEK系统等[45]。这方面的研究，我国也取得了一些成果，代表性的工作如下：清华大学开发得基于静态图像内容的原型系统；中科院计算机研究所开发了 MIRES；浙江大学完成了 Photo Navigator 和 Photo Engine 系统的开发等。这些系统的开发在理论上具有重要的意义，但还需要做进一步的研究来逐渐完善。

至今，基于内容的图像检索技术仍然未能成功应用于服装领域的高级感官方面，如服装流行情况的检索、服装面料效果的检索等。但是在众多研究人员的努力之下，有了目前最出色的视觉购衣网站主要是 like.com、picitup.com、etsy.com、pop.xiu.com[46]，这四大网站的检索方式有一定的差异，但是检索的准确率高，能够满足用户的需求，目前已经取得了很好的发展。

4 结束语

服装图像检索技术经历了两个阶段，基于文本的服装图像检索的出现给人们的生活带来了便利，但是随着社会的不断进步，这种检索技术不能满足广大用户的需要，随之出现了基于内容的服装图像检索技术。近几年经过研究人员的艰辛探索，基于内容的服装图像检索技术在底层视觉特征的提取和语义图像检索方面取得了许多成果，但是在理论和技术上还不够完善，建立高效、适用的图像检索系统还是举步维艰，还需要许多科研人员去努力探索。总之，基于内容的服装图像检索技术是一个热门的研究课题，它涉及的领域比较广，需要多种技术的支持，同时会不断促进这些相关领域的发展进而取得丰硕的成果。

参考文献：

[1] 顾昕. 基于文本语义和视觉内容的图像检索技术研究[D]. 厦门：厦门大学，2014.

[2] Chang S K， Yan C W， Dimitroff D C，et al.An intelligent image database system[J].Software Engineering，IEEE Transactions on，1998，14（5）：681-688.

[3] DATTA R，JOSHI D，LI J，et al.Image retrieval：Ideas，influences，and trends of the new age [J].ACM Computing Surveys（CSUR），2008，40（2）：5-6.

[4] 卢兴敬. 基于内容的服装图像检索研究及实现[D]. 哈尔滨：哈尔滨工业大学，2008.

[5] 侯刚. 基于内容的图像检索中特征表示与检索策略研究[D].长春：吉林大学，2014.

[6] Rui Y， Huang T S， Ortega M， et al. Ralevance feedback：a power tool for interactive content-based image retrieval[J]. Circuits and Systems for Video Technology， IEEE Transaction on，1998，8（5）：644-655.

[7] Strieker M， Dimai A. Spectral covariance and fuzzy regions for image indexing [J]. Machine Vision and Applications， 1997， 10（2）：66-73.

[8] Pass G， Zabih R， Miller J. Comparing images using color coherence vectors[C]. Proceedings of the 4th ACM International Conference on Multimedia （MM）. ACM 1996： 65—73.

[9] Li X. Image retrieval based on perceptive weighted color blocks[J]. Pattern Recognition Letters， 2003，24（12）：1935-1941.

[10]丁贵广，戴琼海，徐立文.基于兴趣点局部分布特征的图像检索方法[J].光电子.激光，2005，16（9）：1101-1106.

[11]苏小红，丁进，马培军.基于兴趣点凸包和svm加权反馈实现图像检索[J].计算机学报，2009，32（11）：2221-2228.

[12] Chen W T， Liu W C， Chen M S. Adaptive color feature extraction based on image color distributions[J].IEEE Transactions on Image Processing （TIP）， 2010， 19（8）：2005-2016.

[13] 金伟.基于融合颜色特征与形状特征的图像检索[D].西安电子科技大学， 2014.

[14]邵天日.基于多特征DS融合策略的图像检索技术研究[D].哈尔滨理工大学， 2014.

[15] Zhang D， Lu G. Review of shape representation and description techniques[J]. Pattern Recognition，2004， 37（1）：1-19.

[16] livarinen J， Peura M， Srel J， et al. Comparison of combined shape descriptors for irregular objects[C].Proceedings of the 8th British Machine Vision Conference （BMVC）. Essex， Great Britain： 1997：430-439.

[17] Rangayyan R， El-Faramawy N， Desautels J， et al. Measures of acutance and shape for classification of breast tumors[J]. IEEE Transactions on Medical Imaging （TMI）， 1997， 16（6）：799-810.

[18] Berretti S， Bimbo A， Pala P. Retrieval by shape similarity with perceptual distance and effective index-ing[J]. IEEE Transactions on Multimedia， 2000， 2（4）：225-239.

[19] Teh C， Chin R. On image analysis by the methods of moments [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence （TPAMI）， 1988， 10（4）：496-513.

[20] Zhang D， Lu G. Improving retrieval performance of zemike moment descriptor on affined shapes[C].Proceedings of International Conference on Multimedia and Expo. Lausanne， Switzerland：， 2002：205-208.

[21] Papacostas G， Boutalis Y， Karras D， et al. A new class of zemike moments for computer vision appli-cations[J]. Information Science， 2007， 177（13）：731-742.

[22] Wee C， Paramesran R. On the computational aspects of zemike moments [J]. Image and Vision Computing， 2007， 25（6）：967-980.

[23] Peter K， Michael D， Horst B. Beyond pairwise shape similarity analysis [C]. Proceedings of Asian Conference on Computer Vision （ACCV）. Springer 2009： 655-666.

[24] Bai X， Yang X， Latecki L， et al. Learning context-sensitive shape similarity by graph transduction[J].IEEE Transactions on Pattern Analysis and Machine Intelligence （TPAMI）， 2010， 32（5）：861-874.

[25] Yang X， Latecki L. Affinity learning on a tensor product graph with applications to shape and image retrieval[C]. Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition（CVPR）. IEEE 2011： 2369-2376.

[26]齐恒.基于内容图像检索的关键技术研究[D]. 大连：大连理工大学，2014.

[27] He D， Wang L. Texture unit， texture spectrum， and texture analysis[J]. IEEE Transactions on Geo-science and Remote Sensing， 1990， 28（4）：509-512.

[28] Ojala T， Pietikainen M， Harwood D. A comparative study of texture measures with classification based on feature distribulions[J]. Pattern Recognition， 1996， 29（1）：51 -59.

[29] Ojala T， Pietikainen M， Harwood D. Multiresolution gray scale and rotation invariant texture classification with local binary patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）， 2002， 24（7）：971-987.

[30] Brochard J， Khoudeir M， Augereau B. Invariant feature extraction for 3d texture analysis using the autocorrelation function[J]. Pattern Recognition， 2001， 22（6-7）：759-768.

[31] Huang Y， Chan K. Texture decomposition by harmonics extraction from higher order statistics[J]. IEEE Transactions on Image Processing （TIP）， 2004， 13（1）：1-14.

[32] Kumar A， Pang G. Defect detection in textured materials using glabor filters[J]. IEEE Transactions on Industry Applications， 2002， 38（2）：425.

[33] Bodnarova A， Bennamoun M， Latham S. Optimal glabor filters for textile flaw detection[J]. Pattern Recognition， 2002， 35（12）：2973-2991.

[34] 黄质纯.基于语义图像检索及相关技术研究[D].广州：华南理工大学， 2012.

[35] 李杨定.基于典型机器学习模型的图像检索算法[D].桂林：广西师范大学，2013.

[36] 刘保东.基于多特征和相关反馈的图像检索技术研究[D].成都：电子科技大学，2013.

[37] Zhang S， Huang Q， Hua G， et al. Building contextual visual vocabulary for large-scale image applications[C]. In Proceedings of the 18th ACM International Conference on Multimedia （MM）. ACM 2010：501-510.

[38] Ji R， Yao H， Sun X， et al. Towards semantic embedding in visual vocabulary [C]. Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE 2010： 918-925.

[39] Wu J， Lu M， Wang C. Collaborative learning between visual content and hidden semantic for image retrieval[C]. Proceedings of IEEE International Conference on Data Mining （ICDM）. IEEE 2010：1133-1138.

[40] Jin R， Wang S， Zhou Z. Learning a distance metric from multi-instance multi-label data[C]. Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE 2009： 896-902.

[41] Frome A， Singer Y， Malik J. Image retrieval and classification using local distance functions[C]. Proceedings of the Advances in Neural Information Processing Systems （NIPS）. Cambridge， MA： MIT Press， 2007： 417-424.

[42]陈起进.基于图像内容的服装检索与搭配技术研究[D].杭州：浙江大学，2013.

[43] Harchaoui Z， Bach F. Image classification with segmentation graph kernels[C]. Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE 2007： 1-8.

[44] Wang J， Yang J， Yu K. et al. Locality-constrained linear coding for image classification[C]. Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition （CVPR）. IEEE 2010：3360-3367.

[45]姜兰池.基于内容的图像检索技术研究[D]. 杭州：杭州电子科技大学，2009.

[46]张慧.基于内容的服装图像检索系统[D].广州：华南理工大学，2010.