移动视觉搜索技术研究进展及其在数字人文领域应用实践

时间：2024-05-18

余婷婷

[摘要] 随着云计算、移动智能终端等信息技术飞速发展，视觉搜索开始从PC端走向移动终端，自移动视觉搜索（Mobile Visual Search，MVS）提出以来，已成为信息检索领域重要研究课题。目前MVS研究主要集中于基本架构、视觉对象处理、视觉对象检索等关键技术；在数字人文领域，MVS主要应用于展品导览，实现精准定位，提升阅读体验等；标准化问题、用户体验及视觉对象数据库构建则是其未来重点发展方向。

[关键词] 移动视觉搜索；数字人文

[分类号] G250 [文献标识码] A [文章编号] 1671-0037（2017）5-43-4

Abstract： With the rapid development of information technologies， such as cloud computing and mobile intelligent， Visual Search begins moving from the PC to the mobile. Mobile Visual Search （MVS） has become an important research topic in the field of information retrieval since it was put forward. At present， MVS research mainly focuses on the key technologies such as basic architecture， visual object processing and visual object retrieval； in the field of digital humanities， MVS is mainly used in exhibition， achieving precise positioning， enhancing reading experience and so on； standardization， user experience and the construction of visual object databases will be the key directions for future development.

Key words： Mobile Visual Search； digital humanities

MVS是基于移動搜索发展起来的，早在2002年英国就已出现“手机搜索音乐”。虽然目前国内外对MVS的研究尚处于初级阶段，但近几年随着增强现实技术（Augmented Reality，AR）、跨媒体检索技术（Cross-Media Retrieval）等技术的发展，学术界对其日益关注。目前MVS的研究仍以理论研究为主、应用研究为辅，但是随着移动搜索、图像检索、移动增强现实等技术不断发展与完善，与之相融合的MVS必将成为继搜索引擎之后互联网新一代革命性服务模式[1]。

本文以“mobile visual search*”“移动视觉搜索”、MVS为主题词在SCIE、Ei、Scopus、PQDT、中国知网、万方、维普等数据库中检索，并通过引文追溯的方法来进一步补充相关文献，通过文献调研的方法，来揭示目前国内外移动视觉搜索技术研究进展，为我国移动视觉搜索研究提供参考。

1 移动视觉搜索技术研究进展

目前移动视觉搜索技术研究主要集于基本架构、视觉对象处理、视觉对象检索等关键技术。

1.1 移动视觉搜索基本架构

MVS基本架构有三种形式：标准架构、本地化架构和混合架构[2]。三种基本架构各有优缺点，系统功能、应用领域不同，效果也不尽一样，详见表1。

1.2 视觉对象处理

视觉对象处理是移动视觉搜索的基本问题，主要包括视觉对象描述和提取、描述子压缩。根据提取特征的广度不同，视觉对象特征可分为局部特征、全局特征及随机特征三类。Tuytelaars等人[3]对三种特征描述子进行了对比分析：全局特征描述子能够表现图像的整体特征，但其计算量大且无法从复杂的背景中区分目标；随机特征描述子在不同的位置和尺度上采用不同的部分图像特征，能够很好的区分目标，但是，计算量庞大效率较低；局部特征描述子选取局部信息来构造图像特征，受图像变换影响小，识别准确，可在复杂背景中完成目标识别，虽然数字建模相对困难，但是，因为其高效的识别率是目前移动视觉搜索中视觉对象提取和描述的主要方法。在众多的局部特征描述子中，应用最广泛的是尺度不变描述子（Scale Invariant Feature Transform，SIFT）。

视觉对象压缩主要有基于图像层面和基于局部特征的。基于图像层面的视觉对象压缩方法有两类：局部描述符聚合[4]以及词汇编码直方图压缩[5]。基于局部特征描述子压缩主要采取降维法，常用的有PCA-SIFT（Principal Component Analysis SIFT）[6]；SIFT-LDA（SIFT Linear Discriminant Analysis）[7]；LLE-SIFT（Locally linear embedding SIFT）[8]。

1.3 视觉对象检索

为了统一视觉搜索流程，共享研究成果，斯坦福大学、美国高通公司等多家研究机构参与制定了MPEG Compact Descriptor for Visual Search （MPEG CDVS）国际标准，并于2015年在MPEG国际标准会议发布了最新的图像匹配流程和检索流程，主要包括视觉搜索架构、视觉搜索流程两项[9]。针对视觉对象检索，国内外学者目前主要集中在两方面：优化视觉搜索性能和大规模图像信息检索。Li Dawei提出一种高效的移动视觉搜索系统（EMOVIS），该系统使用两个独特的关键点识别方案来提高检索精度[10]；Ke Gao针对大规模移动视觉检索，提供一种离线查询扩展，提取多个具有代表性的特征，来支持快速准确的特征匹配[11]。

2 移动视觉搜索在数字人文领域应用实践

移动视觉搜索目前在国外很多领域已经有了很好的应用，具有代表性的是Google公司于2009年开发的Google Goggles服务，该服务可以将手机拍摄到的图片在Google里搜寻，可以搜索书、商品、建筑、景点等[12]。

数字人文指将计算机处理和分析技术应用到传统人文研究中去，对其进行更全面、生动的展示，将人文科学方法论与计算机技术相结合起来[13]。将MVS应用到数字人文领域是近几年随着图书情报学科在MVS研究的深入而出现的，目前主要应用的地方有图书馆、档案馆、博物馆等，MVS在数字人文领域的应用主要有以下几个方面：

2.1 提供展品导览

展品导览一般用于博物馆、档案馆及提供展览功能的图书馆，随着信息化不断发展，互联网+也将成为这些馆舍的发展方向，传统的展品展示一般是以明牌解说的形式，内容方法单一，将MVS应用到展品导览中，不仅能提供能展品的文字介绍，还能够提供多媒体信息，为参观者带来更加生动的互动体验。国外在这方面的探索，主要有Erich Bruns等人提出的名为PhoneGuide的博物馆导览系统，该系统利用手机进行对展品进行拍摄，来提供对象的文本、视频、音频等多媒体信息[14]，在2010，2012年，Erich Bruns又利用多图像分类技术（multi-image classification technique）对其进行改进，提高其自适应性[15][16]。钟志鹏提出一种基于移动视觉搜索的博物馆导览系统，该系统基于移动视觉搜索和GPS定位技术，为用户提供语音解说、文字图片甚至是音频、视频等多媒体信息[17]。

2.2 实现精准定位

精准定位一般应用于图书查找，现代图书馆为了更好的满足读者的需求，馆舍体量越来越大，实现大开架布局，推行“藏、查、借、閱、参”一体化服务，相应的功能布局较为分散，对图书馆不熟悉的读者来说，仅凭索书号来找书是一个很繁琐的过程。将移动视觉搜索技术应用到图书馆，读者可以通过手机拍摄图书相关信息，获得相关的图书的地理位置和导航，不仅会大大缩减读者找书时间而且提高了找寻的精度。国外这方面的应用研究较多，迈阿密大学的Bo Brinkman等人设计了名为ShelvAR的排架系统，来实现图书的快速精准定位[18]；印度的Pradeep Siddappa设计了librARi应用程序，可以直接拍照来搜索图书的物理空间，并通过对书架进行拍摄来找出相关书籍在书架上的位置[19]。

2.3 提升阅读体验

将移动视觉搜索技术与阅读相结合，用户面对的将不再是文字本身枯燥的内容，还可以获取图书的评价、与该图书内容相关的音频视频，更甚者，可以获得与之相关的三维立体形象，让用户体会到交互式阅读的乐趣。JISC-funded data centre at the University of Manchester和John Rylands Library开展的SCARLET项目，利用MVS技术拍摄古籍时，屏幕上就会显示古籍的文字图片等信息，用户还可以对图片进行翻页操作、收听相关的音频资料等，突破了传统阅读习惯，大大提高了古籍的利用率和用户的使用体验[20]。

3 移动视觉搜索未来发展方向

随着移动智能终端、云计算等的高速发展，移动视觉搜索必将在技术发展的基础上，以满足用户互动性、个性化需求为驱动，形成新的服务模式，未来MVS有以下几个研究重点。

3.1 移动视觉搜索标准化问题

随着MVS的高速发展，移动视觉搜索面临的对象数据、工具、系统等方面的标准统一问题，特别是多样化的视觉搜索需要解决的系统互操作性挑战，为了推进这一标准的建立，世界各国的科研机构和公司进行了相关研究，北京大学的数字视频编解码技术国家工程实验室，美国的斯坦福大学、意大利电信集团等都参与了MPEG CDVS视觉搜索国际标准的指定，并已经取得了初步成就，发布了一系列包括视觉描述紧凑子提取、视觉检索流程等国际标准。

3.2 关注用户体验

由于移动终端的高速发展，用户获取视觉对象更加便捷，因此，需要及时获取用户的需求，从而满足不同用户的信息服务需求，目前移动视觉搜索的研究学科多集中于工程学科，但随着技术的发展，基于用户需求的应用也将是MVS的重要发展方向，北京大学的Sang J关注用户体验，理解用户意图，提出了一种基于交互的MVS原型，帮助用户制定自己的视觉意图，来提高用户体验[21]。

3.3 视觉对象数据库构建

视觉对象库的构建是移动视觉搜索的重要方面，相对于视觉检索构建的图像数据库，视觉对象数据库很明显不仅包括与之相似的强大的图像库，还必须包括与图片的一系列相关信息，但是，目前针对此方面的研究相对较少，且大部分研究均集中于图像数据库的构建，关联信息研究则是更少。不过，随着互联网科技的发展，相关课题也正进入人们的视线，北京大学和南洋理工大学则是共建ROSE项目，拟建设成亚洲最大的视觉对象数据库，从包括淘宝、google、flickr、amazon上获取网页、图片、视频数据，通过对这些数据信息的分析，来构建object Database，该项目将集成在包括电子商务、旅游、生活方式爱好等3个领域[22]。

4 结语

MVS技术使得图书馆、博物馆、档案馆与用户之间有了一种全新的、生动的、互动式的沟通方式，其技术应用的研究必将对数字人文领域未来的生存与发展产生深远的影响，在学术界、产业界的共同努力下，协同增强现实、跨媒体检索等技术的共同发展，移动视觉搜索必将成为Web3.0时代下互联网革命性服务模式。

参考文献：

[1] 张兴旺，黄晓斌.国外移动视觉搜索研究述评[J].中国图书馆学报，2014（3）：114-128.

[2] Girod B， Chandrasekhar V， Grzeszczuk R， et al. Mobile Visual Search： Architectures， Technologies， and the Emerging MPEG Standard[J]。 Multimedia IEEE， 2011（3）：86-94.

[3] Tuytelaars T， Mikolajczyk K. Local invariant feature detectors： a survey[J].Foundations and Trends in Computer Graphics and Vision， 2007（3）： 177-280.

[4] Jégou H， Douze M， Schmid C， et al. Aggregating local descriptors into a compact image representation[C].IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society， 2010：3304-3311.

[5] Chen D， Tsai S， Hsu C H， et al. Mobile augmented reality for books on a shelf[C]//Multimedia and Expo （ICME），2011 IEEE International Conference on. IEEE， 2011： 1-6.

[6] Zhang Y，Wei K B. Research on wide baseline stereo matching based on PCA-SIFT[C]// Advanced Computer Theory and Engineering （ICACTE），2010 3rd International Conference on. IEEE， 2010：V5-137-V5-140.

[7] 丁湘楠，謝正忠，宋晓宁.基于LDA的SIFT算法在图像配准中的应用[J].电子设计工程，2013（11）：186-189.

[8] Ye J， Shi S， Chen Y. A face recognition algorithm based on LLE-SIFT feature descriptors[C].Computer Science & Education （ICCSE）， 2015 10th International Conference on. IEEE， 2015.

[9] CDVS.Test Model 13： Compact descriptor for visual search[S].N15129， ISO/IEC JTC1/SC29/WG11， Geneva，Switzerland，Feb.2015.

[10] Li D， Chuah M C. EMOVIS：An Efficient Mobile Visual Search System for Landmark Recognition[C]// Mobile Ad-hoc and Sensor Networks （MSN）， 2013 IEEE Ninth International Conference on. IEEE， 2013：53-60.

[11] Gao K， Zhang Y， Zhang D，et al. Accurate off-line query expansion for large-scale mobile visual search[J].Signal Processing， 2013（8）：2305-2315.

[12] Wikipedia. Google Goggles[EB/OL]. https：//en.wikipedia.org/wiki/Google_Goggles.2016-07-02.

[13] Katy Barrett. From pamphlet to pixel： the humanities in transition[EB/OL].http：//www.cam.ac.uk/research/discussion/from-pamphlet-to-pixel-the-humanities-in-transition.2017-07-10.

[14] Bruns E， Brombach B， Zeidler T， et al. Enabling mobile phones to support large-scale museum guidance[J].IEEE multimedia， 2007（2）.

[15] Bruns E， Bimber O. Mobile museum guidance using relational multi-image classification[C]//Multimedia and Ubiquitous Engineering（MUE），2010 4th International Conference on. IEEE， 2010： 1-8.

[16] Bruns E，Bimber O.Localization and classification through adaptive pathway analysis[J].IEEE Pervasive Computing， 2012（2）：74-81.

[17] 钟志鹏，王涌天，陈靖，等.一个基于移动视觉搜索技术的博物馆导览系统[J].计算机辅助设计与图形学学报， 2012（4）：555-562。

[18] Brinkman B， Brinkman S. AR in the library：A pilot study of multi-target acquisition usability[C]//Mixed and Augmented Reality （ISMAR），2013 IEEE International Symposium on. IEEE，2013：241-242.

[19] Pradeep Siddappa. librARi-Augmented reality experience for library[EB/OL].http：//www.behance.net/gallery/20711093/librARi-Augmented-Reality-Experience-for-Library.2016-07-25.

[20] ALT.The SCARLET Project： Marrying Augmented Reality and Special Collections[EB/OL].https：//altc.alt.ac.uk/blog/2012/06/the-scarlet-project-marrying-augmented-reality-and-special-collections/.2017-07-10.

[21] Sang J， Mei T， Xu Y Q， et al. Interaction Design for Mobile Visual Search[J].IEEE Transactions on Multimedia， 2013（7）：1665-1676.

[22] Rapid-Rich Object Search Lab.Structured Object Database[EB/OL].http：//rose.ntu.edu.sg/research/Structured%20Object%20Database/Pages/Home.aspx.2016-06-25.