基于神经网络的古钱币图像检索研究

时间：2024-05-18

施雨于瓅吴明祥胡梦龙

摘要：古钱币是我国重要的文化遗产，具有较高的文化和艺术价值，为了加强对古钱币的保护，需要对其进行识别和检索。针对古钱币图像的检索问题，该文提出了一种基于卷积神经网络和二进制编码的方法，该方法的基本思想是在卷积神经网络架构中增加编码层，同时学习古钱币图像的特征表示和编码。使用卷积神经网络提取古钱币图像的特征，随后对提取的特征进行激活和阈值化处理，离散化为二进制编码，随后待检索的古钱币图像输入该框架得到二进制编码，从而可以在海明空间中完成古钱币图像的有效检索。在数据集上的实验结果表明，利用该文方法的检索性能优于传统检索方法。

关键词：图像检索卷积神经网络特征表示二进制编码

中国是世界上最早使用货币的国家之一，从秦代方孔圆钱，到清末机制币，数以万种千姿百态的钱币构成了当今钱币收藏领域中最为庞大的收藏门类[1]。经过五千年的发展，我国形成了独特且璀璨的钱币文化，古钱币作为中国历史文化的载体，具有较高文化价值和艺术价值。虽然古钱币数量和种类较多，但是近些年由于网络的发展，借助网络渠道进行非法交易和偷盗的非法行为正在逐渐加速文物的流失。因此，出于对文物的保护，需要对文物进行识别、追踪和检索;另一方面，为了满足广大收藏爱好者对收藏文物的需要，对于古钱币的识别和检索的需求十分迫切。

图像检索技术早期是基于文本的图像检索（Text-Based Image Retrieval， TBIR），现已逐步发展为基于内容的图像检索（Content-Based Image Retrieval， CBIR）。CBIR技术以图像视觉特征或与图像相似的草图作为用户查询和系统检索的依据[2]。图像的视觉特征包括SIFT[3] （Scale-Invariant Feature Transform）、HOG[4]（Histogram of Orientated Gradients）等。与传统的手动提取特征的方法相比，深度卷积神经网络（Convolutional Neural Networks， CNNs）能更好地提取图像的内在特征，并且在历届ILSVRC的目标检测、图像分类、图像分割各个比赛中都取得不错的效果。

卷积神经网络是深度学习研究领域的一种架构，1990年，LeCun等提出了现代卷积神经网络的原始版本LeNet，随后于1998年提出基于梯度学习的LeNet-5模型[5]。因受限于数据量大小和计算速度的不足，当时的网络在分类任务中的表现不佳。2012年，Krizhevsky等饿[6]提出AlexNet架构，夺得ILSVRC2012的图像分类任务的冠军，对比传统机器学习方法，其表现已相当出色。该文将采用卷积神经网络对古钱币数据集的图片进行二进制编码，得到每张古钱币图像的二进制编码，可用该二进制编码用于图像检索。

1 该文方法

模型的输入为古钱币图像及其类别标签信息，主要包括3个部分：（1）卷积子网络，用来学习表示古钱币图像的特征;（2）编码层，将第二个全连接层输出的特征向量激活、阈值化处理并生成二进制编码;（3）损失层，采用Softmax损失函数。首先输入古钱币图像，进入卷积子网络得到图像的特征向量;其次进入编码層，将特征向量转换为二进制编码;最后进入损失层计算损失函数，优化损失函数得到模型的参数。

1.1 卷积子网络

卷积子网络用于学习图像的特征表示，输入图像经过一系列卷积、池化等操作后们可以得到图像的特征向量。该文采用AlexNet[6]模型作为基本架构，其中包括5个卷积层、3个最大池化层和2个全连接层。输入图片大小为224×224，经过核大小为11×11、步长为4的卷积层处理后输出55×55×96的向量，随后进行LRN（Local Response Normalization，局部响应归一化）处理，接着经过3×3、步长为2的最大池化操作，输出27×27×96的向量。与此类似，经过一系列卷积、池化操作后，进入全连接层6和全连接层7，最终输出4096×1用来表示图像特征的特征向量。

1.2 编码层和损失层

图像经过全连接层7后产生特征向量x之后，将进入编码层。首先对x进行sigmoid函数处理，将一维向x量映射为[0，1]之间的数值，得到激活层输出向量s。假设特征向量x的维数为n，则输出向量s维数也为n，该过程表示为：

经过激活层得到的向量s随即进入阈值化层，阈值化层主要将激活层映射到[0，1]之间的连续值离散化为0和1，将大于阈值的值处理为1，小于阈值的值处理为0，这里选取阈值为0.5，该过程表示为：

经过阈值化层处理后，得到图像对应的二进制编码。损失层函数采用Softmax损失函数，阈值化层得到的编码进入Softmax分类器进行分类，通过优化Softmax损失函数来获得模型的参数。

2 实验结果分析

2.1 实验设置

为了验证该文方法的有效性，在手动采集的古钱币数据集上进行模型实验。该数据集包含10000张大小为224×224的古钱币彩色图片，包含康熙年间的10类钱币样式，现从每个类别中随机选取9000张图像作为训练集和1000张图像作为测试集。

该文采用MAP、海明距离2以内的准确率曲线以及top-k准确率曲线这3个参数进行评估。其中，MAP即图像平均检索精度（mean average precision， MAP），MAP即为几次检索结果AP的平均值，AP为不同召回率上的正确率的平均值。海明距离2以内的准确率曲线是与检索图像汉明距离小于2的图像中与检索图像类别一致的结果所占比例。top-k准确率是与检索图像距离最小的k张图像中与检索图像类别一致的结果所占比例。

2.2 实验结果分析

將该文采用的方法记为CNNC，表1给出在数据集上该文算法与其他算法MAP值的比较结果。从表1中可以看出，该文算法的MAP值远远高于手工提取的特征与哈希方法结合的算法KSH和ITQ，因为该文采用的深度卷积神经网络可以能有效地表示图像的特征。

3 结语

该文提出了一种卷积神经网络模型，可以有效地对古钱币图像进行特征的表示并且生成二进制编码。模型生成的二进制编码能够在有效表示图像的同时保证图像检索的精度，并且实验结果表明：该文采用的方法与其他结合手工提取特征和哈希的方法相比有更好的检索精度。

参考文献

[1] 古钱币在古玩界成为新宠[J].文物鉴定与鉴赏，2019（5）：164-165.

[2] 杭燕，杨育彬，陈兆乾.基于内容的图像检索综述[J].计算机应用研究，2002（9）：9-13，29.

[3] LOWE DG. Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision，2004，60（2）：91-110.

[4] Dalal N，Triggs B.Histograms of oriented gradients for human detection[A].2005 IEEE Computer Society Conference Computer Vision and Pattern Recognition[C].2005：886-893.

[5] Lecun Y，Bottou L，Bengio Y，et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE，1998，86（11）：2278-2324.

[6] Krizhevsky A，Sutskever I，Hinton G.ImageNet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM，2017，60（6）：84-90.

[7] Yunchao Gong，Lazebnik S.Iterative quantization：A procrustean approach to learning binary codes[A].2011 IEEE Conference on Computer Vision and Pattern Recongnition[C].2011：817-824.