基于复杂网络描述的图像深度卷积分类方法

时间：2024-05-04

洪睿, 康晓东, 郭军, 李博, 王亚鸽, 张秀芳

(天津医科大学医学影像学院, 天津300203)(*通信作者电子邮箱hr8229862@163.com)

0 引言

纹理是非常重要的图像识别特征之一，对图像纹理进行合理描述是图像分类识别的基础，图像纹理包含了非常丰富的图像信息，可以应用于多种任务，如基于内容的图像检索、图像分割、图像融合、图像分类或者聚类等。图像纹理特征描述的方法主要有基于几何学的特征描述、基于模型的特征描述、基于信号处理的特征描述，以及基于统计的特征描述。基于复杂网络模型的纹理特征描述方法属于基于统计的特征描述的一种，具有稳定性好、抗噪声能力强等优点[1]。

在计算机视觉领域，图像分类一直是研究的重点之一。传统基于特征的图像分类方法都是先定义一种特征，再根据预先定义的特征进行分类识别，存在着泛化能力弱、可移植性差、准确度相对较差的缺点。深度学习作为机器学习的重要发展，能够逐层地自动学习合适的表示特征，因而在众多领域中得到了广泛应用，如人脸特征点检测[2]、行人检测[3]、人脸识别[4]和车牌识别[5]等。卷积神经网络作为深度学习的三大重要模型之一，继承了深度学习技术自动提取特征的优点，并且通过权值共享大大减少了所需要训练的参数，使卷积神经网络(Convolutional Neural Network, CNN)能快速处理高维图像，还具备一定的平移不变性，因此在图像分类领域取得了较好的效果,其在手写数字识别以及人脸识别方面都被验证有着较好的性能。

20世纪80年代，Fukushima等[6]提出了第一个多层次的神经网络模型Neocognitron。Lecun等[7]构建了LeNet-5模型，该模型首次提出了使用梯度反向传播算法(Back Propgation algorithm, BP)，对卷积神经网络进行有监督训练；当时在MNIST 数据集上取得了最好的识别效果，其模型采用交替连接的卷积层和池化层，最后通过全连接层分类，确立了现代卷积神经网络的基础，后来的大多数卷积网络模型都是以LeNet-5模型为基础的。Krizhevsky等[8]提出的AlexNet模型在2012年的ImageNet图像分类竞赛中大放异彩，错误率比上一年的冠军下降了10个百分点，且远远超过当年的第二名；也因此将深度CNN(Deep CNN, DCNN)启动了在图像分类研究方面的广泛应用，对后来的VGG[9]、ResNet[10]、Google Net[11]等模型都具有非常深刻的影响。

为了在不增加较多计算量的前提下，提高卷积网络模型用于图像分类的正确率，本文提出了一种基于复杂网络描述的图像深度卷积分类方法。首先，以复杂网络的图像描述方法，将图像转化为基于三个不同阈值产生的三组度矩阵；然后，由三个深度卷积网络分别学习三组度矩阵的特征；最后，将得到的特征向量进行特征融合。在ILSVRC2014数据库上进行了验证实验，实验结果表明，所提出的模型具有较高的正确率和较少的迭代次数。

1 深度卷积网络

图像分类是通过对图像整体的分析，预测图像的类别。图像分类是计算机视觉的挑战领域之一，每年有赛事ILSVRC (Imagenet Large Scale Visual Recognition Challenge)[12]。在ILSVRC2012中，来自多伦多大学的Alex Krizhevsky团队设计出卷积神经网络AlexNet，将测试的top-5 错误率下降到15.3%，而其他团队做出的最小的top-5 错误率仍为26.2%。此后，不断有更加高效、准确的模型出现，如牛津大学的VGG[9]、谷歌研究院的GoogLeNet[10]等。近年来的优秀模型甚至突破了人眼识别的平均错误率，展示了卷积神经网络在图像分类上的强大优势。卷积神经网络需要用带有标签的数据集做有监督的网络训练，目前有许多用于图像分类的带标签数据集，如ImageNet[13]、CIFAR10/100[14]、NORB[15]、Caltech-101/256[16]等。ILSVRC 使用的为ImageNet 数据集的子集，该子集包含1 000 个分类、128万张测试图片。

AlexNet 最终的网络结构共有7层，包含5个卷积层和2个全连接层，有约65万个神经元和6 000万个可训练的参数。采用dropout 和激活函数ReLu 等技术，训练环境为2 路GTX580，对128万测试图片的训练周期在5～6天，与之前的卷积神经网络相比，在分类正确率和训练时间上都有明显提升。

2 复杂网络模型

复杂网络存在大量的静态统计特征描述量，如度、网络直径、平均路径长度、聚类系数、最大度和最大核数等。这些特征量可以用来度量复杂网络的重要属性，如网络的表示、分类和建模等[17]。

动态演化是复杂网络的一个重要特征。在动态演化过程中，复杂网络的特征度量是一个时间的函数，在同一种演化方式下，不同时刻得到的两个子网络具有不同的特征。因此，用复杂网络动态演化过程中不同时刻的静态统计特征量来进行网络的分析与分类是十分重要且有效的一种方式[18]。

目前，基于复杂网络理论的图像描述方法受到了越来越多研究者的关注[19]。Gonçalves等[20]通过对人脸图像建立复杂网络模型，实现了人脸图像的特征提取与识别。Backes等[21]利用复杂网络对图像边缘进行建模，实现了图像形状特征提取。汤进等[22]在Harris特征点的基础上建立复杂网络模型，实现了图像的形状特征提取。Couto等[23]通过建立图像的复杂网络平均度矩阵，在平均度矩阵的基础上运行部分自回避确定性游走算法，实现了图像的纹理特征提取。由于基于复杂网络的图像描述是基于复杂网络静态统计特征量的特征描述，相比于传统的图像描述方法，该类方法具有稳定性好、抗噪声能力强等优点。

3 基于复杂网络的DCNN图像分类

3.1 复杂网络度矩阵

本文根据复杂网络的静态统计量建立图像在不同阈值下的度矩阵，通过统计网络节点在每个状态下的度分布完成图像的描述。

文献[17]中提出了一种建立图像复杂网络模型的方法，将图像的每个像素看作是复杂网络的一个节点，并认为每个节点之间都有边相连，边的权值由两个像素之间的距离和灰度差的加权和决定。通过设定一系列边权值的阈值对初始的复杂网络完全图模型进行阈值动态演化，权值高于阈值的边被删去，得到的就是距离较小且像素值相近的像素之间的边。为了简化复杂网络模型，本文选取节点周围与其距离小于3的28个节点作为邻域，只有在邻域内的节点可以有边相连。文献[17]中两个节点i(x,y)与j(x′,y′)之间边的权值w(v(x,y),v(x′,y′))为节点之间距离与节点代表的像素的灰度值差的加权和，为了使节点的度分布更加均匀，本文采用的权值w为以上两项的直接加和，如式(1)所示；

|I(x,y)-I(x′,y′)|

(1)

文献[17]方法和本文方法得到的度矩阵元素分布如图1所示。

在将得到的边权值归一化之后，设定一系列阈值t，节点之间边权值高于阈值的边将被删去，得到每个节点与阈值对应的邻域θ(vt)和度deg(vt)。如式(2)～(3)所示。

θ(vt)={v′∈V|(v,v′)∈E&w(v,v′)≤t}

(2)

deg(vt)=|θ(vt)|

(3)

度矩阵可以作为衡量像素与邻域的相似度的标准，同时也包含大量的纹理信息。原始图像和阈值t分别为0.8、0.7和0.6时生成的度矩阵图像如图2所示。

图1 不同方法得到的同一图像同一阈值的度矩阵元素分布直方图Fig. 1 Degree matrix element distribution histograms of same image with same threshold acquired by different methods

图2 原始图像及其度矩阵图像Fig. 2 Original image and its degree matrix images

3.2 深度卷积网络

DCNN一般由卷积层、池化层、全连接层三种神经网络层以及一个输出层(Softmax 等分类器)组成，每层由多个二维平面块组成，每个平面块由多个独立神经元组成，AlexNet模型的结构示意图如图3所示。

卷积层通过局部感受域与上一层神经元实现部分连接，在同一局部感受域内的神经元与图像区域中对应像素有固定二维平面编码信息关联，迫使神经元提取局部特征，在每层的各个位置分布着许多组不同的神经元，每组神经元有一组输入权值，这些权值与前一层神经网络矩形块中的神经元关联，即共享权值，减少了权值数量，降低了网络模型的复杂度。卷积层在DCNN中起着至关重要的特征提取的功能，通过局部感受域方法获取的观测特征与平移、缩放和旋转无关，其权值共享结构减少了权值数量，进一步降低了网络模型的复杂度。

图3 AlexNet模型结构示意图Fig. 3 Structure schematic diagram of AlexNet model

池化层是特征映射层，选择卷积特征图中不同的连续范围的作为池化区域，然后取特征的最大值或平均值作为池化区域的特征，从而减小特征向量维度，实现局部平均和抽样，使特征映射输出对平移、旋转、比例缩放等形式变换的敏感度下降。池化层通常跟在卷积层之后，这样便构成了一个两次特征提取的结构，从而在对输入样本识别时，网络有很好的畸变容忍能力。

全连接层是本层神经元与上层神经元两两连接但本层神经元之间不连接的结构，相当于多层感知器(Multi-Layer Perceptron, MLP)中的隐含层，局部特征信息作为输出层(Softmax等分类器)的输入，其后不再接卷积层，因通过全连接层之后，图像特征已由二维信息降为一维信息，无法进行二维卷积运算。

本文提出的基于复杂网络描述的图像深度卷积分类方法结构图如图4所示。

图4 本文方法流程图Fig. 4 Flow chart of the proposed method

由图4可以看出，对于1张彩色图像，其RGB3个维度上的分量均可视为1张图像，由每个分量图像可得到3个复杂网络模型度矩阵，即为3组(9个)度矩阵；将每个分量得到的度矩阵作为AlexNet的输入，学习得到3组图像的特征；再将特征融合，由分类器得到分类结果并输出。

4 实验结果与分析

为了验证本文方法的有效性，本文对ILSVRC2014数据库的样本进行了分类仿真实验。实验环境为联想80SH、4 GB内存、Windows 10系统。选取10类图像中的100张，共1 000张图像作为分类的训练集合；选取这10类图像中另外200张作为样本集合；进行K近邻(K-Nearest Neighbors,KNN)分类，分类原则为K=1，分类判别距离为欧氏距离。复杂网络描述中，阈值选取在0.5到0.9 之间，实验验证阈值在0.5到0.9之间能保留更多的信息，保证分类实验较高的正确率；当阈值小于0.5时，随着阈值下降，产生的度矩阵能保留的原图信息非常少。实验共设置3个阈值，由三组AlexNet生成3 000维的特征向量。实验中对比模型AlexNet、VGGNet和在VGG模型的基础上使用复杂网络描述的神经网络模型，最大迭代次数设为500次，每50次迭代进行一次验证并输出分类正确率。

随着迭代次数的变化，不同网络模型的分类正确率如图5所示。由图5可以看出，当迭代次数为50时，AlexNet的分类正确率为24%，最终收敛于85%；迭代次数为50时，本文方法分类正确率为50%，最终收敛于90%；在迭代次数为50时，VGG模型分类正确率为73%，最终收敛于94%；而在VGG模型上使用复杂网络描述(Complex Network Description, CND)的神经网络模型(CND+VGG)最终的数据结果与VGG模型的结果几乎相同。

图5 不同网络模型随着迭代次数变化的分类正确率Fig. 5 Classification accuracy of different network models with different number of iterations

实验结果表明，与AlexNet相比，本文提出的方法分类正确率较高，且较早收敛；与VGG相比，本文方法较差，仍有改进空间；由于AlexNet 与VGG相比，网络结构较为简单，增加一个复杂网络描述层之后，分类正确率有明显的改进，而VGG由于其网络层数较多，增加复杂网络描述层之后，结果并没有明显变化。

为了验证复杂网络描述方法中阈值大小选取，以及AlexNet网络模型的第一层卷积核大小对于正确率和收敛时迭代次数的影响，改变第一个卷积核的大小，分别记录了最高正确率和收敛时迭代次数，结果如表1所示。其中，高阈值为0.8、0.7、0.6，低阈值为0.4、0.3、0.2。

表1 复杂网络描述方法及卷积网络模型第一层卷积核大小的影响Tab 1 Influence of complex network description method and kernel size of convolution network model first layer

实验结果表明，选择复杂网络描述方法的阈值选择和深度卷积网络第一层卷积核大小对正确率和收敛时迭代次数的影响较大。选取较高的阈值能得到较高的正确率，但是收敛时迭代次数较高；选取合适10×10或者9×9的首层卷积核大小能得到较高的正确率和较少的收敛时迭代次数。

5 结语

为了在不增加较多计算量的前提下，提高卷积网络模型用于图像分类的正确率，本文提出了一种基于复杂网络描述的图像深度卷积分类方法。该方法以复杂网络的描述方法构建度矩阵，然后采用AlexNet进行特征学习，完成图像分类的工作。与主流分类模型VGGNet、AlexNet的对比实验结果表明，本文提出的方法具有较高的图像分类正确率，迭代次数收敛较早，具有较强的稳定性和一定的提升空间。