基于自适应图像增强和CNN的少数民族服饰图像分类研究

时间：2024-05-04

候红涛，汪威，申红婷，刘宽，杨秀璋，罗子江

（1.贵州财经大学信息学院，贵阳 550025；2.北京盛开智联科技有限公司，北京 101300）

0 引言

少数民族服饰传统文化是整个中华民族文化的瑰宝，对其纹理样式、绣花雕饰、图腾标志、头饰绣花的研究，能有效地保护和传承少数民族服饰传统文化，并对将民族元素融入现代时尚中起着重要的作用［1-4］。当今社会，许多学者对非物质文化的传承和保护进行研究，但这些研究大多数都还停留在传统的人工处理阶段，通过博物馆收藏服饰和人工分类来进行静态保护，较少有人对这些服饰进行自动分类和识别研究［5］。面对海量的少数民族服饰图像，人工分类方法效率低且成本高，无法满足信息化时代对少数民族服饰图像自动分类提出的新要求。同时，受光照强度、拍摄角度、纹理精小、背景复杂等因素影响，少数民族服饰图像识别率较低，传统的图像分类效果不理想。因此，利用数字化方法和计算机技术来自动提取少数民族服饰元素，对海量民族服饰图像进行分类具有重要的研究意义和应用价值［6］。

本文提出一种基于自适应图像增强和卷积神经网络的少数民族服饰图像分类算法，通过计算复杂环境下的少数民族服饰图像的均值亮度来判断，采用不同算法进行图像增强处理，使图像具有更强的鲁棒性和适用性；接着利用卷积神经网络训练不同少数民族服饰图像的局部特征，学习少数民族服饰的不同风格和纹理特色，最终实现服饰图像的自动分类。该技术也可以广泛运用于各领域的图像分类处理。

1 相关研究工作

随着计算机视觉迅速发展，图像分类技术已广泛应用于各行各业，比如农产品检测［7］、车牌识别［8］、医学图像分类［9］、车型分类［10］、手写文字识别［11］、人脸表情识别［12］、疲劳驾驶检测［13］等。目前，将计算机视觉技术应用到民族服饰文化研究还处于初步阶段，部分学者提出了相关方法，主要是通过KNN、SVM、决策树等机器学习算法对少数民族服饰图像进行分类［4］，基本流程如图1所示。利用计算机提取民族服饰图像的灰度、颜色、纹理、形状等底层特征，再用训练好的分类器进行预测，以代替人类的视觉判断。

图1 传统的图像分类算法流程图

陈金广等［14］采用SIFT 和SURF 算法提取清代宫廷服饰图案，并通过最优节点优先算法对所提取的特征匹配点进行确认。Hu 等［15］采用分类算法对服饰的底层特征进行分析。吴圣美等［4］通过融合多任务学习和人体检测来识别少数民族服装。程远菲［5］利用支持向量机建立分类模型，对提取的HOG 和融合特征进行少数民族服饰分类识别。曹春梅［16］改进了基于RANSAC 的特征点匹配算法，从而提升民族服饰图案识别准确率。Hidayati 等［17］通过基于视觉可区分的服装设计元素算法自动分类不同风格的服装。Bossard 等［18］采用随机森林和SVM 算法对服饰图像进行分类，并提出一套完整的检测流程。但上述方法缺乏对少数民族服饰的细节特征学习和语义信息分析，并且由于少数民族服饰图像受人体姿势、拍摄角度及视觉遮挡等影响，降低了图像分类和识别的准确率。

2 图像分类模型设计

2.1 算法整体框架

本文所提出算法的整体框架如图2所示。

图2 本文算法的整体框架图

（1）首先自定义爬虫采集少数民族服饰图像，构建包含了5 种少数民族服饰的图像数据集，并按照训练集和测试集7∶3 的比例进行随机划分。

（2）其次，分别对训练集和测试集图像进行预处理和自适应图像增强操作，判断图像的光线、亮度、背景等复杂环境，通过图像增强过滤噪声。

（3）接着提取少数民族服饰图像的特征，并利用卷积神经网络训练分类器，获取各少数民族服饰的细节信息和纹饰特征。

（4）最后利用训练好的分类器对待识别图像进行预测，判断其少数民族服饰图像所属的民族。

2.2 基于卷积神经网络的图像分类

卷积层旨在提取输入图像的数据特征。通过卷积核的滑动来过滤输入图像的各个子区域，将过滤器与对应位置的图像像素做乘积求和运算，其卷积操作如公式（1）所示。

式中，yi表示卷积后的结果，wi表示卷积核的参数，xi表示原始图像的像素值。CNN将输入图像卷积的过程映射到神经网络中，如公式（2）所示。

其中，表示第l层的第j个特征图所对应的卷积核，表示输出特征图的偏置项，表示第l-1 层的第i个特征图，Mj表示选择的输入图的集合，f表示激活函数。

池化层旨在降低数据维度，减少数据量，同时能保持图像特征统计属性并有效避免过拟合现象。池化层的计算公式如（3）所示。

其中，表示对应的系数，表示第l层第j个特征图的偏置项，down表示采样函数。

本文的图像分类模型如图3所示，输入图像为5个民族的彩色女性少数民族服饰图像，经过第一个卷积层并调用ReLU 函数激活，输出维度为28×28×20，再经过第一个池化层处理，输出维度为14×14×20；经过第二个卷积层并调用ReLU 函数激活，输出维度为10×10×40，再经过第二个池化层处理，输出维度为5×5×40；通过两个全连接层并调用Dropout 解决过拟合现象；最终输出层为5 个特征，分别代表白族、苗族、蒙古族、维吾尔族和藏族的服饰图像分类结果。该算法通过图像多层卷积和池化，逐渐提取深层次的图像特征和少数民族服饰细节信息，从而优化图像分类结果。

图3 基于卷积神经网络的图像分类模型

2.3 自适应图像增强算法

本文提出算法在进行卷积神经网络计算之前，针对不同的环境进行自适应图像增强处理。在原有图像分类基础上增加了图像亮度溢出值的范围判断和图像增强处理，为进一步的少数民族服饰图像分类提供良好的环境，提高分类准确率。

该算法基本流程如图4所示，其过程为：首先获取图像像素的均值亮度，再由均值亮度判断少数民族服饰是否进行图像增强处理；当均值亮度大于等于180时，图像处于曝光状态，明暗程度不均衡，此种情况采用伽马变换降低对比度，提高图像明暗程度，实现图像增强处理；当均值亮度在100 至180 之间时，图像是足够清晰的，不需要进行图像增强，直接输入原始图像进行后续的图像分类；当均值亮度在40 至100之间时，图像明暗程度会出现暗部区域较广泛的现象，采用自动色彩均衡算法处理，提高对比度并增强色彩均衡；当均值亮度小于40时，图像明暗程度趋于暗部，此时采用彩色直方图均衡算法进行图像增强，能够在提高图像对比度的同时，保留原图像的细节。

图4 自适应图像增强算法流程图

2.3.1 伽马变换

伽玛变换主要用于图像增强或校正。其原理是降低灰度过高的像素值，增强灰度过低的像素值，从而增强图像的对比度。如公式（4）所示。

图5展示了白族服饰图像经过伽马变换前后的对比效果，拉伸后的图像色彩更均衡，细节更清晰，且保真程度极高。

图5 伽马变换图像增强前后对比图

2.3.2 自动色彩均衡算法

Retinex 算法是典型的图像增强算法，它根据人类视网膜和大脑皮层模拟对物体颜色的波长光线反射能力而形成，对图像边缘有一定自适应增强。自动色彩均衡（automatic color enhancement，ACE）算法是在Retinex 算法的理论基础上提出的，旨在利用目标像素点和周围像素点的明暗程度及关系来校正图像，实现图像的对比度调整。其计算公式如下所示：

其中，w是权重参数，g是对比度调节参数，其计算方法如公式（6）所示，a表示控制参数，该值越大细节增强越明显。

图6 是苗族女性服饰图像经过ACE 算法图像增强处理后的对比图，ACE 算法增强原图像的明暗程度，同时更好地保留原图像的细节信息，比如图6中的苗族银饰。

图6 苗族服饰图像增强前后对比图

2.3.3 彩色直方图均衡化算法

民族服饰图像的直方图均衡化处理能增强图像的对比度，提高图像的细节。当均值亮度小于40 时，图像明暗程度趋于暗部，此时采用彩色直方图均衡算法进行图像增强，能够在提高图像对比度的同时，保留原图像的细节。图7展示了蒙古族服饰彩色直方图均衡化处理前后的效果图。

图7 彩色直方图均衡处理前后对比图

3 仿真实验分析

3.1 实验数据和环境

本文利用网络爬虫采集并挑选了5000 张不同女性少数民族服饰的图像，包括白族、苗族、蒙古族、维吾尔族和藏族。同时，将训练集和测试集按7∶3 的比例随机划分，得出如表1 所示的图像数据集。

表1 实验数据集

实验采用GPU 搭建TensorFlow 框架实现，程序利用Python 3.6 编写，并进行了详细的仿真对比实验。

3.2 评价指标

评价指标为准确率（Precision）、召回率（Recall）和F1 值（F1-measure），最终结果为10 次图像分类实验结果的平均值。计算公式如下：

其中，N表示正确分类的少数民族服饰图像数，S表示实际分类的少数民族服饰图像数，T表示真实存在的少数民族服饰图像数。Precision反映图像分类为正确目标中真正的正样本比重，Recall反映图像分类为正确目标中正样本占总的正样本比重，F1-measure 是准确率和召回率的平衡指标。

3.3 实验结果与分析

3.3.1 传统基于机器学习的图像分类仿真实验

首先进行传统的机器学习图像分类实验。表2是KNN算法的图像分类实验结果，由表2可知，维吾尔族数据集的F1 值最高，其准确率、召回率和F1值分别为0.7241、0.6000、0.6563。

表2 基于KNN算法的图像分类结果

表3 是SVM 算法的图像分类实验结果，其结果稍优于KNN 算法。其中，F1 值最高的为藏族，值为0.7368，与KNN 算法相比，藏族数据集的F1值提高了0.1019。

表3 基于SVM算法的图像分类结果

3.3.2 本文提出算法的图像分类仿真实验

CNN 对数据集训练的整体误差从最初的高值逐渐降低并收敛，其误差最终收敛至小于0.0002。表4 展示了通过自适应图像增强和卷积神经网络算法处理后的图像分类实验结果，其准确率、召回率和F1值均高于传统的方法。

表4 基于图像增强和CNN算法的图像分类结果

图8表示利用卷积神经网络和自适应图像增强算法图像分类预测正确的部分少数民族服饰图像，其中图8（a）、图8（f）、图8（k）被正确预测为“白族”；图8（b）、图8（g）、图8（l）被正确预测为“苗族”；图8（c）、图8（h）、图8（m）被正确预测为“蒙古族”；图8（d）、图8（i）、图8（n）被正确预测为“维吾尔族”；图8（e）、图8（j）、图8（o）被正确预测为“藏族”。

图8 少数民族服饰的图像分类预测结果

图9展示了各图像分类算法对比实验的平均准确率、平均召回率和平均F1值。由图9可知，本文所提出的算法少数民族服饰图像分类效果更好。相比于传统的KNN 算法，本文改进的CNN 图像分类算法的平均准确率提升了27.50%，平均召回率提升了27.45%，平均F1值提升了27.76%；相比于传统的SVM 算法，本文方法的平均准确率提升了20.66%，平均召回率提升了20.46%，平均F1 值提升了20.62%。相对于传统的CNN 算法，本文结合自适应图像增强算法进行改进，最终平均准确率提升了9.31%，平均召回率提升了9.16%，平均F1值提升了9.02%。综合上述实验，可以看到本文改进算法的效果更好。

图9 各图像分类算法对比实验结果

4 结语

由于少数民族服饰的色彩、样式、纹理繁多，容易受人体姿势、拍摄光线、背景复杂等因素影响，导致传统的少数民族服饰图像识别率较低，图像分类效果不理想，并且无法进行海量的民族服饰自动分类处理。为了解决上述问题，本文提出了一种基于自适应图像增强和卷积神经网络的少数民族服饰图像分类算法。一方面通过自适应图像增强算法降低图像背景噪声，提高图像的对比度并保留原图像的细节，从而为图像分类提供更好的数据集；另一方面通过卷积神经网络学习民族服饰的底层特征和细节信息，从而提升图像分类的效果。实验结果表明，本文提出算法的评价准确率、召回率和F1 值均高于传统基于机器学习的图像分类方法，能有效地进行少数民族服饰图像分类，且性能良好。同时，本文的算法为少数民族服饰信息化处理打下良好基础，为民族文化的传承和保护做出贡献。

然而，本文方法还有一些不足：一方面由于少数民族服饰会随季节、性别、节日、年龄的变化而不同，人体姿势及服饰遮挡等因素也导致了特征提取和图像分类的准确率降低；另一方面，本文仅针对5 个少数民族服饰进行实验，并且数据集规模较小，具有一定局限性。未来，将进一步完善民族图像数据集，尝试结合迁移学习和注意力机制改进模型结构，从而提升图像分类的准确率及效率。