基于K-Means和高斯混合模型的云肩色彩提取方法对比

时间：2024-07-28

陈思燕，方丽英

(1.浙江理工大学服装学院，浙江杭州，310018；2.浙江理工大学国际教育学院，浙江杭州 310018)

中国传统服饰文化有着深厚的历史底蕴，传统服饰特征的差异反映不同民族与时代的差异。在倡导传承传统文化的背景下，越来越多设计师从传统服饰元素中获取创作灵感，许多学者也针对传统服饰的结构、面料、图案和工艺等方面展开研究，并取得了阶段性成果。然而在色彩方面，大多数研究只是围绕中国传统的“五行五色”观念[1-2]，进行综合整理与感性分析，或是对个案展开主观性描述[3-4]；而设计师也只能从大量的画作、色卡书中凭经验提取颜色并直接运用到产品设计中，较少运用计算机信息化处理，缺少技术支撑、耗时较长且容易受个人因素影响。色彩作为辅助服饰品设计的利器，具有直观的文化传承性，因此利用计算机技术对传统服饰色彩进行深入研究显得尤为重要。

为了使量化的数据信息能够反映传统服饰色彩，国内外学者在研究中引入基于聚类算法的计算机图像处理技术。K-means工作原理简单，故在聚类算法中应用广泛，但该算法也存在容易陷入局部最优、初始聚类中心和类簇数目k值难以确定的缺陷。为此，刘家丰等[5]通过直方图的波峰确定K-means的初始聚类中心。在纺织品领域，张旻爽等[6]通过对比K-means在灰度和色相模式下鸟羽色彩的主色系提取结果，得出灰度模式更适用于纺织品图像的色彩提取，但没有解决类簇数目k值的确定问题；刘肖健等[7]利用K-means获取苗绣色彩特征，但人工给予定值k，不适用于未知类别数量的聚类；邢乐等[8]仅针对云肩的绣片底色进行主色彩智能提取，忽略了装饰色和辅助色；孟磊等[9]提出一种针对云肩的色彩特征分析方法，但对色彩提取结果的准确性缺乏验证。相比“硬聚类”K-means，高斯混合模型(Gaussian mixture model，GMM)是一种基于概率聚类的“软聚类”统计模型[10]，在树木、图画等类型图像上有较理想的分割效果。郭晶晶等[11]利用Lab颜色距离和GMM对树木图像进行分割；WATANABE H等[12]利用GMM研究不同的模式分类，并在图像色彩提取实验中获得较精准的结果。

图像分割是图像特征提取的前提，GMM针对部分图像有较好的分割效果，而K-means适用性强，为使设计师能更便捷地利用计算机图像处理技术从传统服饰图像中汲取灵感，文中选取极具特色的服饰品——云肩作为研究对象，利用肘部法确定其类簇数目k值，同时运用K-means和GMM两种聚类算法进行传统服饰图像色彩提取与准确性检验，以期为不同类别的传统服饰图像色彩特征分析提供一定的参考。

1 云肩概况

云肩属于肩领部装饰的女红艺术品，文中选择其作为传统服饰色彩特征提取的研究对象有以下原因：①云肩自隋唐至民国时期多为妇女所用，具有较大的历史传承与创新价值[13]；②已有设计师将云肩的元素融入作品中，色彩是云肩造型的要素之一，对设计创作具有参考价值；③以往学者对云肩色彩的研究大多停留在理论描述层面[14-15]，较少借助计算机图像处理技术；④云肩纹饰精美、色彩十分丰富，适合作为色彩提取的载体。

云肩的色彩可分为3大部分[16]：绣片底色、纹样装饰用色和工艺辅助用色，即组成云肩各绣片的面料颜色、刺绣工艺留下的图案颜色以及贴缝、绲边等工艺形成的颜色，具体如图1所示。

图1 云肩色彩分类示例

2 实验过程

2.1 图像收集及筛选

云肩图像主要来源于崔荣荣等[17]、王晓予[18]的《中国最美云肩》系列著作，所选图像平铺形态完整，背景色与实物本身颜色差异较大，具体如图2所示。

图2 被测云肩图像

将符合实验要求的图像利用中晶v700Plus扫描仪在相同的光线条件下进行扫描，并将电子图像归一化加载形成云肩实验样本集。为验证电子图像的色彩准确度，先邀请3位志愿者借助色卡辨别与著作中云肩图像主色最接近的颜色，记录该颜色的r，g，b值；再通过算法提取出相应云肩图像的主色r，g，b值；最后将上述色彩值转化为l，a，b值，并采用CIELAB色差公式

(1)

计算每张云肩图像主色的色卡对照值与算法获取色彩值的色差ΔE，实验数据见表1与表2。通过式(1)计算可以得出，大部分云肩图像的色差值在5左右，且均不超过10。两种颜色之间的△E<6.5，可认为普通人用肉眼无法分辨两者间的色彩差异，由此验证扫描获得的电子图片可以代替云肩实物图片进行色彩提取研究。

表1 云肩主色色卡对照值与算法提取色彩值

表2 云肩主色色卡对照值与算法提取色彩值的色差ΔE

2.2 图像预处理

云肩作为前人遗留下来的手工纺织服饰品，经过时间推移容易磨损或留下污渍，故在实验准备阶段利用中值滤波对图像进行预处理。中值滤波是一种能有效抑制噪声的处理技术，通过把数字图像中某一点的值用该点邻域各点的中值代替，使周围的像素值接近真实值，从而消除孤立的噪声点[19]。经中值滤波后的图像能有效保留原有云肩真实的色彩信息，并且利用去噪技术剔除在人们使用云肩过程中所留下的痕迹。

2.3 色彩空间转换

在opencv计算机视觉库中，图像格式默认为BGR模式，需进行一系列的色彩空间转换。HSV色彩空间包括H(色相)、S(饱和度)、V(亮度)，是一种有助于总结色彩规律的直观模型。文中色彩空间的转换主要以RGB为媒介，将BGR转换为HSV。其中，RGB转HSV所用公式如下。

设xmax和xmin分别为r,g,b中的最大值和最小值，即HSV色彩空间中的(h,s,v)分别为

(2)

2.4 获取类簇数目k值

传统的K-means和GMM算法首先都需要确定类簇数目k值，通常是依靠经验输入预估值，对比不同聚类数目下图像的分割效果从而合理调整类簇数值，这仅适用于样本量很少的实验。为获取实验的最佳类簇数目，文中引入肘部法估计类簇数目，使用各个类簇内的样本点到所在类簇质心的误差平方和(sum of squared error，SSE)作为性能度量，数值越小说明各个类簇越收敛。在此过程中，先随机指定一个可能的最大类簇数i。将类簇数从1开始递增至i，计算出i个SSE。当设定的类簇数不断逼近真实类簇数时，SSE将呈现快速下降趋势。通过画出k-SSE曲线，找出下降途中的拐点，即可较好地确定k值。

从云肩样本集中选取3张典型的样本图,通过肘部法求取样本图k值，具体结果如图3所示。由图3可以看出，3张样本图中的k值分别在5，6和5时曲线出现较明显的下落拐点，与实验预期结果一致，验证肘部法可较好地协助确定图像聚类的最佳类簇数目k值。

图3 肘部法求样本图k值

同时，通过肘部法获取实验被测图像的最佳类簇数目(k=5)，具体如图4所示。

图4 肘部法求被测云肩图像k值

3 云肩图像色彩提取及结果分析

3.1 色彩提取方法

K-means是一种以距离模型为标准的聚类方法，它从数据集中随机选取k个点作为初始聚类中心，计算数据集中每个点到初始聚类中心的欧式距离并作为相似度评判标准，再将样本点分配给相似度最大的聚类中心所代表的类簇；根据数据集与聚类中心的相似度不断更新聚类中心的位置，直至聚类中心不再变化。

高斯混合模型是一种用统计混合模型进行聚类的方法，假定待分割彩色图像的像素Y是一个多高斯分布的混合体，则高斯混合密度模型的概率密度函数

(3)

针对高斯混合模型作参数估计，通常采用期望最大化(EM)算法，具体步骤如下：

1)初始化参数δ(0)；

2)不断重复迭代以下两步，直到迭代终止。

E步观察数据和当前解δ(t)(t=0,1,…)，计算数据集的期望值：

M步

δ(t+1)=arg maxT(δ|δ(t))。

3.2 云肩图像色彩提取结果分析

利用K-means和GMM两种算法分别对被测云肩图像进行分割、色彩聚类与提取。K-means是根据像素数量进行聚类，GMM则是以像素在某个类簇概率进行聚类，两种算法用于图像的分割效果见表3，提取的图像色彩信息见表4。表3中被测云肩图像被细分成5种形态，以K-means算法的分割结果为例，易看出主体色1～3为绣片底色，即云肩的主色；主体色4为工艺辅助用色，主体色5为另一种工艺辅助用色及占比较大的装饰用色。部分云肩会以饱和度和明度相差较大的色彩来搭配云肩的3个色彩部分，使整体形成鲜明的对比，因此虽然工艺辅助用色与装饰用色总体占比较低，但对于研究云肩色彩构成情况仍然十分重要。对比已有成果[12]，文中所用方法能较清晰地提取出云肩主色以外的辅色与装饰色，故具有一定的优势。

表3 被测云肩图像分割效果

表4 被测云肩图像色彩特征

在此基础上，为了进一步比较文中两种方法在云肩图像色彩提取中的便捷性及准确性，下面从执行效率、分割效果、提取精准度3方面进行对比。

3.2.1执行效率K-means和GMM均属于迭代执行的算法，前者先估计每个像素点所属簇，再用估计值计算簇心位置；后者先计算期望值，再计算各个高斯分布的中心位置和协方差矩阵。在实验中，K-means平均经过18次迭代，耗时35.49 s;而GMM由于需要计算不同类别对应的概率，平均需要25次迭代，耗时41.08 s才能得出结果，效率略低于K-means。单个样本两种方法的迭代次数差距较小,但当样本量增大时，执行时间则是一个不可忽视的影响因素。

3.2.2分割效果对比表3中主体色1～3的实验结果可以看出，GMM对云肩图像的分割效果并不理想，它只能提取到区域集中的色块，容易忽略面积较小的色块细节；K-means不仅可以提取出集中的色块区域，而且能够识别具有同样色彩特征的部分装饰色。图5为K-means对云肩图像主体色3的提取效果。

由图5可以看出，K-means可以较好地识别出隐藏在主体色1和2中且与主体色3具有相同色彩特征的装饰色，识别准确性更高。由于GMM在前3种主体色中提取精准度比K-means低，一些未被识别的色块体现在最后的分割中，使GMM的主体色4～5中含有不同的杂色，色块占比也比K-means的高。

图5 被测云肩图像主体色3的 K-means提取效果

3.2.3提取精准度为了测定两种算法的聚类效果，引入评价指标——IoU[20]，IoU越大表明算法聚类结果与实际越接近。首先借助标注软件LabelMe获取K-means和GMM的分割结果以及被测云肩图像相对应的不同色彩特征区域，分别记为Ki,Gi和Oi(i=1,2…)，得出对应区域内的像素值数量。具体计算如下：

(4)

为保证实验结果的可比性，仅对比占比较高的前3种颜色，由表4可看出，GMM分割结果的IoUσ为2.31%，低于K-means的IoUσ，说明GMM的提取效果稳定性较好。但K-means和GMM的IoU均分别为93.5%和87.2%，相差超5%，说明K-means的聚类效果更好，精准度更高。

4 结语

为有效获取传统服饰图像的色彩构成情况，文中通过肘部法确定云肩图像的类簇数目k值，解决聚类算法中聚类数目难以确认的缺陷；其次运用K-means和GMM分别得出云肩图像的分割图和色彩特征信息，并从执行效率、分割效果和提取精准度3方面对比得出：GMM能计算出色彩特征归类的概率，但执行效率和提取精准度较低，只能识别出云肩的大致颜色种类，对色彩占比信息提取不够准确，适用于对数据集主要色彩的粗略提取与概率估计。K-means IoU均可达93.5%，适用于聚类精准度要求较高，并且需要计算每种色彩的布局和面积占比、建立色彩网络模型的实验。同时，实验结果也验证了利用计算机技术从图像中提取色彩与人为提取相比，具有效率更高、色彩及比例数据更准确等优点，能够帮助设计师减少对色彩的主观臆测，快速准地从我国传统服饰品中获取色彩创作灵感。