时间:2024-07-28
景晓宁, 李晓久(天津工业大学 艺术与服装学院, 天津 300387)
朴素贝叶斯算法在女童体型判别中的应用
景晓宁, 李晓久
(天津工业大学 艺术与服装学院, 天津 300387)
为实现女童体型的准确判别归类,通过采集女童样本数据,建立了具有详细测量信息的数据库。利用聚类分析方法将女童体型分为3类,在此基础上,应用朴素贝叶斯算法建立了判别模型,实现了女童体型的判别归类。同时利用最小差值算法查找了被测女童样本在数据库中的相似体,最后,以主要控制部位尺寸作为查询的基础指标,绘制了雷达图拟合二者的主要控制部位尺寸。研究得出:朴素贝叶斯女童体型判别模型的判别准确度达93.8%;被测女童样本及其相似体在雷达图中各主要控制部位尺寸误差较小,相似体可用于替代被测样本;为需要获取人体详细测量信息的相关应用领域提供数据支持。
女童体型分类; 体型判别; 贝叶斯算法; 尺寸拟合
人体体型的分类和判别,一直是人体测量及服装领域的研究热点[1-3],不少学者对其进行了研究,主要针对成年人体体型进行分类和判别[4-5],儿童属于生长发育的关键时期,对其体型的研究可指导更科学的童装结构设计;以满足儿童的生理需求;另一方面,童装市场的消费水平剧增和儿童健康安全着装的更高要求,也促使童装行业更关注儿童的体型特点进而对童装进行合理化改良,因此,儿童体型的研究成为了热点。朴素贝叶斯算法是经典的分类算法[6-7],被广泛地应用于各领域研究中[8-10],本文采用该算法进行女童体型判别方法的研究,在精度上取得了满意的结果。
1.1.1测量对象
利用力克扫描仪采集了1 000位儿童身体尺寸数据。测量对象为身高104.2~160.9 cm,体重 14.0~50.0 kg的 4~12岁的女童。
1.1.2测量条件
实验采用法国Lectra公司开发的三维人体扫描仪采集人体数据,设备能将人体上50多万个数据点进行处理,以三维人体图像展示将扫描结果,并且进行自动测量,获取人体85个部位尺寸。测量环境温度为(28±2)℃,相对湿度为(60±5)%,适合裸体测量。
1.1.3测量方法和要求
在测试之前,被测试者需要统一着装,并在规定的测试位置摆出统一姿势,以保证三维人体扫描的准确性。具体着装:1)赤足,穿着统一浅色内衣裤,内裤服帖,暴露脐点,以减小着装对原来体型的影响;2)被试者头发按照要求束起后,用网状束发帽罩住头发。
测量时,站立在指定位置测量,双脚分开与肩同宽;两臂张开保持在身体侧中线上并与身体两侧呈40°角;笔直站立,目视前方。
1.1.4测量部位
通过力克扫描测量,可获得人体85个部位尺寸,在这些尺寸中选取本研究所需的主要测量部位尺寸,共27项:身高、头高、颈椎点高、坐姿颈椎点高、腰高、臀高、会阴高、肩点高、胸高、颈厚、臀厚、胸厚、上裆长、颈围、过肩长、胸宽、胸围、背宽、背长、腰臀距、腰围、臀围、臂长、腕围、大腿围、膝围、脚踝围。这些主要测量部位尺寸能够反映人体基本体型,且为服装量体裁衣的关键测量尺寸。
通过对采集的数据进行缺失值分析、奇异值分析、正态性检验和相关性分析,剔除部分数据,最终保留858个测量样本。
对样本数据进行因子分析,将27个测量指标归纳为较少的几个影响因子。在因子分析中,通常采用特征值大于1的因子个数,根据图1所示主成分分析碎石图,纵坐标为特征值,横坐标为成分个数,在特征值大于1时可对应出2个成分数,即提取出了2个体型特征因子。
图1 主成分分析碎石图Fig.1 Scree plot
利用最大方差法对因子载荷矩阵实行正交旋转,描述公共因子所包含的信息,表1为旋转后的成分矩阵。
表1 旋转成分矩阵Tab.1 Rotated component matrix
成分中绝对值大于0.5为其覆盖的指标因子,因此表1中第1主成分因子包含的因素有:身高、头高、颈椎点高、坐姿颈椎点高、腰高、臀高、会阴高、肩点高、胸高、上档长、背长、腰臀距、臂长,方差贡献率为39.934%,显然第1主成分是一项综合表征人体纵向高度及长度的因子;第2主成分因子包含:颈厚、臀厚、胸厚、颈围、过肩长、胸宽、胸围、背宽、腰围、臀围、腕围、大腿围、膝围、踝围,方差贡献率为39.614%,综合反映了人体横向围度要素。故依据主成分的内涵将2个体型特征因子命名为纵向长度因子和横向宽度因子。
按照2个体型特征因子得分是类间无差异的成立概率P,都小于5%为标准进行比较,用于确定因子是否显著。在符合此条件下,尝试聚为2类、3类、4类及更多类别,对比聚类均方及误差均方值,如表2所示。聚类均方中体型特征因子1得分和体型因子2得分数值相近,且误差均方值较小的说明分类比较合理,因此,得出当聚类数为3也就是体型划分为3类时最为理想。
表2 方差分析表Tab.2 Analysis of variance
各类体型所包含的案例数,其中体型3人数最多,占据总量的43.8%,其次为体型2,比例为30.6%,体型1人群最少,占样本总量的25.6%。
单因素方差分析可获得2个因子对3类体型的具体影响程度,如表3、4所示。进而判别各体型的特征,对体型进行专业的描述,并定义各类体型。
表3 体型特征因子1对3类体型的影响Tab.3 REGR factor score 1 for 3 body types
表4 体型特征因子2对3类体型的影响Tab.4 REGR factor score 2 for 3 body types
在表3中,体型特征因子1对应3个体型类别的数值分别是:第1类为-0.136,第2类为-1.103,第3类为0.850。数值越大说明因子对该类体型的影响越大,该表中根据数值大小可知,因子1对3类体型的影响程度为:第3类大于第1类大于第2类,由于因子1代表人体纵向高度及长度,因此,3类体型中人体纵向高度及长度较大的是第3类体型,其次为第1类体型,较小的是第2类体型。
同理,在表4中,体型特征因子2对3类体型的影响根据数值的大小进行分析,对应3个体型类别的数值分别是:第1类为1.364,第2类为-0.609,第3类为-0.372。数值越大说明因子对该类体型的影响越大,该表中根据数值大小可知,因子2对3类体型的影响程度为:第1类大于第3类大于第 2类,由于因子2代表人体横向围度,因此,3类体型中人体横向围度较大的是第1类体型,其次为第 3类体型,较小的是第2类体型。
根据表3、4结果分析可知,体型1的人体纵向高度及长度尺寸处于中等水平,人体横向围度尺寸较大,可定义为胖体。体型2的人体纵向高度及长度尺寸最小,人体横向围度尺寸最小,可定义为矮瘦体。体型3的人体纵向高度及长度尺寸最大,人体横向围度尺寸处于中等水平,可定义为高体,因此,得出各体型的特征为胖体、矮瘦体、高体,并以符号F、ST、T表示。
基于已分类且定义的女童体型,在已知女童27项测量指标数据的前提下,研究新的女童人体的体型判别,即新的女童体型属于已知的哪一类体型。本文将贝叶斯理论应用于体型判别研究中。
贝叶斯算法是统计模型决策中的一个基本方法,基本思路为:已知类条件概率密度参数表达式和先验概率。利用公式转换成后验概率。最后,利用后验概率进行决策分类。
若,P(A)是A的先验概率或边缘概率。P(A|B)是已知B发生后A的条件概率,称作A的后验概率。P(B|A)是已知A发生后B的条件概率,称作B的后验概率。P(B)是B的先验概率。
则有:
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
假设Ti为体型类别,由分类结果已知:i=1,2,3,S1为人体样本,S1=a1,a2,…,a27,为样本的27项测量指标。
则,S1样本的各项测量指标数据同时存在且属于Ti体型的概率为
根据朴素贝叶斯分类原理:假设S1={a1,a2,…,a27}为一个体型待分类样本,a1,a2,…,a27为S1的27项测量指标。
计算P(T1|S1),P(T2|S1),P(T3|S1),如果,
P(TK|S1)=
max{P(T1|S1),P(T2|S1),P(T3|S1)},
则S1∈TK。
由已知体型分类的训练样本的集合,利用统计分析获得在各类别下的各测量指标的条件概率估计,即:
P(a1|T1),P(a2|T1),…,P(a27|T1)
P(a1|T2),P(a2|T2),…,P(a27|T2)
P(a1|T3),P(a2|T3),……,P(a27T3)
如果各测量指标是条件独立的,则推导如下:因为所有类别中分母是常数,因此把分子最大化。由于各测量指标是条件独立的,故有:
P(S1|Ti)P(Ti)=P(a1|Ti)P(a2|Ti)…
即:
将全部样本利用朴素贝叶斯算法进行体型判别模型的验证。显示50个样本判别错误,错误率约为6.2%,则该算法准确率约为93.8%。
输入被测样本的身高、胸围、腰围、臀围、臂长、过肩长、背长和背宽等8项主要测量指标。利用最小差值算法在数据库中搜索与被测样本各测量指标数据最接近的样本,即相似体样本。根据档差设定查询阈值。图2示出样本与相似体主要测量指标拟合图。
图2 被测样本与相似体主要测量指标拟合Fig.2 Fitting of main measuring indexes of sample and similar body.(a)Fitting of main measuring indexes of sample a and similar; (b)Fitting of main measuring indexes of sample b and similar;(c)Fitting of main measuring indexes of sample c and similar
随机抽取3种体型ST、F、T中的3个样本作为被测样本a,b,c,根据8项主要测量指标在将被测样本剔除后的数据库中进行搜索,将搜索到的相似体样本相应数据与被测样本输入的实际数据进行对比,绘制拟合图,验证相似度。
被测的3个样本与其相似体主要测量指标数据十分吻合。在数据库样本量足够大的前提下,根据大数据全样本原理[11-13]及预测原理[14],认为可采用相似体代替被测样本,以提供全部27项测量指标数据信息。结果说明了该算法的优势:即在数据量有所保证的前提下,该算法在体型判别的同时,还可精确地搜索出与被测样本测量值最接近的相似体,快捷地输出女童身体详细信息,以支持人体工程及服装工程中的相关应用领域。
本文建立起具有详细测量信息的女童测量数据库。利用聚类分析方法将女童体型分为胖体,矮瘦体和高体3类。在此基础上,利用朴素贝叶斯算法对女童体型进行判别,实现了女童体型的判别归类,判别准确度达到93.8%。此外,将主要控制部位尺寸作为查询的基础指标,利用最小差值算法查找被测样本在数据库中的相似体,绘制雷达图对二者尺寸进行拟合,显示各主要控制部位尺寸误差较小。通过研究获得的体型类别及相似体样本可用于描述和替代被测样本,为需要获取人体详细测量信息的相关应用领域提供数据支持。
FZXB
[1] SIMMONS K, ISTOOK C L, DEVARAJAN P. Female figure identification technique (ffit) for apparel: partⅠ: describing females shapes[J]. Journal of Textile and Apparel Technology and Management, 2004, 4(1): 1-16.
[2] VURUSKAN A, BULGUN E. Identification of female body shapes based on numerical evaluations[J]. International Journal of Clothing Science and Technology, 2011, 23(1): 46-60.
[3] CONNELL L J, ULRICH P, KNOX A, et al. Body scan analysis for fit models based on body shape and posture analysis[J]. National Textile Center Annual Report, 2002, 11(1): 31-37.
[4] LIU Yang, YAND Chunting, YU Jing. A novel method for body shape analysis in e-mtm[J]. Applied Mechanics and Materials, 2010(20/23): 1482-1486.
[5] SONG H K, ASHDOWN S P. Categorization of lower body shapes for adult females based on multiple view analysis[J]. Textile Research Journal, 2011, 81(9): 914-931.
[6] YAGER R R. An extension of the naive bayesian classifier[J]. Information Sciences,2006,176(5): 577-588.
[7] FLACH P A, LACHICHE N. Naive bayesian classification of structured data[J]. Machine Learning, 2004, 57(3): 233-269.
[8] DEROUIN F, SARFATI C, BEAUVAIS B, et al. Naive bayesian classifier for incident duration prediction [J]. Transportation Research Board Meeting, 2007, 51(1): 800-807.
[9] RATANAMAHATANA C A, GUNOPULOS D. Feature selection for the naive bayesian classifier using decision trees [J]. Applied Artificial Intelligence, 2003, 17(5): 475-487.
[10] WANG X Z, HE Y L, WANG D D. Non-Naive Bayesian classifiers for classification problems with continuous attributes[J]. IEEE Transactions on Cybernetics, 2014, 44(1): 21-39.
[11] MNEG Yishan. Big data successfully predicted USA election[EB/OL].(2015-03-18)[2015-03-25].https://www.aliyun.com/zixun/content/2_11_1879463.html
[12] MAYERSCHONBERGER V, CUKIER K. Big Data: A Revolution That Will Transform How We Live, Work and Think [M]. England: Hodder Export, 2013: 39.
[13] Wikipedia. Big data[EB/OL]. (2014-01-20)[2014-05-07].Http://www. wikipedia.org.
[14] ALEXANDER M, KONRAD B, CHRISTIAN M. Psycho-informatics: big data shaping modern psychometrics[J]. Medical Hypotheses, 2014, 82(4): 405-411.
ApplicationofNaiveBayesianmethodingirl′sfigurediscrimination
JING Xiaoning, LI Xiaojiu
(SchoolofArtandClothing,TianjinPolytechnicUniversity,Tianjin300387,China)
In order to achieve accurate identification of girl′s figure, a large number of girl samples are collected to establish a database with detailed measurement index information. The data were analyzed and the girl′s figure were divided into three types using cluster analysis method. On the basis, the Naive Bayesian (NB) algorithm was applied to the study of girl′s figure discrimination, and a discriminant model was established. The discrimination of girl′s figure was realized. At the same time, the similar body of the test sample in the database was found by utilizing minimal difference algorithm. And finally, the radar map was charted to fit the main measurement size of the both, using the main measurement size as the basic index for inquiry. The results show that the discriminant accuracy of girl′s figure discriminant model established by the NB algorithm reaches 93.8%. And the error of the main measurement size of the test sample and the similar body is small in the radar map. The test sample can be replaced by the similar body, and the method provides data support for the relevant application areas needing to acquire detailed measurement information about girls.
girl′s figure classification; figure discrimination; Naive Bayesian method; size fitting
10.13475/j.fzxb.20170104105
TS 941.17
A
2017-01-22
2017-07-19
景晓宁(1984—),女,讲师,博士。主要研究方向为数字化服装技术及人体测量技术。E-mail:499215884@qq.com。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!