当前位置:首页 期刊杂志

基于K-means算法的人员体能考核标准研究

时间:2024-09-03

武警工程大学 高见文 葛卫丽

武警杭州士官学校 郭 程

基于K-means算法的人员体能考核标准研究

武警工程大学 高见文 葛卫丽

武警杭州士官学校 郭 程

在人员体能分类训练和考核中,根据传统的四级制分类方法对考核人员进行分类,但传统方法往往存在标准固化、缺乏定量考察、人员分类不具体等问题,进而导致训练人员训练积极性不高,出现“及格万岁,多一秒浪费”的消极训练倾向。针对这一问题,本文提出将K-means算法应用于人员体能考核标准的制中,运用K-means算法对人员体能考核成绩进行分析和处理,根据人员总体考核成绩制定分类标准。

K-means算法;体能考核标准

1.引言

随着信息技术和网络技术的飞速发展,现实生活和网络世界中产生越来越多的数据,如何在这些海量数据中挖掘出对人们有用的信息,是一个急需解决的问题。因此数据挖掘技术应运而生,数据挖掘顾名思义就是在给定的数据集中挖掘出有用信息的过程,而聚类分析是最为常用的数据挖据方法之一[1]。“物以类聚”形象的说明了聚类的含义,聚类分析就是将相似的失事物聚集起来,使其相似度最大;不相似的事物区分开来,使其之间的不同尽可能的大[2]。聚类是一种无监督的学习过程,是在没有先验知识的前提下将未标注的数据集划分为多个相似子类。聚类分析能够对数据进行有效分析和管理,是数据处理中的一个重要研究方向。

聚类分析作为一种有效的数据处理方法,具有不依靠先验知识和有效处理多个变量决定的分类等优点,成为当前数据挖掘领域具有代表性的分析和挖掘方法并得到广泛关注[3]。随着信息检索技术不断发展,聚类被广泛应用于文档自动摘要、信息检索等领域,而K-means算法是各种聚类算法中最为常用的一种聚类算法。

2.K-means算法

K-means是将未标注的数据集划分为k个簇,使得簇内数据点具有较高相似度,簇间数据具有较高非相似度的一种聚类算法[4]。每个簇表示一个聚类,相似度即为簇中全体数据点的平均值。

相似度的计算采用欧氏距离或曼哈顿距离,通常使用误差平方和(SSM)作为收敛评价标准,SSM定义如下:

式中,dist表示元素与聚类中心的距离,Ci表示第i个簇,x为属于簇i中元素的集合,ci表示第i个簇的中心。

具体算法流程如下:(1)随机选择数据集中k个元素作为初始簇的中心;(2)根据簇中元素的均值,将每个元素归于最近的簇中心,形成k个簇;(3)重新计算每个簇中元素的均值;(4)重复(2)(3)步,直到簇的中心不再变化为止。

3.传统人员体能考核标准和分类存在的不足

传统的人员考核标准采用四级制分类,即优秀、良好、及格、不及格,在不同成绩范围内的人员,被分配到不同的类别中,进而获得相应的成绩。

四级制分类方法虽然简单易操作,但是其缺点也是非常明显的[5]。四级制分类方法正是因为其操作和处理简单,使得考核成绩中蕴含的大量有用信息无法得到利用,信息增益过低。此外,由于考核标准制定过于宽泛,使得在同一层次类别中的人员,在实际考核成绩中往往也存在着巨大的差异,例如在5000米考核中22′01″的人员与22′59″的人员是被划入同意类别中的,但二者之间的差距足足有1分钟之多,显然,这是不合理的。再者,由于缺乏定量分析,四级制分类法不利于后续的人员分类训练,在考核划分时“一刀切”和“大锅饭”进一步导致在下一步的训练中也出现“一刀切”和“大锅饭”的问题,非常不利于提高人员训练成绩。

4.K-means算法

选取100名受训人员体能考核成绩,如表1。为了与四级制分类法相对应将K-means算法的k值设为4,每一个数据点分别有5000米跑、单杠、100米跑和50米折返跑成绩组成,所以每个参与聚类的数据点是一个4维数据。

表1 受训人员考核成绩

经过K-means算法聚类后,受训人员被分为4个类,每一个的结果如下表:

表2 聚类结果

为了更清晰的体现于传统四级制分类法的对比,以5000米为例,两种方法分类结果如下:

表3 对比结果

从表3中可以看出利用K-means算法来进行人员体能考核标准的制定和分类,比四级制分类具有更小的SSE,分类效果更好,更能贴近受训者的实际情况。

5.结论

针对传统人员体能考核标准和分类存在的不足,本文利用K-means算法,通过对参训人员考核成绩的分析,根据考核成绩所体现出的受训人员训练实际水平,对受训人员进行分类,从实验结果来看,K-means算法的分类效果更佳,更能反映受训人员的真实训练水平,更加灵活的对人员进行分类,并制定相应的训练计划。

[1]Sean O,Robin A,Ted D,等.Mahout实战[M].王斌,韩冀中,万吉,译.北京:人民邮电出版社,2015.

[2]Liu Bing.Web数据挖掘(第2版)[M].俞勇,薛贵荣,韩定,译.北京:清华大学出版社,2015.

[3]Aliguliyev RM.Clustering of document collection-A weighting approach [J].Expert Systems with Applications,2009,36(4):7904-7916.

[4]谢娟英,高红超.基于统计相关性与K-means的区分基因子集选择算法[J].软件学报,2014,25(9):2050-2075.

高见文(1991—),山东临沂人,硕士研究生,现就读于武警工程大学。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!