时间:2024-05-04
柏宇轩
在各行各业发展中,都积累了大量的数据,而数据往往是没有先验标签的,我们需要在数据中自动发现规律,例如自动发现数据中有哪几类,每一类有什么性质。而kmeans聚类算法就是针对这一类问题的有效解决方案。本文中,我们介绍了kmeans的方法,并且进行了实验,着重讨论了质心初始点的选取方式和聚类特征的选取方式,最终验证了kmeans算法的有效性。
【关键词】人工智能 机器学习 数据挖掘 聚类 kmeans
1 引言
近些年来,机器学习的发展日新月异,机器学习的两大问题:分类和聚类也不断有新的算法来填充。而对于大量样本的数据,由于人工标注成本很高,经常是没有标签的数据,需要用聚类算法来发现数据中有几类,每一类是什么样,有什么性质,各类之间的关系是什么样。Kmeans是聚类算法中简单有效的一种,也称为k均值算法。
本文先介绍kmeans聚类的方法,包括主要思想和具体步骤;然后把算法应用在鸢尾花数据集上,并且改变特征的数量,来看对聚类结果的影响;接着,本文对kmeans算法的优缺点进行了讨论,并和其他算法进行比较,还介绍了该算法在使用时候需要注意的问题;最后,我们根据实验结果总结结论,得出kmeans是有效的一种聚类算法,并且特征的选择会对聚类结果产生很大影响。
2 方法
Kmeans的主要思想是将离散的许多数据点利用k个质心进行聚类,分成k簇来区分相似性较小的数据点,并把相似性较大的数据点归为一类。该方法利用不断更新数据点的质心归属和质心的位置来最终收敛到最优解。
Kmeans有四个主要步驟:
(1)利用kmeans++在n个数据点中取k个质心:普通kmeans算法中,是随机选取k个数据点最为初始的质心,但这样的结果可能会导致聚类迭代的过程中收敛速度慢或者收敛到局部最优的结果。Kmeans++成功解决了这个问题,它改进了质心初始化的方法:首先随机选取一个数据点作为第一个质心,接着,选取距离第一个点最远的数据点作为第二个质心,再接着选取距离第一个和第二个质心距离之和最大的数据点最为第三个质心,以此类推,选取出k个初始质心点。
(2)把所有数据点都归属到离它最近的质心,并且标为相应的类别号,从而把所有数据点分成k个簇。此处的距离通常选择欧式距离。
(3)在各个簇内部求均值确定新的质心。
(4)重复第2,3步骤直到各个数据点的归属不变或者达到提前设定迭代次数。
3 实验
在介绍完kmeans的方法之后,我们找了真实的数据集来做算法实验。我们使用的数据集是sklearn机器学习库里面的datasets子库中的鸢尾花(iris)数据,共包括150个花的数据,每个数据有四个属性(特征),分别是花萼长度,花萼宽度,花瓣长度,花瓣宽度。然后,我们选取不同的特征对花进行聚类,首先我们选择花萼长度,花萼宽度作为特征聚类,然后我们选择花瓣长度,花瓣宽度进行聚类,最后,我们一起用四个特征进行聚类,比较聚类结果。
对于质心初始化方法,我们采用kmeans++中的初始化方法代替随机选取初始质心的方法。
对于聚类的个数,我们分别设为2,3,4来进行实验,观察实验结果,通过可视化方法,判断设为几类才是最合适的。
4 结果展示
我们用散点图标注每个数据点,并且用颜色(红,蓝,绿,黄)区分它所属的类别,来观察数据点在特征空间的分布,判断聚类结果十分合理。在每个图中,横坐标代表花某一部分的长度,纵坐标代表花某一部分的宽度,坐标轴的单位都是厘米,每一种颜色是一簇。
首先我们仅用花萼长度,花萼宽度来聚类,聚类的类别个数分别设定为2,3,4,对应从左到右三个图。可以看出花萼长度和宽度的数据分布没有特别明显的簇状分布,所以类别个数分为2,3,4看起来都有一定道理。
然后,我们用花瓣长度,花瓣宽度来聚类,聚类的类别个数分别设定为2,3,4,对应从左到右三个图。我们能看到很明显有两簇数据点分布较远,中间隔着很大距离,即画面左下角的簇和画面中间到右上角的簇,故聚类类数选为2比较合理。此时,虽然聚成两类有一个数据点被误判,但大体能区分这两部分,也是可取的。
最后,我们用花萼长度,花萼宽度,花瓣长度,花瓣宽度四个属性共同去对花进行聚类,也就是这四个特征都会影响到聚类结果。在这里,特征空间维度数是4,所以我们分为两个2维平面来进行可视化,即花萼的长度宽度和花瓣的长度宽度这两张图。对比第一行和第三行图,我们发现,相比之下,第三行图中聚类的界限不是那么清晰,这是因为另外两个维度也起到了影响聚类的效果。同样,对比第二行和第四行的图,我们也能得到类似的结论。 在用四个特征共同聚类的时候,我们发现聚成三类的结果较为合理,每一簇的大小比较均匀。
5 讨论
Kmeans作为应用很广泛的聚类算法,有着很多其他算法无法比拟的优点,又有一些待改进的缺点。
其主要优点有:
(1)我们可以用每一类的质心来简单的表征这一类的性质,因为质心实际上可以看做是这一类中最有代表性的点。通常的聚类算法只给出每个点的类别属性,但并没有一个量能直接反应出每一类的特性。
(2)该算法不需要先验知识,也就是我们在初始化过程中,默认每个点属于每一类的先验概率都是相同的。
(3)算法思想简洁且步骤易懂。
主要缺点有:
(1)由于在对每个数据点去进行质心的归属判断的时候,判定归为聚类最近的质心,所以导致每个簇的形状都是近似圆形的。例如,对于每一类都是狭长分布的情况,kmeans并不能给出很好的聚类效果。
(2)对异常值敏感,其原因和上一条相同,当有离簇较远的点时,聚类效果会有所下降。
在我们使用kmeans时,需要注意每一类质心初始化使用kmeans++都会对最终聚类效果和聚类效率都有好处。在确定聚类的个数时,我们可以选取特定的数学指标或者多尝试并且根据可视化效果判断聚成几类最合适。
6 结论
综上所述,kmeans是一种聚类的基本方法,由于kmeans聚类方法的特殊性,初始值的选择对聚类结果影响很大。因此在聚类时需要注意的是初始点的选择需要用kmeans++,这样能提高聚类效率与聚类的效果。
在聚类过程中,特征的选择也尤为重要,实际上,特征的选择也就是选择用什么来区分数据点,不同特征得到的聚类结果也有着不同的物理含义,比如用花萼的属性聚类可以看做区分花萼,而用花萼花瓣的属性(属性更全)共同聚类可以看做是区分花本身。
总而言之,kmeans通常能取得较好的聚类效果,在优化初始化质心的方法并认真进行特征选择后,聚类效果能得到进一步提升。
参考文献
[1]http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html.
[2]Arthur,David,and Sergei Vassilvitskii."k-means++:The advantages of careful seeding." Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms.Society for Industrial and Applied Mathematics,2007.
[3]Dash,Manoranjan,and Huan Liu. "Feature selection for clustering." Pacific-Asia Conference on knowledge discovery and data mining.Springer, Berlin,Heidelberg,2000.
[4]陈祖耀.聚类特征选 擇方法的研究和应用[D].Diss,江南大学,2009.
作者单位
株洲市长鸿实验学校 湖南省衡阳市 421008
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!