时间:2024-05-04
邵国强,介龙梅,蒋庆丰
(大庆师范学院计算机科学与信息技术学院,黑龙江大庆 163712)
贝叶斯方法在红酒分类中的应用研究
邵国强,介龙梅,蒋庆丰
(大庆师范学院计算机科学与信息技术学院,黑龙江大庆163712)
阐述了贝叶斯方法的基本理论,讨论了分类中存在的先验概率等问题并给出了解决方案,贝叶斯方法适合在自动分类中应用。根据UCI网站提供的红酒数据,对分类器的性能进行了实验,结果达到了基本预期,在属性关联、属性容量方面还需要做进一步研究。
贝叶斯方法;先验概率;分类
分类是计算机自动化和智能化的基本概念,更进一步则是数据挖掘和机器学习领域的核心研究课题之一。目前,已有多种分类的学习算法模型,包括决策树、神经网络、K-最近邻、支持向量机(SVM)和贝叶斯分类器等[1]。
分类在现实生活中的应用非常广泛,如网络安全中断定某种行为是否安全,收到的一个邮件是垃圾邮件与否,根据水域情况考察某海域可能有哪些鱼类,还有一篇新闻通过提取词条自动归类的问题[2]。
1)在某些领域,贝叶斯分类的性能与神经网络、决策树学习相当。
2)可以充分利用先验知识及训练样本的数据特性。
3)改进后的贝叶斯分类器的通用性更佳,精度和效率更高。
假设样本空间H为t维,含有n个向量,记其中某个向量为x=(x1,x2,…,xt),类别空间为C={C1,C2,…,Cm},则分类就是找到测试t维数据空间H’(其中H’与H同构)的向量x’对应类别空间中的某个值Ci,具体对应关系如图1所示。
基于并不知道x’究竟属于哪一类别,由此只能认定为P(Ck|x’)(k=1,2,…,m)中最大的值对应的类别(最可能的类别),亦即找出max{P(x’|Ck)∗P(Ck)/P(x’)},k= 1,2,…,m。需要注意的是,当讨论某一样本x’时,P(x’)是相同的,即max{P(x’|Ck)∗P(Ck)/P(x’)}∝max{P(x’| Ck)∗P(Ck)}=max{P(x’,Ck)},其中P(x’|Ck)和P(Ck)是先验概率。当属性P1,P2,…,Pt相互独立时,P(x’| Ck)∗P(Ck)=∏P(Xi|Ck)∗P(Ck)。
图1 分类映射关系示意图Fig.1 Sketch map of classification map
3.1实验数据的获取
1)UCI数据库。任何分类器都需要一定的训练数据,在UCI网站上提供了多种基于机器学习和数据挖掘的实验数据以供研究和测试之用。
2)现实生活中提取。对某些行为的刻画,如邮件分词,根据某些词条的出现频率可以确定垃圾邮件的标准,网络安全则需要对系统API的调用进行区分。
3.2现有类别不够的问题
例如,根据化石年代、地点、特征等对古代人类进行分类,假定集合为{元谋人,周口店人,…,蓝田人}(将集合映射为{C1,C2,…,Cm}),而测试向量不符合集合中任何分类,则定义Cm+1为“未知人类”或者“新人类”,由此不影响贝叶斯分类。
3.3先验概率的获取
从max{P(x’|Ck)∗P(Ck)}可知,P(x’|Ck)∗P(Ck)或者P(x’,Ck)是确定分类的核心问题。通常情况下,上述先验知识并不是确定的和已知的,经常用近似值代替。
基于卡方拟合统计量可以得到如下近似值:
其中,Count(Ck)为Ck在样本中出现的个数,Sk为样本总数。其中,Count(x’,Ck)为x’与Ck在样本中同时出现的个数,Count(Ck)的含义则同上。
至此,朴素贝叶斯分类的基本问题即已获得了高效、完善的处理及解决实现。
3.4学习方法的改进
分类算法存在如下的预设性前提:1)样本与实际分布相差不大。2)属性间相互独立。3)候选类别间互斥。为了使得朴素贝叶斯方法能够具备更好的通用性,本次研究提出了如下几方面改进:
1)加大样本的数量[3]
由大数定律知,当样本容量趋向于无穷大时,频率趋向于概率,而且样本的分布接近于总体的分布。
2)增量学习
增大样本容量容易造成贝叶斯学习的速度较慢,如何能够提升学习的速度和效率,可采用增量学习的方法。
3)加权学习[4]
通常情况下,贝叶斯分类器会认定每个属性都是相等的贡献,而实际上当样本空间H中的t个属性互有关联的情况下,就需要为不同的属性赋予相应的权值,进而可以根据P(Pi|Ck)求出P(x’|Ck)。
4.1实验数据
UCI网站上提供了红酒和白酒质量实验数据,本文中选用的是红酒数据,网站提供了4 898条记录,其中前3 000条数据作为样本数据,后1 898条数据作为测试数据。部分数据如图2所示。
图2 红酒属性与分类数据Fig.2 The basic data and properties of red wine
数据中总共包括非挥发性酸、挥发性酸、密度、酒精等11个属性,结果为酒的质量,质量分为1~10十个等级。
1)通过quality列可以统计出P(Ck)。2)计算P(Pi|Ck)求出P(x’|Ck)。
3)将向量x’的分类设置概率最大的Ck。
综上可得,分类对比结果如图3所示。
4.2核心代码
1)计算每一类别的个数
图3 分类结果对比Fig.3 Comparison of the classification result
2)公有变量定义
4.3实验结果与分析
quality列为真实的分类,而quality_c列是分类器算法得到的分类。对于1 898条测试数据,通过贝叶斯方法得到的预测分类与实际分类相同的数量为1 651,准确率为86.98%。对于属性之间的关联矩阵可以通过粗糙集等方法得到,增大样本和属性集合的容量也是提高分类算法结果的重要手段。
本文讨论了基于贝叶斯分类器的重要理论,同时也进一步研究了分类的具体问题如样本选择、概率计算、假定空间设计和实验数据获取与验证。利用UCI网站提供的红酒分类数据,部分作为实验数据,部分作为测试数据,通过对比,分类效果比较理想。未来,关于如何提高算法的精度仍有待后续的深入研究。
[1]孙笑微.贝叶斯分类技术在高校教师教学质量评价中的应用[J].沈阳师范大学学报(自然科学版),2014,32(1):98-102.
[2]崔雪森,唐峰华,张衡,等.基于朴素贝叶斯的西北太平洋柔鱼渔场预报模型的建立[J].中国海洋大学学报(自然科学版),2015,45(2):37-43.
[3]张轮,杨文臣,刘拓,等.基于朴素贝叶斯分类的高速公路交通事件检测[J].同济大学学报(自然科学版),2014,42(4):558-563,595.
[4]李志义,沈之锐,义梅练.贝叶斯分类算法在社交网站信息过滤中的应用分析[J].图书情报工作,2014,58(13):100-106.
The research on application of Bayesian method in red wine classification
SHAO Guoqiang,JIE Longmei,JIANG Qingfeng
(Computer science&Information technology college,Daqing Normal University,Daqing Heilongjiang 163712,China)
The paper introduces basic theory of Bayesian method.The problems,such as prior probability,which are associated with classification,are argued.The solutions for them are given too.The Bayesian method is fit for automated classification.According to the red wine data from UCI website,the performance of the classifier is tested.The result is nearly satisfied.The attribute-association and capacity will be researched in the future.
Bayesian method;prior probability;classification
TP305
A
2095-2163(2016)03-0029-03
2016-04-27
邵国强(1981-),男,硕士,讲师,主要研究方向:数据库应用、计算机网络与通信、人工智能等。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!