当前位置:首页 期刊杂志

基于K-均值聚类和贝叶斯判别的城市空气质量等级分类及预测

时间:2024-12-28

常丽娜,王颖俐,王 瑶

(长治学院 数学系,山西 长治046011)

0 引言

空气质量与人的身体健康密切相关,数据显示,一个成年人平均每天吸入空气15.7m3,空气进入身体后,经过人体循环到达各个器官[1].随着全球城市化高速发展,雾霾、酸雨等空气污染问题层出不穷,也由此导致了一系列的健康问题.空气污染已经成为不可忽略的重点问题.近几年,我国在空气治理方面做了很多工作,如推动可持续发展战略、鼓励和支持使用清洁能源、加强城乡绿化建设、蓝天保卫战等.

近年来,有不少学者做了空气质量方面的研究,这些研究多是针对某个区域,如:京津冀地区、汾渭平原、长江三角洲地区或某些重点城市如北京、深圳等地的具体研究[2-6],其启示意义具有针对性但是缺乏不同情况具体应用的适应性.因此本文从我国的338个地级及以上城市中随机选取65个城市为样本城市,依据“组内尽可能相似,组间尽可能不同”的原则进行分类、划分等级,以分析不同区域和不同条件下的城市空气质量的异同,进而精准施策、对症下药,针对不同等级的城市提出相应的治理方法,为我国城市的具体污染治理提供参考.

1 数据与指标

1.1 数据来源与处理

根据《中国统计年鉴2019》[7]公布的2018年全国环保重点城市空气质量情况数据,抽取65个样本城市作为研究对象,来研究我国城市的空气质量情况.为保证样本数据的随机性、分布广泛性,65个样本城市主要为4个直辖市、27个省会城市以及随机选取的34个其它重点环保城市.

1.2 指标选取

本文主要选取二氧化硫SO2年平均浓度(μg/m3)、二氧化氮NO2年平均浓度(μg/m3)、可吸收颗粒物PM10年平均浓度(μg/m3)、一氧化碳CO日均值第95百分位浓度(mg/m3)、臭氧O3日最大8小时第90百分位浓度(μg/m3)、细颗粒物PM2.5年平均浓度(μg/m3)等6个空气中主要污染物的指标作为评价空气质量的依据.6个指标值分别用X1,X2,X3,X4,X5,X6表示.

2 研究方法

2.1 K-均值聚类法

聚类分析是分析“在没有先验经验的情况下,如何对样品(或变量)进行量化分类”的问题[8].聚类分析的方法有多种,当样本容量较大、考虑元素较多时,我们常采取快速聚类法即K-均值聚类法,这是一种比较优良且快速的聚类方法,而且可以对聚类类别K值进行多次测试,直到得到理想的类别数量[9-12].该方法的基本思想是将每一个样品分配给距离最近均值的类中,基本的算法步骤为:

Step1随机将样品分为K类,计算各类的质心,即初始类中心;

Step2通过计算某个样品到各初始类中心的距离,将样本分在距离最小的类中,有变动则重新计算各类质心;

Step3重复步骤step2,直到所有样品都分配到距离最小的类中.

2.2 贝叶斯判别分析

判别分析是在已知所选样本分成k类情况下,根据新样本的观测数据判定新样本归属类别的多元统计分析方法.贝叶斯判别法具有可考虑各总体出现的先验概率,还可考虑到错判造成的损失且过程简单速度快等优点.

贝叶斯判别分析的主要思想[8]是:设有总体Gi(i=1,2,…,k),Gi具有概率密度函数fi(x).并且根据以往的统计分析,知道Gi出现的概率为qi,是R(P)的一个分划,判别法则为:当样品X落入Di时,判X∈Di,i=1,2,…,k.所以贝叶斯判别分析的关键问题是寻找D1,D2,…,Dk分划,使得平均错判率最小.

2.3 城市空气质量等级分类步骤

城市空气质量等级分类的具体步骤包括样本城市的选择、评价指标及数据的收集、K-均值聚类城市空气质量等级分类、贝叶斯判别确定判别函数以及结果分析与建议、流程如图1所示.

图1 空气质量等级分类流程

3 空气质量等级划分及判别

3.1 聚类及结果分析

因变量量纲不同,首先对样本城市的指标数据利用SPSS软件进行标准化处理,然后从2到8依次设置K值,利用SPSS软件进行聚类分析,可得到不同K值下的聚类成员和质心.经过多次统计尝试发现分为三类时类别最为合理且符合实际.表1为K=3时的聚类结果,可将城市按空气质量情况分为三类。

表1 聚类结果

第一类:大连、长春、吉林、哈尔滨、福州、厦门、南昌、九江、张家界、深圳、汕头、南宁、柳州、桂林、海口、贵阳、遵义、昆明、玉溪、拉萨、金昌.

第二类:北京、天津、上海、南京、无锡、镇江、杭州、湖州、绍兴、合肥、芜湖、马鞍山、青岛、日照、武汉、宜昌、荆州、长沙、广州、重庆、成都、自贡、南充.

第三类:石家庄、邯郸、保定、太原、大同、呼和浩特、沈阳、鞍山、锦州、济南、郑州、开封、洛阳、三门峡、西安、铜川、延安、兰州、西安、铜川、延安、兰州、西宁、银川、乌鲁木齐.

根据生态环境部向媒体通报的2018年169个环保重点城市空气质量状况排名前20位和后20位城市名单(见表2),发现65个样本城市中共有8个城市(海口、拉萨、深圳、厦门、福州、贵阳、大连、昆明)排名在前20位,8个城市在聚类时全部划分在第一类,65个样本城市中共有6个城市(石家庄、邯郸、太原、保定、西安、郑州)排名在后20位,6个城市在聚类时全部划分在第三类.结果表明:

表2 169个重点城市排名前20位和后20位城市名单

1)聚类结果可信度高,分类合理.

2)第一类城市空气质量最好,第三类城市空气质量最差,第二类城市空气质量居中.

3)就分布地区而言,第一类城市主要集中在珠江三角洲地区、高原地区、东部沿海地区和东北地区.沿海城市及高原地区有着天然的地域优势,沿海城市四面或三面环海,空气流动性好,而高原地区地广人稀,且自然环境保护面积大.东北三省均为我国工业大省,空气质量也能兼优,正是因为污染治理工作做得好,在东北污染违法成本很高.由此可说明,打赢蓝天保卫战要有壮士断腕的勇气和决心.第二类城市主要集中在长江三角洲地区,多为经济较发达的城市.经济发达城市人口密集,随之带来的还有二氧化碳排放量大、车流量大等问题,严重影响空气质量情况.第三类地区主要集中在京津冀周边地区及汾渭平原地区,这些城市的共同点是煤炭业、重工业较为发达,拥有偏重的产业结构和以煤为主的能源结构,且集中在北方,秋冬季需要采暖的不利气象因素等都是导致这些地区污染严重的原因.

3.2 判别分析及预测

确定样本城市空气质量分类后,将原始数据和表1中城市类别输入SPSS,利用SPSS软件进行贝叶斯判别分析可得到各个贝叶斯判别分类函数系数表(见表3)和65个样本城市的实际类别和判别类别对比结果(见表4).

表3 判别函数分类函数系数

由表4可知各类空气质量分级判别函数分别为

表4 样本城市及分类结果对比表

F1=-49.359+0.605X1+0.292X2-0.185X3+15.167X4+0.555X5-0.061X6,F2=-75.462+0.630X1+0.520X2-0.305X3+18.067X4+0.658X5+0.105X6,F3=-99.939+1.139X1+0.553X2-0.098X3+23.070X4+0.613X5+0.015X6.

续表4

对比贝叶斯判别分析法和K-均值聚类分析结果来看,65个样本城市中仅对2个样本城市青岛和南充错判,回判正确率为96.9%,可见贝叶斯判别分析法对城市空气质量的判别有较高的可信度,可以作为城市空气质量判别分类的依据.从图2典则判别函数分类图来看,65个样本城市按照其空气质量分级都聚集在了对应组质心的周围,且可以按不同等级区分开来,达到了分类的目的.

图2 典则判别函数分类图

3.3 待判城市空气质量等级预测

若想知道某待判城市的城市空气质量属哪个类别,只需将待判城市的六个指标值依次代入三个判别函数,求得函数值F1,F2,F3,若则该待判城市判入第k类.

本文选取山西省临汾市、山东省淄博市、广东省珠海市、江苏省连云港市、浙江省温州市共计五个城市作为待判城市,通过查阅《中国统计年鉴2019》得到五个待判城市空气质量的指标值,分别将五个城市的指标值代入判别函数,即可判定五个待判城市的所属类别,见表5.

表5 待判城市判别函数值及类别

由表5知广东省珠海市和浙江省温州市的空气质量判定为第一类,江苏省连云港市的空气质量判定为第二类,山西省临汾市和山东省淄博市的空气质量判定为第三类.同理,对于其它待判城市,我们也可依此方法实现科学分类.

4 结论与建议

K-均值聚类分析法可根据指标数据快捷有效地将样本城市空气质量分类,且分类结果符合实际,可靠性高.但聚类分析法只能达到分类的目的,若任给一个非样本城市指标数据,聚类分析法不能对样本外城市等级进行划类.贝叶斯判别分析法在已知样本数据及其分类的条件下,可建立判别函数,根据数据及判别函数,对非样本的分类进行判别,且贝叶斯判别法是考虑错误损失的判别分析法,可将平均错判损失降到最低.K-均值聚类法和贝叶斯判别法结合对我国城市空气质量实施等级分类与预测是快速、科学、可靠的.将城市空气质量实施等级分类后,可按照类别去分析造成城市空气污染的原因,对于共同因素,各地地方政府可协同治理,而对于不同因素,政府还应因地制宜,这样既可节约资源、提高效率又可达到精准施策的目的.

由于各类别造成空气污染的主要原因不同,因此针对分类结果提出以下建议:

第三类城市为空气重度污染城市,此类城市应重点针对重工业企业进行治理:1)有序调整重工业企业布局;2)建立更为严格的监督和管理机制;3)有序调整和优化产业结构,大力实施产业结构调整战略,大力发展绿色农业、新型能源产业和具有地方特色的旅游业等新兴产业.

第二类城市为空气中度污染城市,多为经济较发达的城市.因此提出如下措施:1)技术助力高污染企业环保改造;2)调整机动车能源利用结构,激励机动车生产企业提升研发技术水平;3)利用多种宣传手段增强公民环保意识;4)大力推进清洁生产和循环经济.

第一类城市空气质量较好,针对这类城市的空气治理工作应以保持和优化为主,采取加大污染空气的违法成本、宣传引导环保的生活方式等措施,以保持现有的空气质量;同时开发绿色能源、发展科技硬实力,将良好的空气质量作为城市名片带动更多城市打赢蓝天保卫战.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!