时间:2024-06-19
董文雷 马一凡 徐海东
(石家庄铁路职业技术学院 河北石家庄 050041)
利用excel对国控点数据和自建点数据进行处理,发现国控点数据在时间上存在不连续性,有多天连续数个小时没有数据,国控点共有4200条数据,比自建点少了700多条;自建点数据时间上也存在不连续且有重复数据的现象。采用删除互不存在的数据,使国控点与自建点在时间上的数据同步匹配。再通过国控点与自建点“四气两尘”(PM2.5、PM10、CO、NO2、SO2、O3)的浓度值和环境空气质量指数(AQI)指数对比画出折线图,通过折线的趋势和吻合度进行分析。国控点与自建点进行数据统计时均采取单位时间平均值。计算环境空气质量指数(AQI)值时,O3取日1小时最大值和8小时滑动平均最大值。
利用国控点数据与自建点数据的差值与自建点天气因素数据进行相关系数比较,得出结论。
对国控点与自建点数据差值以小时为单位,建立多元线性回归方程模型,并进行回归分析。若效果不明显,采用剔除异常点和建立二元线性回归方程模型,进行回归分析,直到得到理想结果。
以x轴为时间轴,以y轴为各空气污染物数据,建立自建点与国控点浓度值的比较,利用Matlab软件进行数据分析,建立图形并对比(这里只给出PM2.5和PM10浓度值对比),具体如下:
2.1.1 浓度值对比
(1) PM2.5浓度值对比
观察图1可知:在这一段时间内,虽然PM2.5自建点与国控点的浓度值曲线变化波动较大,但二者重合度相对较好,自建点浓度值大于国控点浓度值。
图1 PM2.5浓度值对比
(2)PM10浓度值对比
图2 PM10浓度值对比
观察图2可知:在这一段时间内,PM10自建点与国控点的浓度值曲线变化相差无几(在2018年11月到2019年3月浓度值曲线上下浮动较大,在2019年3月到2019年6月浓度值曲线上下浮动较小),且在2018年11月到2019年3月自建点浓度值大于国控点浓度值,在在2019年3月到2019年6月二者浓度值相差较小。小时的浓度对比图中,有2处出现明显异常。
2.1.2 浓度差值变化(国控点-自建点)(这里只给出ΔPM2.5和ΔPM10浓度值对比)
(1) ΔPM2.5变化
图3 ΔPM2.5变化
由图3可知:自建点数据值高于国控点,且时间越往后相差越小,数据变化较为稳定。(2)ΔPM10变化:
图4 ΔPM10变化
由图4可知:2018年11月到2019年3月自建点数据值高于国控点,2019年3月到2019年6月国控点数据值高于自建点,且在2019年3月左右和2019年4月左右出现2处异常数据。
建立基于Pearson 简单相关分析的模型。通过对试题附件1.CSV和附件2.CSV中所给数据,以小时为单位,分类汇总得到4116组相关数据。将电化学气体传感器产生的零点漂移、量程漂移以及非常态气态污染物(气)浓度变化对传感器的干扰看成关于时间t的函数,考虑到气象参数温度、湿度、风速、气压、降水,这6个因素对导致国控点与自建点数据影响的不确定性,利用 Matlab软件计算,得到“两尘四气”改变量ΔPM2.5、ΔPM10、ΔCO、ΔNO2、ΔSO2、ΔO3对于每个影响因素的相关系数r值如表1和表2。
表1 相关系数r的性质
表2 不同影响因素的相关系数r值
首先建立多元线性回归方程如下:
其中,α0,α1,α2,α3,α4,α5,α6为方程的回归系数,x1,x2,x3,x4,x5x6分别代表温度、湿度、风速、气压、降水和时间,计算得回归系数α0,α1,α2,α3,α4,α5,α6见下表:决定变量R2如下表:
影响因素系数PM2.5 Δ ΔPM10 ΔCO NO2 ΔSO2 Δ 3 ΔO 0α 476.1246464 1624.206558 38.33862643 383.821484 128.7328819 -1636.236603温度1α -4.740056135 -1.910351645-0.222460064 5.156152413-10.37740543 46.54975402湿度2α -0.449618254 -1.543201749-0.036343513-0.367507906-0.096771042 1.499895487风速3α -0.013244827 -0.032481839 0.000298903-0.108920685 0.042573975 -0.123576094气压4α -0.08417417 -1.194302414-0.046389651-1.813221253 1.031279571 0.590978097降水5α -0.410170856 -1.375251376-0.00337099-0.447257947-0.098030424 0.165054607时间6α 0.000111095 0.011859578 3.02E-05 0.0136652 -0.013764414 0.029060805
决定变量 Δ PM2.5 ΔPM10 ΔCO Δ NO2 Δ SO2 ΔO3 R2 0.3588 0.4859 0.1648 0.4288 0.5355 0.5372
从上表中看出,各个决定变量的R2普遍较小,最大的是0.5372,而ΔCO的R2只有0.1648,拟合度较低。因此,我们通过置信区间的范围进行数据的重新筛选和匹配,以新数据为参照重新建立多元线性方程,得到新的回归系数和相应R2如下表:
影响系因 数素ΔPM2.5 ΔPM10 ΔCO Δ NO2ΔSO2 ΔO3 α0 515.1254 2033.9 35.6110 574.8116 139.8937 -1848.1温度α1 -5.4341 0.2947 -0.2683 2.7375 -12.8919 44.0748湿度α2 -0.4859 -1.9398 -0.0337 -0.5404 -0.1021 1.7020风速α3 -0.0119 -0.0400 0.0001127 -0.1075 0.0424 -0.1129气压α4 -0.0641 -1.3985 -0.0421 -2.0062 1.1668 1.0700降水α5 -0.4305 -1.4457 -0.0029 -0.5582 -0.1189 0.2089时间α6 -0.0002 0.0118 0.000011784 0.0122 -0.0154 0.0282
决定变量R2如下表:
决定变量ΔPM2.5Δ PM10ΔCO Δ NO2ΔSO2ΔO3 R20.477499875 0.649229706 0.219276757 0.541136841 0.541296013 0.650687979
从表里可以看出,各个决定变量的R2均有所增加,但是很多都在0.5附近,ΔCO的R2只有0.22,拟合效果仍不明显。为此建立关于ΔPM2.5、ΔPM10、ΔCO、ΔNO2、ΔSO2、ΔO3的二次回归方程,以ΔPM2.5为例:
由于ΔSO2有6个异常点,重新匹配后,通过Matlab软件运行得到回归方程如下:
相应决定变量R2如下表:
从上表可以看出,各个决策变量的R2均大幅度增加,其中ΔSO2的R2最大达到0.7083,最小的ΔCO也达到了0.491,结果较为理想。在多元二次回归方程下得到关于ΔPM2.5、ΔPM10、ΔCO、ΔNO2、ΔSO2、ΔO3的残差图,(这里只给出ΔPM2.5和ΔPM10的相关图像)如下:
由残差图图像,考虑到影响影响因素的不确定性,多元二次回归模型的拟合效果较好。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!