当前位置:首页 期刊杂志

基于主成分分析及多元线性回归的空气质量预测算法研究*

时间:2024-05-18

崔上书,杨 炼,李 婷

(湖南人文科技学院数学与金融学院,湖南 娄底 417000)

空气质量的好坏事关全国的发展大局及全国人民的身体健康,对环境空气质量的评估与预测为一项十分有意义的工作。近3年对空气质量预算法的研究也有不少,在空气质量预测模型中,神经网络分析颇受欢迎。牛玉霞[1]提到利用遗传优化算法和BP 神经网络的权重和阈值,根据天气预报的相关变量来构建空气质量预测模型;郝永超等[2]在对邢台市空气质量进行预测时,同时运用了BP 神经网络、PNN 神经网络、Elman神经网络模式识别方法构建空气质量预测模型,通过对比预测空气质量等级和实际等级评价模型,除了运用较为广泛的神经网络模型,还有一些评价模型的使用较为常见,比如时空混合模型[3]、灰色理论预测法[4-5]、ARIMA 预测模型[6-7]等。

受刘萍[8]、李军成等[9]、李林等[10]论文的启发,本文结合主成分分析和多元线性回归的方法对空气质量进行预测,达到了较好的效果。

1 长沙市空气质量影响因素的选取——基于主成分分析

根据气象部门规定,空气中的PM2.5、PM10、SO2、CO、NO2以及O3等物质的质量浓度是影响地区空气质量的主要因素,为了更加精确地对长沙市空气质量预测算法进行研究,本文采用主成分分析法降维,提取出对长沙市的空气质量影响较大的新指标。

1.1 数据抓取与处理

从中国环境空气在线监测分析平台抓取长沙市2020年5 月至2021年5 月每日PM2.5、PM10、SO2、CO、NO2、O3的质量浓度,得出每月平均值。

污染物质量浓度月平均值如表1 所示。

表1 (续)

表1 污染物质量浓度月平均值

1.2 建立变量的相关系数矩阵

用Matlab 计算出变量的相关系数矩阵如下:

1.3 计算相关系数矩阵的特征向量及对应贡献率

用Matlab 计算出相关系数矩阵的特征向量如表2所示,对应贡献率如表3 所示。

表2 相关系数矩阵的特征向量

表3 各特征向量贡献率

1.4 提取主成分

主成分1、主成分2、主成分3 的累计贡献率超过97%,主成分分析效果很好,根据上文所求得的相关系数矩阵的特征向量,这3 个主成分可以表示为:

式(1)—(3)中:x1、x2、x3、x4、x5、x6分别表示PM2.5、PM10、SO2、CO、NO2、O3的质量浓度。

从主成分的系数可以看出,第一主成分主要反映了PM2.5、PM10、CO、NO24 个指标对空气质量的影响,因此把第一主成分看成是颗粒物和CO、NO2的综合指标;第二主成分看成是O3对空气质量的影响;第三主成分看成SO2对空气质量的影响。

1.5 长沙市空气质量影响因素的选取

根据所提取出来的3 个主成分,本文选取了3 个指标作为长沙市空气质量的影响因素:颗粒物和CO、NO2的综合指标,O3质量浓度,SO2质量浓度。在下文中,这3 个指标分别用y1、y2、y3来表示。

2 长沙市空气质量预测算法研究——基于多元线性回归分析算法

2.1 研究思路

在对空气质量的预测算研究中,以长沙市为代表来建立多元线性回归预测模型,模型因变量为空气质量指数(AQI),自变量为上文中提取出来的3 个主成分,即颗粒物和CO、NO2的综合指标(y1)、O3浓度(y2)、SO2(y3)浓度。抓取长沙市2020-05-01—2021-05-01 每日的AIQ 以及PM2.5、PM10、NO2、SO2、O3、CO 的平均质量浓度,根据上文主成分分析时得出的公式利用Matlab 软件计算出3 个自变量的y1、y2、y3的值,其中y3所得值为负数,为了方便研究,取其相反数。分析AQI 与y1、y2、y3的相关性,若相关性成立,采用线性回归得出预测模型。

2.2 分析空气质量指数(AQI)与y1、y2、y3的相关性

利用Matlab 软件画出空气质量指数与y1、y2、y3的散点图,如图1 所示。

图1 空气质量指数与3 个指标相关性分析图

由图1 可见,空气质量指数随着空气质量指标质量浓度上升而大致呈上升趋势,数据点大致都位于一条直线的两侧,可以进行线性回归。

2.3 建立多元线性回归方程模型

y1、y2、y3分别代表颗粒物和CO、NO2的综合指标,O3浓度,SO2浓度,A代表空气质量指数(AQI)的值,βi(i=0,1,2,3)为回归系数,由此建立线性回归方程为:

y1、y2、y3数据来源已在前文中交代过,这里不再累述。

2.4 模型求解

利用Matlab 中的regress 函数做第一次线性回归,以确定线性回归方程的系数。得到的具体数据(包括回归系数、参数置信区间、相关系数R2,F值以及其对应的概率P)如表4 所示,残差分析如图2 所示。

表4 第一次线性回归所得具体数据

图2 第一次线性回归残差图

由表4 中数据得到多元线性回归方程为:A=12.5246+0.6212y1-0.1507y2+1.2705y3。

此外,表4 中R2为相关系数,F为统计量值,P为统计量对应的概率,由表4 可知,R2的拟合优度为72.87%,R2越接近于1 说明拟合效果越好,说明第一次拟合效果不理想。根据图2 得出异常点为23、28、75、119、120、122、176、183、193、194、195、196、212、216、222、223、226、238、250、251、259、261、263、267、271、275、325。

为了得到最优多元线性回归模型,本文将这些点剔除,再进行第2 次拟合,如此反复,一共进行了13次剔除异常点再拟合的操作,第14 次时发现异常点较少,拟合优度上升不明显,所以把第13 次得到的多元线性回归方程作为最终的解。剔除异常点后再回归所得的回归方程部分数据如表5 所示。

表5 剔除异常点后再回归所得的回归方程

综上得出,长沙市空气质量指数(AQI)与影响空气质量的3 大指标y1、y2、y3的多元线性关系为:A=7.8206+0.3463y1+0.0605y2+0.8851y3。

此外,考虑到全国各地在对空气质量进行监测时主要是测算PM2.5、PM10、NO2、SO2、O3、CO 的浓度,也就是说考虑的是这些物质的质量浓度对AQI 的影响,因此为了更加直观预测出AQI 的值,本文利用主成分分析所得到的y1、y2、y3与x1、x2、x3、x4、x5、x6的关系对上文求得的长沙市空气质量指数(AQI)与影响空气质量的3 大指标y1、y2、y3的多元线性方程进行改造(其中y3所得值取其相反数),最终变成:A=7.8206+0.1877x1+0.4528x2-0.4943x3+0.2636x4+0.2258x5+0.2306x6。

2.5 模型检验

为了更好验证上述所建立的多元线性回归模型,在中国环境空气在线监测分析平台上抓取长沙市2021年6 月的空气质量指数(AQI)与各主要污染物质量浓度。根据所取月份每日的主要污染物浓度,利用上文所得的线性回归方程计算出长沙市当日的空气质量指数,并与实际的相对比,如图3 所示。

由图3 可知,如果忽略气候或者其他特殊原因所导致空气质量波动较大的几天,模型的精准度还是不错的,这也恰好说明多元线性回归模型与数据拟合效果较好。凭借此模型可在已知监测指标质量浓度(PM2.5、PM10、NO2、SO2、O3、CO 质量浓度)的情况下,计算出空气质量指数,便于相关部门进行环境评价与保护。

图3 估测值与观测值对比

3 结束语

本文通过主成分分析,提取出影响长沙市空气质量的3 大指标,结合多元线性回归模型,建立AQI 与3 大指标的多元线性回归模型,进而写出AQI 与PM2.5、PM10、NO2、SO2、O3、CO 的多元线性回归模型。通过利用该多元线性回归模型对长沙市市的空气质量预测,也就是说,在未来,只需要观测出或者预测出PM2.5、PM10、NO2、SO2、O3、CO 的值,便可以通过该模型预测出空气质量指数,从而便于相关部门进行环境评价与保护。当然,对于其他地区甚至全国的空气质量指数,也可利用该方法建立多元线性回归模型进行预测。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!