时间:2024-06-19
文 琴,罗 飞
(成都信息工程大学软件工程学院,成都 610225)
熵在空气质量指数(AQI)预测中的应用
文 琴,罗 飞
(成都信息工程大学软件工程学院,成都 610225)
为了更准确地找出影响空气质量指数的气象因子与提高其预测精度,提出了基于熵、BP神经网络和时间序列模型的组合预测模型。该方法利用增加了特征变量的转移熵方法,得到影响AQI的气象因子及其影响度,将得到的气象因子与AQI实测值作为BP神经网络的输入因子和时间序列分析模型的特征因子,影响度作为BP神经网络输入因子的初始权重,构建BP神经网络预测模型和时间序列分析预测模型,最后用熵值法组合各个预测模型的预测结果。实验表明利用该方法对空气质量指数进行预测可提高其预测精度。
空气质量指数预测;转移熵;熵值法
近年来城市空气污染问题越来越严重,对自然环境和人民的生活带来巨大冲击,因此,建立科学的空气质量指数预测模型尤为重要。开展空气质量指数预测可以让人们对影响空气质量指数的因素以及未来城市空气质量指数的变化有所了解和把握,为其出行提供健康指引,同时为政府相关部门制定空气污染处理方案提供辅助材料。
张学文[1-2]给出了计算气象要素场熵值的方法,同时认为开展熵气象学研究可以为气象学找出新的出路。在空气质量指数预测的文献中,用于分析影响空气质量指数的气象要素的方法主要有主成分分析[3]、统计对比分析[4]、统计和个例分析等。但是主成分分析主要是用于分析变量之间的线性关系,而大气环境质量的预测和评价是一个多变量和非线性问题;统计对比分析会由于采集的数据集不同而导致最终得出不同的结论。因此,本文采用转移熵方法找出影响AQI的气象因子,在该方法中增加一个特征变量风场,因为在不同的风力风速情况下,气象条件对空气质量指数值的影响是不同的,即在考虑了影响AQI的主要因素风场的条件下再判断其他气象要素对AQI值的信息转移。转移熵[5]是能够分析系统之间信息相互作用的一种有效工具,同时能够解决非线性系统问题以及描述两因素之间的相关度,这是因为在转移熵的模型中考虑了系统之间的不对称性以及动态特性。近年来转移熵被广泛应用于神经电信号与市场股票的时间序列分析研究中[6-7],并都取得了不错的成果。
目前用于空气质量指数的预测模型主要是时间序列分析模型和神经网络模型。于萍[8]提出利用时间序列分析ARMA(1,1)模型对大连市未来10天的空气质量进行预测,该模型短期预测较为准确,但一旦测试天数增加,预测结果可能会不稳定。南亚翔[9]等人利用自回归移动平均模型(ARMA算法)为卡尔曼滤波建立模型,提出将RBF神经网络融合于卡尔曼滤波的方法,实现对空气质量指数的混合预测,但卡尔曼滤波一般用于线性系统。王珍[10]提出采用因子分析法先将多指标进行降维,然后再用BP神经网络模型进行综合评价,而因子分析法是主成分分析法的推广,这两种分析方法均适用于线性关系的分析,但大气环境质量的预测是一个非线性问题,用因子分析法可能会对预测结果造成一定的影响。祝翠玲[11]和郭庆春[12]等人将人工神经网络应用到空气质量预测及大气污染预测中,由于每日空气质量指数及污染物浓度呈非线性变化且受多种因素的影响,并且神经网络具有较强的非线性处理能力和自学习能力,实验表明将神经网络模型用于空气质量指数的预测,能够提高预测结果的精度和正确率。为了准确地提取影响空气质量指数的气象因子,提出在考虑风场对污染物扩散影响的条件下再提取影响空气质量指数的气象因子。为了进一步提高空气质量指数的预测精度,将时间序列分析模型与神经网络预测模型的预测结果进行组合。
本文首先用转移熵找出影响空气质量指数的气象要素,再用找出的气象因子与实测空气质量指数数据构建BP神经网络预测模型与时间序列分析模型。然后用熵值法对BP神经网络和时间序列分析模型的预测结果进行评价,确定各个预测模型的权重,将各个预测模型的预测结果进行组合。最终得到较单一预测模型更加准确的预测结果。
1.1 转移熵在预测中的应用
...yn-l+1},定义转移熵[13]:
(1)
其中,TY→X表示在考虑了时间序列Yn值的情况下,状态Xn到状态Xn+1的变化,即Xn到Xn+1的变化是否与因素Yn的值有关。在本文中Xn表示空气质量指数的时间序列值,Yn表示要考察的某一个气象因子的时间序列值。时间序列Yn到Xn的转移熵,实际上是Yn传递给Xn的信息量。转移熵的值越大,说明Yn传递给Xn的信息量越大,若转移熵的值为0,说明Yn对Xn的变化没有任何影响。本文将转移熵用于气象要素与空气质量指数的因果关系分析,相关性分析。
(2)
(3)
为了更加准确地找出影响空气质量指数的气象因子,本文在使用转移熵的同时,提出使用增加特征变量的转移熵找影响空气质量指数的主要气象要素,公式中增加的特征变量为风场。
由于现有的提取影响空气质量指数的气象因子的方法如:统计分析方法与因子分析方法等没有考虑风速和风向即风场因素对污染物扩散的影响,而空气质量指数又是依据空气中污染物浓度的高低判断的,故会对预测的结果造成一定的影响。因为在不同的风速与风向情况下,各个气象因子对污染物的扩散有变化。因此,在转移熵公式中增加一个特征变量即影响污染物浓度的主要气象因子风场的基础上再考虑其他的气象因子对空气质量指数AQI的影响,这有利于提高预测结果的准确度。
增加了特征变量风场以后,转移熵[14]的公式可以写成:
(4)
式(4)中的时间序列Zn在本文中代表风场,式(4)在该预测中表示的含义是在考虑风场Zn的条件下,气象要素Yn对空气质量指数Xn的信息转移熵。
1.2 熵值法在预测中的应用
为了克服单一预测模型的不准确,本文提出利用组合预测模型提高空气质量指数的预测。组合预测模型中权重由熵值法确定。
在信息论中,熵是不确定性和无序性的度量,熵值的大小就代表不确定性大小,如果熵值小,则不确定性就小,那么所包含的信息量就越多;如果熵值大,则不确定性就大,那么所包含的信息量就越少,根据此特性,本文将熵值作为各个预测模型的预测精度的度量,用熵值法确定各个预测模型在组合预测中的权重,具体的方法如下[14]:
(1)日AQI数据序列为{xt,t=1,2,...,n},定义第i种预测模型第t时刻的相对误差为eit(i=1,2,...,m,t=1,2,...,n)且eit∈[0,1],{eit,t=1,2,...,n}为第i种预测模型第t时刻预测相对误差序列。
(2)将各个预测模型的预测相对误差序列单位化,即计算第i种预测模型在第t时刻时的预测相对误差的比重pit。
(3)计算各个预测模型的预测相对误差的熵值,hi表示第i种预测模型的预测相对误差的熵值。
其中k为常数且k>0,熵值。hi≥0,i=1,2,...,m。
对第i种预测模型而言,如果pit全部相等,即pit=1/n,t=1,2,...,n,那么hi取极大值,将pit=1/n带入熵值公式得hi=kln(n),取k=1/ln(n)则hi的取值范围为:0≤hi≤1。
(4)计算第i种预测模型的预测相对误差序列的变异程度系数di,根据系统某项指标的熵值的大小与其变异程度相反的原则,定义第i种预测模型的预测相对误差序列的变异程度系数di为:di=1-hi,i=1,2,...,m。
(5)设各种预测模型的加权系数为w1,w2,...,wm:
(6)计算组合预测值ft:
在大气污染源不变的条件下,空气质量指数的变化主要是由气象条件所引起,如何准确地找出影响空气质量指数变化的气象要素至关重要。本文提出使用增加特征变量的转移熵准确的找出影响空气质量指数的气象因子。再用找出的气象因子与实测AQI数据构建BP神经网络预测模型和时间序列分析模型。模型构建好了之后,用相应气象要素数的数值预报数据欧洲细网格数据(ecmwf_thin)及当前AQI数据对未来空气质量指数进行预报。最后用组合预测模型提高空气质量指数的预测,组合预测模型中各个预测模型的权重由熵值法确定。具体的预测模型的建立步骤如下:
(1)首先用增加特征变量的转移熵准确地找出影响空气质量指数的气象因子及其信息转移熵。
(2)用找出的气象因子及其信息转移熵与当前实测的AQI值构建BP神经网络预测模型和时间序列分析模型。
(3)预测模型构建好之后,用相应气象要素数的数值预报数据即欧洲细网格数据(ecmwf_thin)及当前AQI数据对未来空气质量指数进行预报。
(4)然后用熵值法将上述两种模型的预测结果进行组合,即用组合预测的方式来提高预测的精度。
(5)预测结果评价。
3.1 数据来源
实验采用的数据包括空气质量指数数据和气象要素数据。空气质量指数数据是成都市2016年10月~2017年1月公布的逐日实测AQI数据。用于训练的气象数据集采用成都市同期的实测气象要素数据。用于预测的气象要数数据采用欧洲细网格数据(ecmwf_thin)数值预报数据。
3.2 实验分析
由于污染物的迁移传输需要一定的时间,故前日AQI对当日AQI有较大影响,因此前日AQI可以在一定程度上描述污染源的特征[15-17]。在污染源不变的条件下,污染物的扩散与沉降等能力和气象条件有着十分重要的关系。
首先利用增加特征变量的转移熵算法找出影响空气质量指数的气象要素,通过分析计算得出影响空气质量指数的主要气象要素及其信息转移熵见表1。
表1 影响AQI的主要气象因子及其信息转移熵
用找出的影响空气质量指数的气象因子及其信息转移熵与当前实测的AQI值构建空气质量指数的BP神经网络预测模型(模型1)和时间序列分析模型(模型2)。预测成都市2017年01月15日~2017年01月27日的AQI值。
用组合预测方法对空气质量指数进行预测,组合预测方法的权重由熵值法确定。首先求出各个预测模型的相对误差序列。再将相对误差序列单位化。然后计算各个预测模型预测相对误差的熵值hi和di,模型1的熵值h1=0.844 097 55和d1=0.155 902 45,模型2的熵值h2=0.841 761 8和d2=0.158 238 17。于是得到各个预测模型的权重wi,其中模型1的权重w1=0.503 717 634 478 470 2,模型2的权重w2=0.496 282 365 521 529 7。分别设模型1和模型2的预测值为PredictiveValue1和PredictiveValue2,最后得到组合预测模型(模型3)的表达式为:
ft=0.5037176344784702*PredictiveValue1+ 0.4962823655215297*PredictiveValue2
表2为成都市2017年01月15日~2017年01月27日的实测值以及预测模型的预测值。
表2 实测值及其预测值
本文采用平均绝对差(MAE)、均方差(MSE)、均方根差(RMSE)作为预测结果的误差评价指标。误差评价指标的取值范围是0到正无穷大,当误差指标值为0时,表示观测值与预报完全一致,误差指标值越小说明预报越精确。表3为三种模型预测结果的误差指标值。
表3 误差评价指标值
由表3可知,组合预测模型(模型3)的误差评价指标值均低于其他两个模型的值。因此组合预测模型的预测精度相比于其他两个预测模型有所提高。
为了提高空气质量指数预测的精确度,本文将信息论中的熵引入空气质量指数预测的研究。首先采用增加了特征变量的转移熵方法找出影响空气质量指数的气象因子,再用找出的气象因子与实测AQI构建神经网络预测模型和时间序列分析模型。然后将熵值法确定组合预测模型中各个预测模型的权重,将传统单一预测模型转为组合预测模型。本文将该方法用于预测成都市空气质量指数的预测,实例结果表明该方法能提高预测精度。
[1] 张学文.相对分布函数和气象熵[J].气象学报,1986(2):88-93.
[2] 张学文,马力.熵气象学简介[J].气象,1995,21(1):52-56.
[3] 刘萍.基于主成分分析和多元线性回归模型的空气质量评价方法研究[D].昆明:云南大学,2015.
[4] 普映娟,王琳邦.保山城区空气污染指数的时间序列分析[J].保山学院学报,2010,29(2):10-12.
[5] SCHREIBE T.Measuring information transfer[J].Phys Rev Lett,2000,85(2):461-464.
[6] 马超飞.基于转移熵的神经电信号分析研究[D].上海:华东理工大学,2013.
[7] 陈悦辰.基于转移熵方法的市场有效性评价及不同系统性风险股票与收益率之间的信息流分析[D].北京:北京交通大学,2014.
[8] 于萍.时间序列分析在空气质量指数(AQI)预测中的应用[D].大连:辽宁师范大学,2015.
[9] 南亚翔,李红利,修春波,等.基于卡尔曼滤波的空气质量指数预测方法[J].环境科学导刊,2016,35(3):80-84.
[10] 王珍.基于因子分析-BP神经网络模型在空气质量综合评价中的应用[D].昆明:云南大学,2015.
[11] 祝翠玲,蒋志方,王强.基于B-P神经网络的环境空气质量预测模型[J].计算机工程与应用,2007,43(22):223-227.
[12] 郭庆春,何振芳,李力.人工神经网络在大气污染预测中的应用研究[J].工业仪表与自动化装置,2012,17(4):18-22.
[13] 叶中行.信息论基础[M].北京:高等教育出版社,2006.
[14] MONTALTO A,FAES L,MARINAZZO D.MuTE:A MATLAB Toolbox to Compare Established and Novel Estimators of the Multivariate Transfer Entropy[J].Plos One,2014,9(10):e109462.
[15] 陈华友.熵值法及其在确定组合预测权系数中的应用[J].安徽大学学报:自然科学版,2003,27(4):1-6.
[16] 周秀杰,苏小红,袁美英.基于BP网络的空气污染指数预报研究[J].哈尔滨工业大学学报,2004,36(5):582-585.
[17] 黎洁仪,梁之彦,杨国杰.广州市空气污染影响因子与预报建模[J].广东气象,2013,35(4):47-50.
Application of Entropy in Air Quality Index (AQI) Prediction
WENQin,LUOFei
(College of Software Engineering, Chengdu University of Information Technology, Chengdu 610225, China)
In order to accurately extract the meteorological factors that affect the air quality index and improve the prediction accuracy,a prediction model based on entropy,BP neural network and time series model is proposed.This method uses the information transfer entropy with the characteristic variables to obtain the characteristic factor and the specific influence degree.The obtained characteristic factor and measured values of AQI are used as the input factor of the BP neural network and the characteristic factors of the time series analysis model,the influence degree is the initial weight of the BP neural network,construct BP neural network and time series analysis model,finally,the results of each prediction model are composed by the entropy method.The experiment shows that the This method can improve the stability and the predict accuracy of the forecast of air quality index.
air quality index forecasting; transfer entropy; entropy method
2017-04-25
国家公益性行业(气象)科研专项(GYHY201506025)
文 琴(1991-),女,四川成都人,硕士生,主要从事气象信息化方面的研究,(E-mail)15928662936@163.com; 罗 飞(1977-),女,四川成都人,副教授,主要从事气象信息化技术、数据集成与可视化方面的研究,(E-mail)luofei@cuit.edu.cn
1673-1549(2017)04-0096-05
10.11863/j.suse.2017.04.17
TP311
A
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!