时间:2024-09-03
广东工业大学自动化学院 雷 宝
基于大数据的探索性空气质量数据分析
广东工业大学自动化学院 雷 宝
随着城市工业化的不断推进,城市空气污染越来越严重,至今已经变成了一个全球性的问题。开展城市空气质量监测、数据分析及可视化的研究能够全面地掌握城市空气污染源的排放数据和城市空气质量的等级分布状况,可以对影响城市空气质量的因素有着更加全面的了解和掌握,从而能够对城市空气污染进行有效的治理。本文利用大数据可视化技术,对时空序列的空气质量数据进行了探索性分析。通过探索和分析这些监测数据,结果表明人类的活动对环境空气质量有着消极影响。还发现天气也会影响空气质量,当温度下降时,空气质量呈现好转的趋势。分析结果可用于研究环境空气质量的时空分布及其动态变化。
空气质量;大数据;可视化;探索性数据分析
近年来我国地区城市空气污染加剧,其中城市大气污染的主要表现是雾霾污染,这引起了普通民众和科学界的广泛关注。空气污染对城市居民的健康风险、以及造成的经济损失都是无法估量的。空气污染主要通过三条途径危害人体[1]:一是人体接触到污染物后受到伤害,二是食用了含有大气污染物的食物和水,三是吸入污染的空气。空气污染还会危害生物的生存和发育,也会腐蚀仪器、设备和建筑物等,此外臭氧层破坏、酸雨腐蚀和全球气候变暖等现象也和空气污染息息相关。世界卫生组织和联合国环境组织发表的一份报告指出:“空气污染已成为全世界城市居民生活中一个无法逃避的现实[6]。”城市工业化的发展,在为人类创造巨大财富的同时,也将大量的有害物质排放到大气之中,从而对人类和环境带来了巨大灾难。
1977年,在美国约翰•怀尔德杜克(John Wilder Tukey)的《探索性数据分析》一书中,探索性数据分析第一次被系统地论述。他的主要观点是[8]:探索性数据分析(EDA)与验证性数据分析(Confirmatory Data Analysis)有所不同:前者注重于对数据进行概括性的描述,不受数据模型和科研假设的限制,而后者只注重对数据模型和研究假设的验证。他认为统计分析应该充分利用探索性数据分析的优势,从而发现新的理论假设和数据模型,而不应该仅仅重视模型和假设的验证[8]。大数据时代已经来临,每天我们都能够通过各种渠道和方式收集到海量的各种混乱,非结构化及多媒体数据。如何找出这些数据中的规则、分析数据模型和提出理论假设已经成为新的挑战。
大数据时代来临,使得数据行业展现出蓬勃的发展趋势,传统的数据可视化手段已经不能满足数据行业的需求,大数据可视化技术开始涌现。大数据可视化技术主要是希望通过可视分析的方式来探索大数据中的不易被发现的有价值的信息。
大数据可视化技术充分地将计算机的计算能力和人的认知能力有效的整合在一起,从而使人能够快速地、精确地洞察大数据的内在结构和规律。就目前而言,对于大数据可视化技术的研究仍然比较初步,对于这一研究领域的理论、方法和技术体系至今尚未形成[3]。
目前,大数据可视化的主要研究领域包括文本可视化、网络可视化、时空数据可视化、多维数据可视化[7]。
大数据可视化流程如图1所示。首先需要将原始数据导入大数据平台上,之后,对大数据平台上的大批量数据进行优化存储。为了提高数据访问时的效率,将数据存储在数据仓库Hive中,通过Hive的分区等功能来实现数据存储优化。然后通过JDBC的方式访问Hive中的数据,经过简单的数据格式转换后使用可视化工具完成在web端的可视化。
图1 大数据可视化流程
空气质量指数(AQI)是反应环境空气质量好坏的无量纲指数,其数值越大,说明空气污染状况越严重,对人体危害就越大。空气质量指数的大小取决于空气中污染物的浓度水平。但空气污染是一个复杂现象,污染物浓度在特定时间和地点受到许多因素的影响[4]。固定和移动源的人为排放量是影响空气质量的主要因素之一,包括车辆尾气排放,工业污染,生活和暖气,垃圾焚烧等。除了这些因素外,城市发展密度,地形和天气也将影响空气质量。目前,城市空气质量监测网监测的主要污染物有:SO2,NO2,CO,O3,PM10,PM2.5。空气质量指数(AQI)用于测量空气污染程度。首先根据六种污染物的浓度及其相应的较低和较高的标准浓度值计算各个指标。然后将最大的子指标值确定为空气质量指数(AQI)。当AQI>50时,具有最大子指标值的相应污染物被认为是主要污染物。AQI及其等级如表1所示:
表1 空气质量指数及相关信息
实验数据来自于广州市的11个环境监测站,包括有广州市2016年的全年日常空气质量监测数据以及广州地区的气象数据。该数据是从青悦开放环境数据中心下载(https://wat.epmap.org/)。部分数据如表2所示。
表2 广州空气质量数据
3.3.1 空气质量分布趋势
实验数据的时间范围是从2016年1月到2016年11月。通过对这些时空序列的空气质量数据进行分析,我们可以发现空气污染的分布和发展趋势。图2是几个监测站一年内空气质量指数AQI的变化趋势。从图中可以看出2016年的1月初与4月初的时候空气污染明显加重,4、5、6、7月空气质量相对较好、且较稳定。从图3可以看出森林公园监测站的全年空气质量比其他三个站点要好,这也证明了人类活动对环境空气质量的负面影响。
图2 2016年空气质量指数(AQI)的变化趋势
图3 2016年四个监测站空气质量类别为优的天数
3.3.2 天气对空气质量的影响
在大家的认知中,天气的变化是会对空气质量有一定影响的,因此我们分析了气温对空气质量的影响变化。如图4、图5所示,它们展示的是空气质量指数、pm2.5指数、SO2指数和NO2指数和气温的变化情况。从图中可以看出气温的变化在一定程度上影响着空气质量。随着气温的降低,空气质量指数、pm2.5指数、SO2指数和NO2指数有着下降的趋势,这说明空气质量好转。
图4 2016年1月空气质量指数和气温的变化趋势
图5 2016年1月pm2.5、SO2、NO2和气温的变化曲线
在本文中,收集了2016年广州市日常环境空气质量数据以及气象数据。在大数据的时代背景下,利用大数据可视化技术,对空气质量数据进行了探索性分析,尝试着去找出空气质量数据的时空分布趋势和隐藏模式。通过相关分析,试图去解释天气和人类活动对环境空气质量的影响。通过探索和分析这些监测数据,结果表明人类的活动对环境空气质量有着消极影响。还发现天气也会影响空气质量,当温度下降时,空气质量呈现好转的趋势。最后要感谢青悦开放环境数据中心给予的支持与帮助。
[1]王德敏.空气污染数据可视化方法研究及可视化系统实现[D].山东大学,2012.
[2]Zhang R M,Zou X J,Gu B J,et al.Research of time series data based on exploratory analysis[J].Journal of System Simulation,2006.
[3]王瑞松.大数据环境下时空多维数据可视化研究[D].计算机科学与技术学院,2016.
[4]HeHctor Jorquera,Wilfredo Palma,JoseH Tapia.An intervention analysis of quality data at Santiago,Chile[J].Atmospheric Environment 2000,34:4073-4084.
[5]Zhang yannan.Visualization Research of environment monitoring spatial and temporal data based on R language[D].Dissertation of wuhan university2016.(In Chinese).
[6]武装,覃爱明.基于大数据的空气质量数据可视化[J].广角镜,2015,3: 249-251.
[7]Intel IT Center.“Big Data Visualization:Turning Big Data Into Big Insights”White Paper,March 2013,pp.1-14.
[8]天善智能.说说什么是探索式数据分析、验证性数据分析[OL].http://www.36dsj.com/archives/42301,2016.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!