浅谈关联规则挖掘在自动站数据质量控制中的应用

时间：2024-08-31

摘要：气象观测数据质量好坏直接影响到数据应用效果，如何进行气象资料质量控制，确保气象自动站资料代表性，准确性和比较性，是气象资料工作者和气象资料使用者迫切需要解决科学问题。本文提出基于关联规则挖掘技术自动气象站数据质量控制算法，以提高气象观测数据准确度。

关键词：观测数据;质量控制;关联规则;数据挖掘;

气象观测数据综合质量控制工作主要是指对所观测到的气象数据进行分析及质量检查，并对每组数据的质量控制情况记录，及时发现其中错误数据，并及时改正。一般情况下，地面气象观测数据需要通过收集、读数、传输、编码及解码等程序，每个环节误差都会导致观测数据出现偏差，因此，数据质量控制就成为自动站观测数据应用环节。目前国内针对自动站实时观测资料质量控制方法主要有：气候界限值或要素允许值检查、台站极值检查、时间一致性检查、内部一致性检查、空间一致性检查，人机交互检查等方法。但由于实际天气现象复杂多变，在不同区域、不同气候特征下，一些观测要素间无物理意义变化也存在着一定规律。如何快速准确地发现其中关联信息，进一步提高自动站质量控制算法准确率，引入数据挖掘技术就成为解决问题有效方法之一。

1数据挖掘技术

数据挖掘，又译为资料探勘、数据采矿。是数据库知识发现中的一个步骤。数据挖掘技术诞生与发展带领气象领域进入了新时期，国内外越来越多气象工作者开始使用数据挖掘技术在气象数据分析、气象信息存储、天气预报预测和气象服务等领域开展一定研究和应用，但对气象观测数据的质量控制主要还有以下两点不足：质控集中在使用传统气象数据质控方法，根据历史资料得出气候界限值及各要素允许值对观测值质控，灵敏度不高;数据挖掘算法应用主要集中于气象要素之间相关性分析，天气现象分类，降水量预测等，在气象数据质量控制方面研究工作开展的较少。

2 关联规则挖掘

2.1 关联规则定义

1993年，Agrawal等人在首先提出关联规则概念，同时给出相應挖掘算法AIS，但是性能较差。1994年，他们建立项目集格空间理论，并依据上述两个定理，提出著名的Apriori算法，至今Apriori仍然作为关联规则挖掘经典算法被广泛讨论，以后诸多研究人员对关联规则挖掘问题进行大量研究。

关联规则定义为：

假设I={I1，I2，…，Im}是项的集合，给定一个交易数据库D，其中每个事物（Transaction）T是I的非空子集，即T⊆I，每一个事物都与一个唯一的标识符TID（Transaction ID）对应。设A为一个数据项集合，当且仅当A⊆T时，称事物T包含A。关联规则形如X⇒Y形式蕴含式，其中X，Y∈I且X∩Y=φ，X和Y分别称为关联规则的先导和后继。关联规则X⇒Y在D中支持度是D中事物包含X∪Y百分比，即概率P（X∪Y）;置信度是包含X的事物中同时包含Y百分比，即条件概率P（Y│X）。

2.2 Apriori算法

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。该算法的基本思想是：首先找出所有的频集，这些项集出现频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项所有规则，其中每一条规则的右部只有一项，这里采用的是中规则定义。一旦这些规则被生成，那么只有那些大于用户给定最小可信度规则才被留下来。为生成所有频集，使用递推方法。其算法伪代码如下：

输入：数据集D;最小支持度minsupport

输出：频繁项集L

L1= {频繁1项集} //初始化频繁项集L[1]（也称单品项集）

for（k=2;Lk-1不为空;k++）{

Ck= Apriori_gen（Lk-1）; //生成所有长度为K的候选相集

for all transactions t∈D; { //对所有的交易记录做循环

C = subset（Ck，t）; //找出当前交易记录t和候选频繁项集C[k]的交集

for all candidates c∈C do //对存在的候选频繁项集的交集进行支持度计数

c.count ++; //候选项目支持度计数加1

end for;

Lk={c∈Ck|c.count≥min_sup}; //得出满足最小支持度的频繁k项集

end for;

return L=UKLK

3 关联规则挖掘技术应用

3.1数据处理

选取自动站实时观测资料数据库中相关气象要素观测项目，构成用于关联规则挖掘的数据库事物集合D。气温T，相对湿度H，气压p，降水量R，风速Wv，风向Wd，就是数据库D的维，即D={T，T，P，P，Wv，Wd}，数据库中所有记录就是集合D全部对象。

3.2 数据清洗

在数据挖掘过程中，问题数据会直接误导挖掘过程，并对挖掘结果产生影响。数据清洗就是填补缺失数据、平滑噪声数据、处理不一致数据。对于气温、相对湿度、气压、地表温度等具有连续性变化要素，其短时间序列缺失值采用就近跨距均值法处理，选择缺失值前后各2h平均值代替缺失值;对于风速、风向、降水等离散型变化气象要素，缺失值填补参考空间插值法处理。长时间序列（12h以上）缺测记录，则借助对比人工定时观测记录将日极值加以补充。

3.3数据变换

分析自动站实时观测资料中各观测项目变化趋势间联系，需要将数据库中以时间序列存放的具有连续变化特征数据进行序列化，即用ΔT、ΔT表示T、H的小时变化值。以气象观测规范为依据，将数据库D中数据属性进行泛化，将数值类型数据变换为支持Microsoft关联算法的离散型数据。以降水量R、风向Wd为例，将数据库中的降水量数值按照气象等级概念的无降水、小雨、中雨、大雨、暴雨等级别划分，划分区间为[0，1）、[1，10）、[10，25）、[25，50）、[50，100）、…;风向Wd按照角度值转换为风向标识N、NE、E、SE、S、SW、W、NW。强相对湿度小时变量ΔH进一步泛化，得到ΔH分别处于[0，30%）、[30%，50%）和[50%，100%]中为变化率低、中、高。

3.4数据挖掘

选取武汉市国家基本气象观测站5年的小时整点数据作为数据库事物集合，以武汉“千湖之城”的地域特点和相对湿度变化较快的独特气候条件，与相关主导风向、风速、气温、降水量等级为研究对象，设定最小支持度阈值和最小置信度阈值，进行数据挖掘，找出关联规则，剔除可疑数据。

4 结语

数据挖掘技术是目前国际上数据库和信息系统最前沿的研究方向之一，在商业领域已经取得成功应用，利用关联规则数据挖掘技术对大量观测数据分析，以发现其数据模式及特征，观察数据变化趋势和数据之间关联规则，对进一步完善自动站数据质量控制算法提供技术支撑。今后还将行气象数据深入挖掘研究。

参考文献

[1]史静，党岳，张永欣，等. 自动站数据质量控制中关联规则挖掘的应用[J]. 气象科技，2014（4）

[2]李晓兰，曹晓钟，朱君，等. 基于关联规则挖掘的自动站观测数据相关性分析[J]. 气象科技，2016，44（5）.

作者简介：陈声超（1989-），男，汉族，湖北武汉黄陂人，大学本科，助理工程师，从事气象装备保障工作。