地震前兆大数据可视化相似度评价技术研究

时间：2024-08-31

杨冠泽，单维锋

(防灾科技学院应急管理学院,河北三河 065201)

0 引言

经过几十年的记录，地震前兆台网中心已经积累了大量的观测数据，此类观测数据是一种二维时间序列值，因地震预报的需要，研究人员时常需要了解一段时间的数据变化趋势[1,2]。折线图使用点在横轴和纵轴的位置代表某个时间和数据值，是地震前兆观测数据可视化中最常用的方法。在可视化绘图的过程中，尤其在大数据时代下的web环境中，高采样、长时间的数据一方面会加重数据传输负担，增加网络延迟，降低用户体验度[3]；另一方面超量的数据显示极其密集，无法体现数据形态，从而无法为科研人员提供有效的价值。因此，对地震前兆观测数据进行降采样，消除冗余信息的同时保持数据整体形态不变是可视化的首要任务[4]。

常用降采样方法一般有均值、中位数、最小标准误差(Minimum Standard Error, MSE)，最大值最小值、随机数采样法，但是这些方法都会平滑折线图的峰谷，不能突出细节；基于MSE变形的低时效性的最长线算法(Longest-Line-Bucket, LLB)能有效保留细节部分，但是LLB算法的时间复杂度高；基于有效区域的最大三角形三桶算法LTTB(Largest-Triangle-Three-Buckets)[5]，能在有效保留细节部分的同时保持原始数据的形态，其时间复杂度为O(n)。

降采样前后折线的相似度度量问题一直未得到有效的解决[6-9]。欧氏距离和动态时间规整(DTW)距离是常用的相似性度量距离方法。欧氏距离需要相同维度[10,11]，在此基础上提出了基于欧氏距离的离散Fréchet距离的曲线相似判别算法，虽然对比的曲线维度是不一致的，但是维度差距也不能太大。前兆数据采样前后的维度差距通常在一个数量级以上，利用此方法判别的结论不够严谨。而在语音识别领域提出的DTW虽然也可以计算不同维度曲线的相似度，但是由于时间复杂度高，其应用范围受到了极大的限制[8]；针对DTW时间复杂度高的问题，学者们使用了基于编辑距离(edit distance)的时间序列度量方法，但是依旧存在O(n2)的高复杂度[12-14]，无法直接用于评估前兆数据的降采样前后折线的相似度。

综上所述，研究人员在基于欧氏距离和DTW距离上的相似性度量方面提出了较多的思路和方法，但是度量效果并不理想。而在图像搜索领域，相似图像的检索方式有多种，并以哈希算法衍生出多种算法[15-17]。本文提出一种基于最大三角形采样算法的地震大数据可视化解决方案。为了评价采样算法质量，还提出一种基于图像哈希算法的相似度评价算法。将地震前兆大数据可视化采样前后的折线图转为2张图像，并使用感知哈希算法得到2张图像的指纹，然后将其量化为汉明距离，最后通过比较2张图像的汉明距离来评价采样前后2张图片的相似度。

1 降采样方法

本文选择了5种降采样算法：均值、最大值、最小值、中位数、LTTB。这五种算法的第一步均是把原始时间序列数据均等划分为N个时间窗口，N为降采样后点的个数，其中第1块和最后1块内只有一个点，接下来第二步遍历N-2个块。不同的是：均值采样，块内计算平均值作为采样点；LTTB算法，从第一个点A开始，以第三个块的均值当作支点C，遍历第2个块的所有点B′，三点可以组成一个三角形AB′C，使得三角形面积最大的B′点即作为当前块的采样点；最大值算法，使用每个块内的最大值作为当前块的采样点；最小值算法，使用每个块内的最小值作为当前块的采样点；中位数，使用每个块内的中间位置的值作为当前块的采样点。

5种算法对比分析：均值采样算法的优点是处理速度快，能保留部分趋势，缺点在于不能保留最值细节，平滑了原始数据的峰谷，使得细节不突出；LTTB算法的优点是加强了峰谷细节表现的同时又保留了整体的趋势；最大值能突出峰值但是丢失谷值；最小值能突出谷值但是丢失峰值；中位数较为随机，很容易丢失峰谷值。

2 相似度评价

时间序列数据作为自然界中最基础、最普遍的一种数据。通常在二维平面上以折线图的形式存在。比较降采样前后2个时间序列数据的相似度可以转化为比较2个折线图的相似度。事实上，利用数学方法对图像形态进行描述的方法还不成熟[8]。如果从视觉角度出发，比较折线形态实际上就是比较两张图像的相似度,进而把降采样的相似度评估转化为降采样前后图像的相似度评估。其中计算图像相似度评估广泛用于图像领域内缩略图和重复图像检索。

2.1 图像相似度

某个测项的观测数据在二维平面上是由观测时间和观测值组成的坐标轴上的点X[i，j]，这个测项的趋势即是将这些离散点依次连接起来的形成的形态S。如果将这个二维坐标看做图像，形态S就是图像的内容，点X就是部分图像的像素点。把降采样前后的折线看做两张不同的图像，评价降采样相似度问题便转化成比较两张图像的相似度，进而转化为计算两张图像的汉明距离。对于两张像素点相同的图像，汉明距离为图像对应像素点的值不相等的总个数，距离越小，即2张图像越相似。

比较两张图像的相似度，最简单的想法是遍历图像的像素点。但是这种方法时间复杂度为O(n2)，并且对图像的旋转、缩小、放大等变化很敏感，实用性较低。感知哈希算法常用来检测重复图像，它比传统的加密哈希如MD5,SHA-1等容错率更高，精确度也更高。

2.2 感知哈希算法

感知哈希算法是一类算法的总称，包括均值哈希(aHash)、感知哈希(pHash)、差异值哈希(dHash)[18]。其中pHash精确度高，实际应用广泛。pHash使用离散余弦变换(DCT)来降低频率，把图像分离成分率的集合，再得到信息指纹即哈希值。

离散余弦变换是图像处理中常用的一种正交变换，一维正变换如下:

(1)

(2)

式中，F(u)是第u个余弦变换系数，u是广义频率变量，u=1，2，3……N-1；f(x)是时域N点序列，x=0，1，2……N-1。

(3)

(4)

(5)

(6)

二维离散余弦变换可写成矩阵式:

[F(u,v)]=[A][f(x,y)][A]T

(7)

式中，f(x,y)是空间域二维向量之元素，x,y=0,1,2,……,N-1；F(u,v)是变换系数阵列之元素。式中表示的阵列为N×N。

3 实验

3.1 数据来源

本文选取的前兆预处理数据：天津台测点2北西向长极距地电场观测秒采值数据，自2018年1月6日零时至2018年1月8日1时一共172800个点。

3.2 实验分析

以地电场观测数据为例，设置不同的降采样率,选取不同压缩大小的图像、不同的降采样方式进行实验比较。以pHash计算汉(海)明距离为核心的实验流程图如图1所示。

先将降采样前后的折线保存为图像格式，再通过感知哈希算法计算哈希值，最后哈希值转化为汉明距离，通过汉明距离来量化采样前后的折线相似度。得到哈希值的两个图像之间的汉明距离是两个哈希值对应位置的不同字符的个数，不同字符个数越少，即相似度越高。

17万余条数据绘制成图像后得到的原始数据图、LTTB降采样图、均值降采样图、最大最小降采样图、中位数降采样图形态如图2、图3所示。

从图2和图3能发现均值等传统降采样方法的细节没有LTTB明显，并且整体趋势也是LTTB保持得更完整,特别是采样率设置的为0.001的时候，只有LTTB算法还能保持原始数据趋势。按照图1的算法流程图，分别计算LTTB、AVG降采样后的形态图与原始形态图的汉明距离。

由图2可以看出，经过LTTB算法降采样后的折线形状与原始图像最为相似。本文使用pHash作为评价指标，不同的采样率实验结果如表1。

前文提到，2张图像的汉明距离越小代表图像越相似。从图2可以看出，使用了LTTB算法降采样后同时保留了细节体现和整体趋势。由表1可以看出，在不同采样率下，使用pHash算法判定LTTB算法降采样后的折线图与原折线图的汉明距离均是最小，佐证了图2的结果。

而且当图像压缩尺寸越大时，不同降采样算法的差距越明显，当采样率为0.1时，不同的图像尺寸评价结果如图4所示。

从图4中可观察到，降采样算法的效果是可以量化分析的，LTTB算法降采样后的折线图与原折图的距离均小于其他常用降采样后的折线图与原折图的距离，并且随着图像尺寸的增加，这两种距离值的差距越来越明显。

实验结果说明，从效果上，LTTB算法的降采样和常用降采样算法相比，LTTB能在保持整体趋势的同时保留细节。从算法运行效率上分析，LTTB算法的是时间复杂度为O(n)，随着原始数据量的增加，LTTB算法运行效率并不会出现指数型增长。因此在web环境下，服务器端可以使用LTTB算法进行降采样，再将少量的数据传输回用户，缩小耗时会极大地提升用户体验度。

4 结论

以前兆观测数据中的17万余条地电场观测秒采值数据进行降采样实验，分别使用均值、最大值,最小值，中位数等常用降采样算法和LTTB降采样算法，同时使用pHash算法计算出的汉明距离对降采样效果进行量化评估。相比于均值等常用降采样算法，LTTB算法能在保留原有数据形态的同时保留数据变化细节，更适合用于前兆观测数据降采样。