基于Piper-PCA-MLP神经网络的矿井涌水水源识别方法研究

时间：2024-07-28

刘旭东，张瑞，万宝

(1.国家能源集团新疆能源有限责任公司，乌鲁木齐 841100；2.中材地质工程勘察研究院有限公司，北京 101100； 3.首都师范大学资源环境与旅游学院，北京 100048)

近年来，考虑到煤炭使用造成的严重污染，煤炭在我国能源消费结构的比重逐步下降[1]。采矿过程中遇到的危害，如矿井涌水，水质污染和其解决方法与水源密切相关[2]。因此，快速准确识别涌水水源，对保障煤矿安全生产，提高煤炭生产效率至关重要。常见的矿井涌水水源识别方法有地下水水化学法、同位素法、水位、水温判别法、多元统计学方法(层次聚类分析，Fisher分析等)等[2-5]，由于各含水层的水岩相互作用，以及补给、径流和排泄条件不同，不同含水层的水化学组分存在差异，运用水化学方法初步判别涌水水源是较为简易的方法[6]。然而随着煤炭开采深度的增加，不同含水层的水源相互混合，单一的识别方法显然不能快速识别涌水水源，利用多种涌水水源识别方法相互结合构建模型可提高水源判别的准确性，是当下研究的热点。黄平话等基于Piper-PCA-Bayes-LOOLV识别模型，在贝叶斯判别模型的基础上，以平顶山矿的主要含水层水样为例，进一步提高了涌水的预测效率[7]。人工神经网络具有极强的非线性函数逼近能力，近年来被广泛应用于水源判别领域[8]。施龙青等提出PCA-PSO-ELM突水水源模型，以焦作矿区前29组水样数据作为训练样本，后7组水样数据作为测试样本，其判别结果与ELM、BP神经网络模型对比，其水源识别精度得到了较大的提高[9]。

在前人研究的基础上，在乌东煤矿主要含水层采集了水样，建立了基于Piper-PCA-MLP神经网络的涌水水源识别模型。为了凸显模型的可靠性和准确性，分别对水样数据建立PCA-层次聚类模型、MLP和PCA-RBF模型进行相互对比，证明了该模型的可行性。利用Piper三线图揭示了矿区不同地下水含水层的水化学特征，删除异常水样，运用软件构建主成分分析和MLP神经网络相结合的矿井涌水水源模型，通过主成分分析法，将多个相关，重叠的信息指标转化为独立指标，消除叠加信息的影响，建立效率和准确性更高的Piper-PCA-MLP涌水水源判别模型。

1 模型的理论原理

地下水的化学成分是在一定温度和压力下，水与所在含水层的矿物之间发生水岩相互作用的结果[10]，所以由不同矿物构成的含水层中水的化学性质就存在差别。利用Piper三线图可揭示矿区不同含水层的水化学特征，而在不同含水层取样可能会受到其它因素的影响，同一含水层可能会出现异常的水化学离子[11-13]。通过 Piper 三线图可以有效地删除异常水样，为模型的建立和提高识别精度建立了基础。

相比于其他分类模型，MLP神经网络具有良好的分类效果，但在面对高维数据时建模时间较长[14-16]。用主成分分析法对高维数据集进行特征提取，再将提取后的数据集输入MLP神经网络进行建模和调参，将有效地提高MLP神经网络建模效率和收敛速度。主成分分析法(PCA)包括四个求解步骤：①对原始数据进行标准化处理，②求出协方差矩阵，③求解协方差矩阵的特征值及对应的特征向量，④选择m(m≤p)个主成分，计算主成分得分。在选取主成分个数时，一般取决于累计方差贡献率。通常取单个主成分使得方差的累计贡献率达到85%以上。

基于上述思想，本文将三者结合，通过Piper三线图分析了矿区不同地下水含水层的水化学特征，删除异常水样，由于矿区不同水化学离子之间存在极强的相关性，通过PCA算法对不同含水层矿井水水化学离子进行特征提取，得到的特征数据集经标准化后作为MLP神经网络分类模型的输入，训练后得到Piper-PCA-MLP神经网络模型；进而用模型实现不同含水层矿井涌水水源的高效分类。

2 地质及水文地质条件

乌东煤矿位于乌鲁木齐市东北部,主要开采煤层为西山窑组的B1-2、B3-6煤层。矿区范围内主要有铁厂沟河和芦草沟河，其中芦草沟水流较小，上游站日平均流量为0.031～0.190m3/s，年径流量为356万m3；下游站日平均流量为0～0.214m3/s，年径流量为135万m3。铁厂沟上游站月平均流量为0.068～0.247m3/s，年径流量为423万m3；下游站月平均流量为0～0.148m3/s，年径流量为186万m3。这两条河多因上游截流而干枯，只在每年冰雪融化时有一定量的水，雨季有时发洪水。矿井分南、北、西采区,西区涌水主要受芦草沟河谷及河漫滩的第四系全新统冲洪积卵砾石层补给，为了减小河水对矿井涌水的补给量，西区东翼建有截流工程。但近年来随着采深加大，采动影响范围不断扩大，破坏了芦草沟河床附近第四系冲洪积含水层，截流工程失去作用，西区东翼涌水量持续增大，威胁矿井安全生产。根据矿井开采以来的情况可知，矿井自身采空区情况清楚，基本不存在大的涌水，但由于采空区受地表水、大气降水、河流渗漏等补给，局部地段可能会存在少量涌水，快速准确地识别涌水水源对保障工作面安全、顺利回采及其重要。

根据井田内形成的地质资料，井田共划分了4个含(隔)水层。

1)第四系孔隙潜水含水层。主要分布在井田内的芦草沟河、铁厂沟河的河床两岸，或在大、小洪沟等冲沟中。由砾石、砂土组成，其中洪积砾石层砾径多在60mm左右，夹小砾石和砂砾，松散，透水性强。最大埋藏深度51.48～97.50m，含水层最大厚度31.22m。抽水试验结果显示，单位涌水量为0.039 9～5.786 L/(s·m)，属弱—极强含水层。

2)中侏罗统头屯河组裂隙孔隙弱含水层。主要分布于井田的中部，呈东西向条带延展，整合于西山窑组之上，岩性主要由砂岩、泥岩组成。该岩组出露位置较高，四周裸露地表。

3)中侏罗统西山窑组裂隙孔隙弱含水层。岩性为湖相及泥炭沼泽相之粉砂岩、煤层、泥岩为主，夹细砂岩，在底部B1-2煤层之顶底板偶有中、粗砂岩。本含水层是矿井开发的直接充水含水层。它与其它含水层的关系是：在井田西部除沟谷含水层有微弱的渗透补给外，构造含水带在北缘是它的盖层，在东部铁厂沟切割所有煤层有弱渗透补给，北缘有第四系含水层含水段补给。

4)下侏罗统三工河组相对隔水层。出露于井田的中南部，呈条带状东西向延展。岩性以泥质粉砂岩、粉砂岩为主夹薄层细砂岩、灰岩。井田内该组没有出露全，按其岩性组合，将此层划为相对隔水层。由于此层在井田内所处地理位置相对较高，形似一挡水墙，阻隔了从南部山区而来的基岩裂隙水。

根据矿井涌水因素分析，乌东煤矿煤层开采直接涌水含水层为西山窑组含水层，间接涌水含水层为第四系含水层以及周围地表水。

3 水化学特征分析

3.1 样品采集

表1 水质测试结果

3.2 水质分析

含水层水质PIPER三线图如图1所示。

图1 含水层水质Piper三线图Figure 1 Aquifer water quality Piper trilinear diagram

由图1可知，各含水层间的水化学组分大多位于菱形中部偏右位置。研究发现，仅依靠含水层的水化学特征不能准确对涌水水源进行判别。因此笔者尝试构建主成分分析和MLP神经网络相结合的矿井涌水水源模型，通过建立Piper-PCA-MLP神经网络模型对水化学组分相差不大的水样进行判别。

4 Piper-PCA-MLP神经网络模型分析

4.1 评价指标的优化

为减少量纲对判别指标的影响，利用SPSS软件对22组原始数据进行标准化处理。随后对标准化后的数据进行相关性分析，得出样本间的Person相关系数。由表2可知，样本选取的8个水化学成分之间是明显相关的。例如，Na++K+和Cl-的相关系数为0.967,Mg2+和TDS的相关系数为0.927；此外，样本指标信息明显重叠，有必要对指标进行降维处理。

表2 水化学成分指标的相关性系数

乌东煤矿涌水水源的类型包括地表水、第四系地下水和基岩裂隙孔隙水三类。对22组样本数据进行随机选择,利用PCA算法对水样数据进行筛选，保留水样指标中的主要因子，以22组水样数据中17组作为训练样本，5组作为测试样本建立MLP神经网络模型。

4.2 数据的预处理

利用SPSS软件求解成分得分系数矩阵，得出前三项成分的特征解释率为72.3%、14.6%和9.14%,分析认为提取的前3种主成分即可解释90%的信息，满足实验要求，预处理后的部分数据见表3、表4。

表3 水样成分解释方差率

续表

表4 成分得分系数矩阵

在确定主成分个数为3的基础上，结合成分得分系数矩阵，得到各主成分与原始变量的数学表达式：

(1)

4.3 参数选取

在水源识别模型中，输入变量为由主成分分析后提取的前三项主成分指标组成，输出变量为水源类型。使用软件对MLP神经网络进行建模，筛选后的22个典型水样中选取17个作为模型输入的训练样本,5个作为测试样本，MLP神经网络图见图2。

图2 PCA-MLP神经网络Figure 2 PCA-MLP neural network

为了凸显模型的可靠性和客观性，选取同一样本集对样本数据分别建立PCA-RBF、MLP、PCA-分层聚类模型，并对其分析结果进行对比，其中PCA-RBF、MLP神经网络模型分别选取17个作为训练样本,5个作为测试样本进行水源类型分析，其他相关参数的设置如表5。

表5 其他模型相关参数

4.4 模型预测结果

4.4.1 PCA-层次聚类模型判别结果

层次聚类方法通过从下往上合并簇，将每一个样点视为一个簇，计算各个簇之间的距离，最近的两个簇聚合成一个新簇，用于将所有的水样分成几个显著的不同的组，可以用来测试水样数据，并确定样品是否可以分为水化学基团[16]。因此，利用PCA算法对22个水样数据进行降维处理，保留水样指标中的主要因子，以减少误差(图3)。

图3 PCA-层次聚类分析结果Figure 3 PCA-hierarchical clustering analyzed results

由图3可知，使用瓦尔德法的PCA-层次聚类分析可把水源分为3类，但是分类准确性较差，其中第四系地下水水样Q1、Q4和基岩地下水水样H8被分类为地表水，地表水水样S2和基岩地下水水样J2、J5、H5、H6和H9被分类为第四系地下水，其原因在于乌东煤矿各含水层水质边界不明显和水化学组分差异性不大的特点，使用常见的地下水水化学法和聚类分析方法并不能很好的判别矿井突水水源，其误差较大。因此，笔者采用人工神经网络法，构建PCA-MLP模型，并与MLP模型和PCA-RBF模型进行对比判断其模型的预测结果。

4.4.2 各神经网络模型预测结果

通过训练集建立的PCA-MLP模型对22组水样数据进行判别，得到表6所示的各预测模型判别结果。其中第四系孔隙潜水水源编号为Ⅰ类，地表水水源编号为Ⅱ类，基岩裂隙孔隙水水源编号为Ⅲ类。

表6 神经网络模型预测结果

续表

由表6可知，相比与MLP模型，PCA-RBF模型，采用基于Piper-PCA-MLP模型的预测结果与实际水源类别基本吻合，仅将J2基岩裂隙水误判为第四系地下水，MLP模型和PCA-RBF模型的误判率都为3/22，MLP模型将Q3和Q4第四系地下水误判为地表水，PCA-RBF模型将Q4地下水误判为地表水，将S1地表水误判为第四系地下水。根据含水层地质情况进行分析，第四系地下水和地表水之间形成了一定的水力联系，增加了误判的概率。与其它模型相比，本文所采用Piper-PCA-MLP模型准确率较高。

5 结论

1)通过 Piper 三线图法可以有效地删除异常水样，为模型的建立和提高识别精度建立了基础。本文从 23个水样中筛选出22个准确反映含水层水化学特性的水样，根据乌东煤矿各含水层的水化学特征和水样分析数据，对22个样的8个离子指标进行主成分分析(PCA)。提取三个主成分，以三个主成分做为判别指标，建立了Piper-PCA-MLP模型。

2)对于各含水层水化学组分差异性不大的矿井涌水水源，使用常见的地下水水化学法和层次聚类分析方法并不能很好的判别各含水层水化学组分差异性不大的矿井突水水源，其误差较大，通过笔者建立的Piper-PCA-MLP模型与其它神经网络模型相比，模型的准确率达到95.4%,其判别效果优于MLP模型(86.3%)和PCA-RBF模型(86.3%),为矿井涌水水源的判别提供了一种新方法。

3)建立的Piper-PCA-MLP水源模型仅用于乌东煤矿矿井涌水水源识别方面的研究，在以后的研究中应在彻底分析其它矿区的基础上，收集不同时期的水样数据，以促进该模型的应用。