基于主成分分析和支持向量机的深部煤层含气量预测

时间：2024-07-28

姜伟，武杰，任鸽

（1.山西晋煤集团技术研究院有限责任公司，山西晋城048006；2.山西蓝焰煤层气集团有限责任公司，山西晋城048006）

·地质与矿业工程·

姜伟*1,2，武杰1,2，任鸽1,2

（1.山西晋煤集团技术研究院有限责任公司，山西晋城048006；2.山西蓝焰煤层气集团有限责任公司，山西晋城048006）

为了探讨深部煤层含气量的有效预测方法，以晋城矿区3号煤层为对象，将支持向量机方法用于建立煤层含气量预测模型。选取煤厚、镜质组反射率，储层温度、储层压力、灰分含量、直接顶板厚度、埋深7个主要影响因素，用主成分分析法提取的影响因素的4个主成分因子以浅部数据为基础，建立深部含气量预测模型，并用检验样本对预测模型进行检验。检验样本的预测值与实测值相对误差分别为0.46%、0.47%、0.44%、0.44%，说明主成分分析法与支持向量机方法结合的预测方法适合小样本、多因素、非线性数据建模，为深部含气量精确预测提供了新思路。

煤层气；深部含气量；预测；主成分分析；支持向量机

无论计算煤层气资源量、资源丰度，还是进行有利区评价、制定勘探开发方案，煤层含气量都是一个至关重要的的参数[1]。埋深大于800m的煤层地应力高，压裂效果差，前期开发多以800m以浅区块为主。随着技术进步和后备区块不足，800m以深区块越来越受到重视，但由于取样和测试费用高，样品分析数量有限，且煤层含气量分布不均衡，导致难以掌握深部煤层含气量的分布特征，很多情况下只能对其进行预测。

目前含气量预测的方法较多，但各有利弊。常规统计方法对样本数量要求比较高，而在实际应用中样本数目通常都是有限的。人工神经网络存在需要事先定义网络结构、容易陷入局部极小值、过度拟合等缺点。支持向量机（SVM）是结构风险最小化准则的一种近似方法，理论基础是Vapnik创建的统计学习理论，主要针对有限样本情况下的统计规律和学习方法[2]，在小样本、多因素、非线性数据建模方面应用广泛[3-4]。建立煤层含气量预测模型时，往往需要考虑许多影响因素[5]，但不是输入变量越丰富预测越准确。变量过多不仅会增加计算的复杂性，而且输入变量所含信息有所重叠，会对预测精度和准确性产生影响[6]。主成分分析通过矩阵变换，能把多指标转化为几个主成分因子，减少信息重叠，是降低变量复杂程度的有效工具。因此，笔者尝试建立基于主成分分析和支持向量机的组合预测模型，对煤层含气量进行准确预测。基本思路：首先，构造含气量影响因素的主成分因子，选取累计方差90%以上的几个主成分因子为输入变量，煤层含气量为目标变量；然后，选取合适的支持向量机参数进行模型训练，建立深部含气量预测模型；最后，用检验样本对预测模型进行检验。

1 理论方法

主成分分析法是一种降维的数学方法，借助正交变换，将随机向量转化成一组相互无关的综合变量，称为主成分因子，每个主成分因子都是原有变量的线性组合。根据主成分因子方差大小进行排序，方差越大说明相应主成分因子包含的原始信息越多，使用时根据实际需要从中选取方差较大的主成分因子，累积方差达到90%时，就说明所选主成分因子包含了原始数据90%的信息。SVM算法做非线性回归的基本思想是把输入空间的数据x映射到一个高维特征空间中去，然后在这一高维空间做线性回归。给定一数据点集G={( xi,yi)}ni=1，其中xi∈Rd是输入变量，yi∈R是目标变量。通过训练学习寻求模式 f(x)，使其不但对于训练样本集满足 yi=f(xi)，而且对于预测数据集{xn+1,xn+2,…,xn+m}同样能得到满意的对应预测值，f(x)=[w∗Φ(x)]+b，式中Φ(x)是从输入空间到高维特征空间的非线性映射，w为权重向量，b为偏置项系数。b可根据Karush-Kuhn-Tucker条件计算，w可以通过引入ε不敏感损失函数，采用对偶理论、拉格朗日乘子法和核函数方法进行求解，通过选择合适的核函数k(x,y)=Φ(x)·Φ(y)，即可得出 f(x)的解析表达式[7]。

2 晋城矿区深部含气量预测模型

晋城矿区位于沁水复向斜南端，地层走向为NNENEE，倾向北西，伴生宽缓褶曲，煤层倾角2°～8°。区内断层不发育，含煤地层为太原组和山西组，3号煤、15号煤为主要可采煤层[8]。3号煤层为晋城矿区目前的主要开采层位，煤厚5.7～6.4m，含气量15.3～27.2m3/t。由于3号煤层孔隙度、等温吸附试验实验数据少，水文地质条件、构造条件量化困难，给含气量预测带来了一定的困难。为了避开这些限制条件，本文选取3号煤层浅部煤厚、镜质组最大反射率，储层温度、储层压力、灰分含量、直接顶板厚度、埋深7个影响因素，建立深部含气量预测模型，以4个深部实测样本数据对模型预测值进行检验。

首先，采用SPSS软件主成分分析模块，对表1的数据进行降维处理，具体操作方法参照[9]。筛选出4个主成分因子，方差贡献率分别为49.20%、32.14%、7.65%、4.54%，累计方差贡献率93.53%。在保留原始数据93.53%信息的前提下，达到了缩减变量、减少信息重叠的目的。然后，选取15个训练样本，以4个主成分因子为SVM模型的输入项，应用Matlab软件SVM工具箱进行预测模型训练，选用径向基核函数，结合模型中参数选取，对预测精度进行控制[10]。经过多次参数寻优运算，确认不灵敏参数ε、核函数参数γ、惩罚参数C分别为0.1、1、1000。最后，应用4个检验样本对预测模型进行了检验，预测值相对误差分别为0.46%、0.47%、0.44%、0.44%，能够满足生产实践的精度要求。预测结果与神经网络和线性回归相比，精度高了一个数量级，SVM组合模型、神经网络模型、线性回归模型的预测精度依次降低。由于主成分因子的降维作用，7个变量变为4个综合变量，复杂程度大大降低，模型建立速度提高了3倍以上。根据软件拟合特点，当输入样本和变量个数增大时，这种速度优势将更为明显。体现出主成分分析与支持向量机相结合的预测方法对小样本、多因素、非线性数据建模的适用性。

表1 晋城矿区3号煤层参数统计表

3 结论

（1）含气量的不同影响因素之间存在一定相关性，这种相关性对预测模型的建立、预测结果的准确性是不利的。利用主成分分析法提取线性无关主成分因子后再进行建模，变量复杂程度降低，建模速度更快，精度更高。而且支持向量机拥有严格的理论和数学基础，采用结构风险最小化准则，不过分依赖样本的数量和质量，对于小样本、非线性数据建模预测更准确。

（2）选取15个各包含7个影响因素的样本数据，运用主成分分析和SVM法建立组合模型，并用4个样本对模型进行检验，预测值相对误差分别为0.46%、0.47%、0.44%、0.44%，能够满足生产实践需要，组合模型建模精度优于神经网络模型和线性回归模型。

（3）煤层含气量影响因素众多，相互关联，是一个复杂的系统。本文仅选取了7个影响因素，没有涉及水文地质、褶皱、断裂、这些难于量化的因素以及孔隙率、孔隙结构等实验室参数，是因为考虑到这7个参数容易获得，方便计算。预测精度能够满足生产需要，说明这种方法可行。

[1]连承波,赵永军,汉林,等.煤层含气量的主控因素及定量预测[J].煤炭学报,2005,0(6):726-729．

[2] Vapnik V.The Nature of Statistical Learning Theory[M].New York:Springer,1995:10-45.

[3]耿艳,韩学山,韩力.基于最小二乘支持向量机的短期负荷预测[J].电网技术,2008,32(18):72-76．

[4]贾存良,吴海山,巩敦卫.煤炭需求量预测的支持向量机模型[J].中国矿业大学学报,2007,36(1):108-110.

[5]孟召平,田永东,雷旸.煤层含气量预测的BP神经网络模型与应用[J].中国矿业大学学报,2008,37(4):456-461.

[6]林树宽,张冬岩,李文贤,等.基于聚类和主成分分析的神经网络预测模型[J].小型微型计算机系统,2005（12）:2160-2163.

[7]方瑞明.支持向量机理论及其应用分析[M].北京:中国电力出版社,2007:28-29.

[8]李贵红,张泓,张培河,等.晋城煤层气分布和主导因素的再认识[J].煤炭学报,2010,35(10):1680-1685.

[9] 李成武,许延超.煤与瓦斯突出主要影响因素主成分分析[J].煤矿安全,2007,38(7):14-18.

[10]苏高利,邓芳萍.关于支持向量回归机的模型选择[J].科技通报,2006（3）:154-158.

Prediction Model of Deep Coal Bed Gas Content Based on Principal ComponentAnalysis and Support Vector Machine

JIANG Wei1,2，WU Jie1,2，REN Ge1,2
(1.Shanxi Jinmei Group Technology Research Institute Co,Ltd, Jincheng Shanxi 048006,China;2.Shanxi Lanyan CBM Group Co. Ltd,Jincheng Shanxi 048006,China)

In order to predict deep coal seam gas content quantitatively,the support vector machine regression model was built. Based on the primary mineable coal bed in Jincheng mining area, we selected seven main controlling factors,including the thickness of coal seam,the vitirnite reflectance,the reservoir temperature and pressure,ash content,the direct carrying slab thickness,the buried depth.Four principal component factors were constructed using the principal component analysis method.With the four principal component factors,the deep content prediction model was established and tested.Three testing samples were used to check the model,the relative errors of predictive values samples were 0.46%,0.47%,0.44%,0.44%respectively.The result shows that the forecasting method is suitable for small sample,multivariate, nonlinear data modeling,and it is a new approach of exploration deep coal bed gas content.

coal bed gas；deep gas content；prediction；principal component analysis；support vector machine

TP391

1004-5716(2015)10-0059-04

2015-03-26

山西省煤层气联合研究基金资助项目（2012012004）。

姜伟（1986-），男（汉族），黑龙江哈尔滨人，助理工程师，现从事煤层气地质、瓦斯地质等方面的研究工作。