数据挖掘在自然资源信息化中的应用

时间：2024-05-04

林浩顺

(福建省国土资源信息中心，福建福州 350001)

0 引言

自然资源作为人类日常生活中必备的生活生产资料，主要包括不可再生资源、可再生资源以及无尽资源等，主要包括矿物、金属、水、生物以及太阳能、风能等[1]。利用信息化技术，合理利用资源，对其进行有效的保护和合理的开发，能够获得更大的环境效益和更好的社会经济效益[2]。2019年，《自然资源部信息化建设总体方案》的发布要求对于自然资源进行全面信息化管理。

随着我国众多的土地、矿产等自然资源被纳入到信息化管理，单纯的信息浏览查询，已经不能满足当前经济快速发展的需要[3]。在互联网技术大力发展的今天，利用数据库对资源进行整理和挖掘，高效获得有用的数据，可以实现经济资源的效益最大化利用。引入智能化技术手段，采用数据挖掘技术对自然资源数据进行管理，能够大幅提高资源利用效率[4]。数据挖掘的技术是利用科学化的手段，将大量的数据资源进行规律化整理，分析其中的运行规律。将其与自然资源的管理有机结合，有助于更好地实现信息平台的高效管理工作[5]。

本文利用数据挖掘技术，分析了信息化的自然资源与经济发展的关系。通过聚类分析，整合不同地区的资源数据，分析出各地区的经济发展状态，为更好地提高自然资源利用效率提供思路。

1 基于聚类算法的数据挖掘技术

数据挖掘技术发展自数据库技术，技术的进步使得简单的数据库查询不能满足人们的需求，将人工智能技术与数据库技术进行结合，可以有效实现数据库的管理和数据存储工作。利用人工智能技术对于数据进行分类管理，从而对其规律进行自动化分析，进而获得数据资料背后的知识。

数据挖掘的方法主要包括分类分析、聚类分析、时间序列分析、回归模型以及其他相关性分析等方法。各种方法的建立都是基于科学的理论，通过总结其数据规律，得到相关的共性和个性。

1.1 数据收集

信息化系统的主要作用在于数据收集和数据查询，数据资源是信息化的核心，起到支撑性的作用。整个信息化系统中的数据含有地理信息，因此相关的数据建设必须规范，以提高查询的效率和准确性。

对于收集到的数据，对其进行分类，判断其是否存在空间信息，对存在空间信息的数据进行整合处理。数据整合的过程主要包括格式转换、格式标准化、数据完善等。处理好的数据结合对应的符号，标识在相应的地图服务中。

数据整合的过程需要对于对应的空间数据建立统一的数据标准。对其数据格式进行分类转换，将收集到的CAD 文件、文本文件、Excel格式数据文件等转换成对应的目标格式数据文件。部分不涉及的功能属性数据进行相应的保存归档，为以后使用做好准备。

1.2 聚类分析算法

聚类算法是一种对研究对象进行数据分组的一种分析方法，分组的依据主要在于相关数据见的内在特征或者是其相似性，从而将一个数据集合分成若干个簇的信息处理方式。

通过数据划分以后，会将具有相同属性的数据对象进行整合，使得同一个聚类的对象之间具有很好的相似性，类内间距值接近于0。而对于聚类之间的对象，其相似性较差，几乎不具备相似性，类间间距值接近于1。

对于已有的数据进行聚类分析，主要步骤包括数据准备、特征生成和聚类分析。

(1)数据准备。

数据准备的过程包括数据的获取和数据的预处理过程，并将处理好的数据进行标准化，以便于数据分析。

数据获取的过程是从已有的信息化系统中调用相关数据或者从收集到的资料中获取到的原始数据。对于相关的数据属性加以选择，去除对于本次分析无关的数据属性。

数据预处理的过程主要在于对于数据的格式和参数调整，保证其与系统共享数据的一致性。对于不正常的数据进行筛选，对于与大部分数据不一致的数据进行修改，删除冗余数据。统一数据坐标系，尤其是地理数据，形成标准化格式。补充数据中不完整的属性项，以便于数据挖掘和数据整理。对于包含属性较多的数据，为了便于挖掘，需要对其进行规约处理，使数据更简洁，提高数据挖掘效率。

中心化和标准化过程，在于使数据的属性单位一致，从而在聚类分析中的地位一致，避免对于数据分析结果形成干扰。

数据中心化的过程主要是利用待检测变量的观察值与对应平均值进行做差，使得变量的观察值X的每一个列属性具有相同的数据基点。

数据第j个变量的数值平均值表示为：

(1)

对第j个属性的全部n个对象进行中心化处理，处理过程可以表示为：

(2)

为了保证各个数据属性具有相同的数据基点，对2式中的属性进行数据变换，使得变量的平均值为0。

(2)标准化数据。

标准化的目的在于使得中心化后的数据具有相同的变化范围，标准化的方法有多种，本文主要采用均值标准差方法，其表示形式为：

(3)

式3中，vj表示数据属性中第j列数值的平均值，qj表示对应数值的标准差。对应的表达式为：

(4)

经过标准化处理后的数据，其数值取值范围为-1～1。

(3)特征生成。

特征生成过程在于对于数据之间的相似性进行总结，根据数据相关性算法以及研究人员的工作经验，得到数据之间的相似性关系。

(4)聚类分析。

通过数据的标准化以及数值特征的生成，可以聚类完成相关分析结果的发现、验证和评估、优化等过程。选择合理的算法，并经过参数的优化整合设计，可以使得分析结果与现实情况更为接近。

1.3 数据相关分析关联

数据的相关关系是指变量在一定程度上存在相互对应的关联，当自变量之间存在一定的数据关联时或者取值一定时，因变量变现为在一定范围内按规律变化，此时两者之间具有相关关系。

本文数据相关性的算法原则主要是基于深度优先算法，利用该算法中的FP-growth 算法，提高计算效率。

该算法的计算步骤主要分为两步：生成项目树和频繁项目挖掘。

具体过程包括：

(1)通过定义支持度，对筛选出来的数据进行扫描，得到不同项集的支持度情况，对于支持度不满足最小支持度的项进行删除，得到结果数据集L。

(2)创建项目树的根节点，并第二次扫描数据库，将结果集L中的数据按照大小排序。以此为基础构造新的项目树，对于树中的节点进行整理，对于已存在的节点进行加一操作，对不存在的节点进行构建。

(3)进行FP-Tree 挖掘，从长度最小的节点开始寻找，逐步向上一级扩展寻找路径，直到找到最优解。

2 资源开发与经济发展的相关性分析

自然资源对于地区的经济发展来说，本身是个优势条件，但是当能源开发到一定的程度的时候，就会对经济发展起到反作用。自然资源的开发以及能源产业的大力发展，会使得地区经济在短时间内迅速繁荣，但是过度的发展会使得产业结构被破坏，从而抑制了其他产业的进步，从而导致经济出现各种各样的问题。

大量消耗的资源以及能源，产生大量的粉尘和空气污染，出现破坏性的酸雨，环保压力巨大，脆弱的自然环境同样对于经济的发展起到制约的作用。先破坏后治理的发展模式，并不能有效带来经济的进步，反而使得环保的压力越来越大。

从而自然资源和能源的开发利用与经济发展之间的关系，具有复杂的相关性，涉及的领域除了技术行业以外，环境损失成本对于经济的影响越来越明显。

3 基于聚类分析的能源开发状况分析

将数据挖掘技术应用于能源开发的状况分析可以采用K均值聚类分析的方法。其主要指标在于类间偏差和类内偏差，类间偏差值通常大于0小于1，该值距离1的接近程度表明其聚类质量越好。类内偏差值的大小也在0～1，其数值与0的接近程度代表其聚类质量。

通过K值的合理设定可以有效分析系统的状态。一般要求K的取值，使类内间距较小，类间间距较大。一般情况下，K=5时能够较好地反映能源的开发状态。

聚类的结果，可以采用权值和距离来衡量。权重的意义表示该属性在聚类中的作用，即该属性的重要程度。距离表示每个类中心点到重心的距离，当距离值较大时，说明可以重要程度可以由这个距离值所对应的属性来表示。

权值计算方法为：

(5)

(6)

(7)

式中xi, j表示i类中j属性的值，yi表示i类中心点的属性，K为类i中的属性数量。

根据各地区的能源开发现状，由聚类结果分析出不同能源开发的属性权值如表1所示。

表1 能源开发属性权重

投影计算方法为：

(8)

d(i,j)=(xi-y)2

(9)

(10)

式中，Zij表示i类j属性的值，y表示平均值。得到对应的能源开发属性投影如表2所示。

表2 能源开发属性投影

通过聚类分析可以得到“石油天然气开采”“电力、热力、燃气及水生产业”两个属性在能源开发过程中的作用最大，对应省市的能源开发状态可由对应的权重及开发属性投影加以反应。

由于开发属性的投影距离不同，不同省份地区的资源开发情况各不相同。

第一类河北等省份的能源开发情况由“电力、热力、燃气及水生产业”属性决定；由于煤炭等的比重较低，说明该地区的发展主要依靠清洁能源。第二类山西等省份的能源开发情况由“石油天然气开采”属性决定，同样没有大量的煤炭消耗；第三类北京等省市的聚类结果与第一类地区类似；第四类福建等省份聚类结果由“石油和炼焦加工业”属性决定；第五类浙江等省份聚类结果与第二类情况类似。

聚类结果说明我国的矿产资源与能源开发情况逐渐摆脱过去对于煤炭的依赖，而逐步向清洁能源方向发展。从发展的情况来看，水电与天然气生产的比重不断上升，进一步说明我国资源发展偏向于洁净能源。