当前位置:首页 期刊杂志

云环境下基于PostGIS的城市时空地质大数据管理研究

时间:2024-08-31

王 蕾, 陈渠波

(四川省地质工程勘察院集团有限公司,四川 成都 610032)

1 引言

本文研究的对象与商业大数据、网页大数据、社交大数据等不同,城市时空地质大数据含有大量不同时间尺度和不同空间尺度的多源异构数据,数据的存储、处理和空间分析需要GIS技术的支撑,因此需要GIS技术和大数据技术的结合。

现阶段,我国大数据技术在地质管理方面的应用成果颇丰。我国地质调查局开发并应用了地质调查信息网络平台,其中包含了前沿技术的应用,如网格GIS、信息技术、分布式计算等,平台利用互联网技术手段完成了分布式数据的获取、存储以及处理;除此之外,地质云1.0、地质云2.0平台充分应用大数据技术、MapGIS云技术,实现了对传统地质工作中基础设施、数据、业务应用和服务的高效管理和统一调度;国土资源部相关部门建设了地学大数据技术研究实验平台GeoBDA,该平台分别基于Oracle与Hadoop两种架构,为解决地质大数据存储和组织等问题提供了很好的参考方法,也是地质大数据在应用层上的示范性实例。以上研究应用紧紧围绕解决地质数据资源量大、协同共享缺乏、软件类型庞杂、服务节点分散、规模成效不足等问题。大部分系统或平台主要以数据库技术、GIS技术、计算机网络技术为依托,依靠商业软件来实现地质大数据的管理和应用,用户需投入高额费用且扩展能力较弱。

开源软件具有灵活性、可扩展性等优点,其跨平台能力强且成本低廉,其实用性远远超越了许多商业软件。地质数据的高效管理和处理分析是“盘活”数据的基础,开源关系型数据库PostgreSQL的优势在于性能好、应用模式丰富, PostGIS是它的扩展,包含空间地理数据的储存与管理功能。该数据库支持OpenGIS规范,具备管理和分析空间数据的能力,在地理信息工程专业中具有广泛的用户群体。本文在开源GIS平台OpenGIS、大数据平台Hadoop和服务器集群环境下,提出基于开源数据库PostgreSQL的空间扩展PostGIS建立城市时空地质大数据基础管理平台,通过研究不同空间尺度和时间尺度的城市地质数据模型,较大程度地解决了异构空间数据的集成与管理问题,为城市地质数据的应用开发提供高效、廉价、可靠的解决方案。

2 数据类型

2.1 数据内容

本文研究的城市地质时空大数据涉及的类型包括:水文地质、工程勘察、地质灾害和矿产勘察,由于不能在建立原型系统时囊括所有数据类型,故系统设置了可拓展模块,即当有不同类型的数据加入时,用户可添加该类型的元数据字段来实现专题数据类型的增加。虽然目前数据类型只有四类,但基本涵盖了所有城市时空地质数据格式,为后期扩展数据类型奠定了系统基础。数据格式不仅包含如PDF文档、Excel数据表、图片数据、Word报告等文件数据,同时也涵盖了MapGIS数据、DEM数据、影像数据、CAD数据以及ArcGIS数据等空间数据。

2.2 汇聚方式

传统的通过编写SQL实现经纬度间的计算相对复杂,代码可读性差,可移植性差。计算执行效率低,用常规的方法计算经纬度间距需要用ROUND,ASIN,SIN,COS等多重函数嵌套,相对而言计算规模大,效率低,在实时场景下远远达不到要求,对日常作业更新带来很大困难。数据精度较低,传统方法计算经纬度不支持空间投影,在一些地方需要进行DECIMAL截取操作,还有对π的支持,在使用PostGIS之前计算距离是截取的14位π值,传统计算方式数据精度相对较低。在对象关系型数据库系统PostgreSQL的基础功能上,赋予系统更多的数据管理与分析功能。

本文研究内容的数据来源主要是城市地质项目,如工程勘察、地质灾害调查,地下水监测等,故原型平台设计导入数据是按照项目和项目类型导入的方式来实现数据汇聚的,数据导入之后由自主研发的数据导入工具对数据格式进行分类和格式转换,最终存入PostgreSQL和PostGIS中,选用此平台可在一定程度上减少代码冗余和提高数据库访问效率。数据汇聚工作流如图1所示。

图1 异构空间数据汇聚路线

2.3 时空标识

所谓的时空标识包含数据处理标识的三个部分,分别是属性标识、空间标识以及时间标识。顾名思义,也就是数据具有的时间属性与空间属性,包括数据具有的项目归属以及类型划分等。时空标识的目的在于简化时空大数据的处理过程。

3 数据模型建立

3.1 数据流程建立

城市地质数据从数据结构上可分为结构化数据和非结构化数据。结构化数据包含矢量数据(如各类GIS数据、数据库、元数据等)、栅格数据(JPG、TIFF、BMP等);非结构化数据包含图件、报告、图片等。这些数据来源多样,数据类型与储存方式千差万别,所以城市地质数据的多源异构性明显。构建云环境下的城市时空地质大数据模型,需要实现多源异构数据的统一处理,并保持其完整性、正确性、可读性,以充分发挥数据的价值。

本文从数据结构上将城市地质数据分为结构化数据和非结构化数据。如元数据、GIS数据等均属于矢量数据,是结构化数据的一种类型;DEM数据、影像数据则属于栅格数据,同样也属于结构化数据。而报告、音视频文件等则属于非结构化数据。因数据来源多样,数据类型与储存方式千差万别,所以城市地质数据的多源异构性明显。只有对这些数据进行标准化统一处理,提升数据处理的准确性和完整性,才能最大限度地发挥数据价值。

数据的多源异构特性导致其应用处理方法千差万别,找出适用于本研究的处理流程是数据入库的关键。处理流程基本可划分为:第一步,划分数据源;第二步,划分数据结构;第三步,收集数据;第四步,处理数据;最后,数据入库。

数据源无法被直接应用,需要先进行数据源的清洗,剔除数据杂质,本文借助统一明确的数据处理标准,数据清洗过程均需要遵循该标准。首先利用ETL工具实现了数据的抽取、转换和加载。数据抽取的数据源来自于各个业务系统,抽取模式可采用全量抽取或增量抽取。数据转换过程就是对抽取数据后的数据进行数据清洗,利用统一的处理标准进行数据格式的转换,最终应用在新的目标数据库中。对于未采用信息化手段,以纸质形式或电子文档存储的数据,需要采用手工录入或工具导入的方式清洗并加载到目标数据库。在处理大量的日志和舆情数据时,预处理阶段利用Hadoop平台进行对数据进行简单的清洗分类,将数据分析价值较高的数据留存在HDFS中。具体流程如图2所示。

3.2 数据应用

本文总结了三种城市地质源数据类型,第一种是核心业务数据,第二种是全量结构化数据,第三种是半结构化和非结构化数据,并根据各类数据的特征和用途采用不同的数据存储技术。数据在经过采集、预处理、分类存储后,提供给上层业务应用,展现数据最大价值。业务应用有三类,首先是数据共享,从数据可视化和核心业务共享实现其数据价值。其实是数据分析,它可以将城市地质时空大数据进行多维度的可视化展示。最后是数据挖掘,主要依靠Hadoop平台具有的大数据处理分析功能,挖掘出数据具有的潜在属性特征。数据模型应用结构如图3所示。

图2 数据入库流程

图3 数据模型结构

4 平台搭建

4.1 总体架构

城市地质时空大数据基础管理平台分为虚拟设备层、云计算层、应用层。平台总体架构如图4所示。

图4 系统架构图

虚拟设备层:利用计算机虚拟化技术将系统中涉及到的软件资源与硬件设备集成,产生一个具有逻辑功能特征的资源池,保证平台的稳定运行。硬软件主要有:安全设备、数据库软件、PC机、服务器群、传感通信设备等。

云计算层:基于虚拟设备层创建功能与数据服务,分别是云数据中心层和云服务层。数据中心层主要实现数据访问接口的功能,而服务层涉及到的数据服务较多,如数据交换、数据管理、数据处理、空间分析等。

应用层:通过调用云计算层的服务接口,设计开发出城市时空地质大数据基础管理平台,这一平台可以有效地保证用户数据挖掘、分析以及共享的应用需求,为其提供应用支撑和业务集成服务。

4.2 系统功能

云环境下城市时空地质大数据管理平台主要包含以下五大功能模块:项目信息管理模块、系统管理功能部分、统计分析功能部分、数据可视化功能部分、数据集成功能部分。系统功能结构如图5所示。

图5 系统功能结构图

项目信息管理模块:该模块包含项目添加、项目修改、项目查询。以城市地质项目为管理单位,实现项目集成、项目成果管理,经过授权的用户可以通过该模块查询到相关项目的所有成果数据。

数据集成模块:该模块集成各城市地质专题数据,目前系统内置了四个专题的数据,分别是水文地质、工程勘察、矿产勘察和地质灾害数据。系统用户通过专题图层分层浏览,实现上传下载、浏览查询相关资料。导入的数据类型包括shapefile格式的背景图、专题图,pdf文本报告,excel和access数据表等。

数据可视化模块:该模块包含背景图加载、专题图加载、文档管理和数据表管理。按时间、项目、区域、资料类型查询文本资料,以列表方式列出满足条件的查询结果,用户可以查看选定数据的详细信息。

统计分析模块:该模块包含项目统计分析、区域统计分析和图表展示。分项目或区域对各类专题数据进行统计分析,如项目数量、钻孔数量、地质灾害类型等。以图表的方式将用户所选择感兴趣的项目数据通过统计图、曲线等方式直观的展示,提供实时刷新、定时刷新及手动刷新等功能。

系统管理模块:包含数据类型管理和权限管理功能。数据类型管理是指通过该功能添加更多的专题地质数据类型,如区域地质调查数据、遥感数据等。权限管理模块是指按照用户级别对用户权限进行对应的匹配。

5 结论

本文通过将地质调查工作中获取到的地质资源、地质环境、地下空间等多源异构海量数据建立统一的数据模型,依靠开源数据库PostGIS和PostgreSQL功能,实现数据集成,进而实现用户数据的共享,让这些数据产生更大的价值。通过设计应用原型系统,地质信息服务的产业化属性与集群化属性将进一步扩大,使得地质资料具备复用开发和长期服务的功能,降低地质工作成本,提升地质工作效率,让地质工作迈入新的发展阶段。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!