当前位置:首页 期刊杂志

自然资源行业数据中台建设思路

时间:2024-08-31

屈晓波,陈安慧,易小威

(1.自然资源部国土空间大数据工程技术创新中心平台软件研发分中心,北京 100015;2.北京超图软件股份有限公司,北京 100015)

0 引言

众所周知,数据是数字经济的“石油”,大数据不仅使我们认识到数据的重要性,更引发了社会各行业的技术变革。大数据时代聚焦如何以科技之“火”点燃数字经济高质量发展“石油”,持续释放数据能量。

2000 年后,随着“金土工程”、第二次全国土地调查、不动产登记、自然资源“一张图”、第三次全国国土调查、国土空间基础信息平台、国土空间规划等专项工作的推进,自然资源行业在资源调查评价、规划利用、监管修复等方面积累了大量的数据。近年来,随着遥感、倾斜摄影、激光点云等数据采集技术进一步成熟和应用,自然资源行业在基础数据方面持续积累了大量的空间数据,由于数据产生的时间跨度较大、数据的标准化和规范化较差,应用难度较大。如何对海量的多源异构数据进行管理,挖掘数据价值,如何实现从传统数据离线交换式共享到不同应用场景在线共享转变,是自然资源行业信息化需要解决的难题。为破解这一难题,本文从自然资源行业数据中台建设角度,提出了解决方案。

1 数据中台的定义

数据中台概念起源于阿里巴巴集团,2014 年阿里巴巴集团在芬兰Supercell 公司接触中台概念后,提出了“大中台、小前台”的组织机制和业务机制,通过高效、统一的后方系统支持前端的机动部队,减少冗余投入。

一直以来,技术界对于数据中台的定位和理解都存在较大的争议,以下是几个典型的说法:

(1)原阿里巴巴集团大数据科学家付登坡在《数据中台:让数据用起来》中,将数据中台定义为一套持续让企业数据用起来的机制;一种战略选择和组织形式;依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑的一套持续不断将数据变成资产并服务于业务的机制[1]。

(2)袋鼠云高级副总裁张旭在《数据中台架构:企业数据化最佳实践》中提出,数据中台是一个为实现企业全面数据化的解决方案,是一套全面支撑企业数据化的架构,会成为企业开展全面数据化的基础设施[2]。

(3)全球性软件及咨询公司思特沃克公司对数据中台的定义则比较简单,认为数据中台就是企业级数据能力复用的平台[3]。

综合上述定义,数据中台的关键词为协作、融合、共享和创新。本文认为,自然资源行业数据中台是纵向贯穿四级自然资源主管部门、横向连接直属单位和部门的业务流程及数据融合的机制、设施和纽带,通过数据中台能够完成数据治理和数据组织,打通数据孤岛,完成数据资产化,实现数据之间的价值共通和数据赋能,并以共享方式支持业务的快速发展和应用创新。数据中台能够为企业或组织带来价值,完成部门间的协同。

2 自然资源数据特点

2.1 数据量大

自然资源行业涉及的业务广泛,信息化持续时间长,近年来,遥感等技术手段大量应用于日常管理,自然资源行业沉淀了海量数据。

2.2 数据来源多样

自然资源业务横向和纵向跨度大,数据来源多样性明显,归纳起来,主要包括以下来源:

(1)纸介质档案数字化。该数据来源主要存在行业信息化初期,由各种纸介质档案扫描识别或直接录入等方式产生,主要集中在调查、登记环节。

(2)数据转换。数据生产过程采取了部分数字化手段,后期直接将数据转换形成行业数据库,主要集中在权属调查、土地利用等环节。

(3)数据整合。该数据来源主要由于业务的整合或分割,为保证原有数据的继承而采取的数据生产方式,大量集中在不动产登记等整合型新业务。

(4)数字化生产。近年来,更多的数据采取了全数字化采集、直接生成数据库的方式,第二次全国土地调查、第三次全国国土调查等专项工作采取了此范式生成数据。

2.3 数据标准化低

行业信息化建设标准,特别是相关技术和数据库标准的编制起步较晚。自然资源行业的部分数据标准化程度较低,数据结构差异较大,且数据库的完整度也存在不足。

2.4 管理数据基本未空间化

如前文所述,自然资源行业的大部分管理与空间有关。信息化前期,空间数据技术和设备相对落后,导致基础空间数据积累不足,因此,较多的管理数据没有进行空间化。

2.5 数据现势性差

自然资源行业数据的更新方式主要分为批量更新和业务即时更新。在传统外业采集方式下,数据更新周期长、成本高导致数据现势性较差。

2.6 数据关联性差

自然资源领域业务线众多。多年来,自然资源业务始终以纵向方式为主,对数据的共享协同要求不高,这直接导致了行业数据的横向关联性较差。

3 自然资源行业数据中台

2019 年,自然资源部印发《自然资源部信息化建设总体方案》(以下简称《总体方案》),提出建立“一张网、一张图、一平台和三大应用体系”,形成“用数据审批、用数据监管、用数据决策”的国土空间管控新机制,基于统一标准、相互关联、适时更新的自然资源数据,建立分布式共建共享的数据管理机制[4],如图1 所示。《总体方案》勾画了行业数据中台的雏形,不管是自然资源“一张图”还是国土空间基础信息平台,实质都要实现行业数据的融合、共享和业务的协同。

图1 自然资源数据中台总体架构

根据数据中台和自然资源行业数据的特点,为实现《总体方案》设定的工作目标,自然资源行业数据中台建设是一个很好的解决方案,必须重视以下的能力建设。

3.1 数据汇聚融合

数据中台建设需要汇聚分散在自然资源、发展改革、生态环境、住房和城乡建设、水利、农业农村、林草等空间基础数据生产和管理部门的现状数据、规划数据、管理数据、社会经济数据,以及三维数据和物联网数据,按照统一的数据标准运用主数据管理、元数据管理、数据模型管理、数据质量管理和数据安全管理等多种工具进行分析融合,形成“一数一源”的国土空间大数据数字底座。

3.2 数据管理

数据中台必须提供海量数据的存储、更新、快速计算的解决方案和能力,对内实现不同类型空间数据采用不同的存储更新策略,对外采用统一数据访问接口以减少上层应用的复杂度,满足数据的日常管理和应用。

3.3 数据可视化

与传统的图表展示不同,自然资源行业空间数据的可视化展示较复杂。海量三维数据高效可视化一直是技术难题,需要考虑基于时空数据多元存储模型,实现支持多维多尺度动态表达的时空大数据高效可视化方法,并利用数据的时空特征和变化趋势的快速提取,降低大规模动态时空数据的实时渲染时间消耗和硬件需求。

3.4 数据分析

自然资源行业数据中台需提供大数据分析功能和叠加分析、缓冲区分析、连通性分析、空间关系分析等基本的空间分析。针对三维数据,需要提供碰撞检测、通视分析、可视域分析、天际线分析、日照分析、剖面分析等,并能够自定义计算模型,提供面向监管的决策辅助分析。

3.5 数据服务

通过数据服务共享,为政府部门、事业单位和科研机构提供国土空间数据和信息技术保障,为企业和公众提供国土空间数据服务,满足横向跨行业、纵向跨层级的需求。

3.6 运行维护与资源监控

自然资源行业数据中台由于数据汇聚、管理与运行的特殊性,需要提供灵活方便、功能强大的运行维护与资源监控能力。

4 解决方案

根据自然资源行业数据中台的定位和行业业务需求,结合相关新技术的发展,本文提出基于大数据、物联网、云计算、人工智能(artificial intelligence,AI)等技术,采用“Kubernetes+Docker+微服务”的云原生架构,建立行业数据中台。考虑到大部分省份已基本建成自然资源“一张图”和国土空间基础信息平台,本方案通过升级已有的架构满足超大规模多源空间数据在面对复杂业务应用时的高性能、高扩展、高可用需求。

4.1 数据中台构成

数据中台由基础设施即服务(infrastructure as a service,IaaS)、数据库即服务(database as a service,DaaS)、平台即服务(platform as a service,PaaS)和软件即服务(software as a service,SaaS)组成,如图2 所示。

图2 数据中台构成

4.1.1 基础设施即服务

基础设施即服务将软件环境、硬件环境、物联网设备、通信网络和网络安全等资源进行整合,形成按需动态扩展的高性能分布式计算和大容量存储环境,实现云服务模式和云架构共享资源池。平台采用云原生技术,利用运行监控、智能调度等功能实现各类服务按需使用基础设施资源。

4.1.2 数据库即服务

基于自然资源现状、规划、管理等地理空间数据,集成生态环境、人口等其他行业的社会经济数据,并提供常用的空间关系型数据库数据、空间非关系型数据库数据、缓存数据库数据、文件型数据等各类数据的管理及维护,构建自然资源“一张图”。

4.1.3 平台即服务

平台即服务包括基础支撑能力、数据能力、服务能力和分析能力,是数据中台的核心部分。

4.1.4 软件即服务

提供丰富的应用程序接口(application programming interface,API)和二次开发接口,为自然资源行业提供多种应用支撑,支撑面向自然资源调查监测评价、自然资源监管决策、“互联网+政务服务”的三大应用体系。

4.2 主要建设内容

4.2.1 云原生GIS 提供基础支撑能力

云原生GIS 技术包括微服务、容器化、自动编排等技术[5-6]。本方案基于SpringBoot、SpringCloud的微服务生态技术搭建平台的系统设置、权限管理、访问控制,并基于“Docker+Kubernetes”技术实现微服务容器组件的自动化编排,实现微服务治理和开发运维。其中,微服务拆分自2018 年以来,不断升级进化,已实现函数级微服务。云原生技术实现更智能、更快捷、更弹性及更节省资源。GIS 微服务进化如图3 所示,空间分析微服务被拆分为11 个函数。

图3 GIS 微服务进化

4.2.2 全生命周期的数据管理能力

(1)数据汇聚治理融合。支持倾斜摄影模型、BIM、精模、点云、矢量、地下管线、地形等空间数据接入,同时支持手机信令、浮动车位置、物联网监测等实时流数据接入。根据数据特点,基于地理空间数据抽取、转换、装载(geospatial extract transformation load,Geo-ETL)技术,构建数据的抽取、转换、接入功能,形成统一坐标体系、统一分类标准、统一数据模型和统一数据标准的时空数据库及各类主题库,如图4 所示。

图4 数据汇聚治理融合流程

(2)数据更新。生产空间、生活空间、生态空间日新月异,原来更新方式已无法满足需求,测绘生产与更新手段亟待变革。数据中台通过“互联网+测绘”在线抓取相关信息,实现地理情报挖掘分析,并通过整合多种更新方式,规范数据更新流程,确保数据及时更新,如图5 所示。

图5 数据更新流程

(3)数据图谱。数据图谱以地理实体为维度,可以分别对地理实体属性字段进行血缘分析,追踪字段的数据来源和计算过程,并联合历史数据库,将更新和修改记录纳入管理范围,形成透明化、可追溯的数据图谱,满足数据真实性、完整性和正确性要求,实现全生命周期可视可控,如图6 所示。

图6 数据图谱

4.2.3 购物车方式服务资源共享能力

通过统一的服务资源目录展示中心,提供基础服务、专题服务和高级服务。数据中台面向各级空间基础数据生产和管理部门,提供数据共享能力。通过资源中心,用户可以像逛超市一样,进行数据资源查看、服务资源目录浏览、快速检索、信息预览、在线资源申请等操作。

4.2.4 基于GP 算子的自然资源专题分析能力

地理处理功能模块(geoprocessing,GP)拥有图形化的交互方式,为相关工作人员提供简单清晰、流程化的操作界面,通过多个预定义的地理处理工具,提供了强大的空间数据管理与分析能力。可基于GP 算子搭建自然资源专题分析模型,开展永久基本农田占用、高标准农田占用、建设项目选址、城市规划与土地规划差异、用地项目重叠等分析。

4.2.5 基于知识图谱的全面查询分析能力

知识图谱利用图形绘制方式揭示知识领域的动态发展规律,通过知识建模、知识存储、知识抽取、知识融合、知识计算及知识应用等步骤,建立不同的知识图谱模型[7]。本方案基于标签体系建立搜索知识图谱,可以帮助客户快速查找需要的数据资源并根据搜索记录向客户推荐资源。包括以下步骤:

(1)梳理系统数据分类。

(2)根据不同业务诉求设计可用标签。常见的互联网标签一般包括以下两类。①数据分类方式,如根据数据来源、数据更新频率、归属部门等进行标识和分类。②数据内容重新描述甚至重新组织的方式[8]。参照互联网的分类原则及自然资源的行业特点,数据标签分为数据本身、系统使用人员、关系标签3 个类型。

(3)建立标签目录层级。根据梳理的标签,按照3 大类100 余项建立标签目录。在产品使用过程中,现有标签体系不满足业务需求,可以自定义标签,如图7 所示。

图7 标签目录

(4)标签链接。建立标签目录层级,可以在数据导入时,通过元数据自动采集,提取数据的标识信息、空间参考信息、生产信息、时序信息、精度信息、粒度信息、质量信息和分发信息等内容。对于无法从元数据中获取的标签信息,用户可以手动添加。通过系统自动或人工方式实现数据和标签的链接。

(5)展示标签。用户可以根据不同标签对数据进行快速检索,系统结合用户画像进行内容推荐。

4.2.6 大数据分析预测预警能力

通过接入各类智能感知设备的采集数据和其他关联数据,建立监测评估预警指标体系,基于广泛的态势感知,对未来发展形势进行科学预判与预测。例如,结合气象数据对城市进行淹没分析,形成不同等级的应急预案;构建疫情数据分析模型,分析确诊或阳性病例在全国或全球的分布情况及传播趋势。

5 结束语

基于微服务、容器化、DevOps 的云原生技术,用户无需考虑底层的技术实现,可以充分发挥云平台的弹性和分布式优势,实现快速部署、按需伸缩、不停机交付等要求,满足自然资源行业海量数据汇聚融合和数据价值挖掘的需求,实现数据汇得进来、管得清楚、支撑得住、用得方便。

随着自然资源数据越来越多样及精度不断提高,如何更高效地完成数据治理融合工作,结合实景三维数据与业务开展更多的空间分析,是下一步的工作重点。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!