时间:2024-05-04
吕渊
(苏州科技大学 江苏省苏州市 215009)
随着网络与信息技术的飞速发展及不断普及,人类产生的数据量也正在呈指数级速度增长,大量的新数据源不断涌现则导致了非结构化与半结构化数据的爆发式增长。信息数据的计算单位按TBPB-EB-ZB 四个级别递增,而这些信息所产生的数据却早已非当前人力所能及,所以如何治理这些数据逐渐成为了一个新的领域,即大数据[1]。
2002年科技部提出的我国科学数据共享工程标志着我国科学数据开放和管理的开始[2]。随着大数据时代的到来,数据资产管理、数据分析与数据挖掘开始广受人们的关注。企业所面临的数据量巨大、数据形态多样化、数据价值难以得到充分挖掘等大数据问题也随之而来,数据治理工作的开展迫在眉睫[3]。
现如今复杂多样化、数据不可控、不可用等数据状态已达不到所需的数据治理水平,不仅存在不少数据问题,同时也面临着诸多严峻的挑战。数据问题主要包含以下三个方面:
(1)缺乏统一的数据标准:业务数据从生成、存储至使用的整个过程当中缺乏统一的数据标准对数据进行统一管理,且数据复杂多样、存在着不可控、不确定性等特性,数据结构一般也较为混乱,这无疑大大增加了成本。
(2)数据的质量参差不齐:数据存储时可能会出现数据冗余、缺失等各式各样的数据质量问题,虽然并不会影响系统的正常运行,但由于不能被及时发现并解决,所以会导致在数据的分析与挖掘过程投入更多的精力与成本。
(3)数据的处理效率低下:虽然现在大多数企业都有自己专业的数据分析与挖掘人员,但数据的处理周期过长,且处理效率低下,无法在短时间内挖掘出数据的隐含价值。
目前数据治理方向的开源或是商业类的产品技术已较为成熟,涵盖了诸多的数据治理的功能,可满足大部分的数据治理需求。可惜的是,这些系统在和某特定系统配合应用才能解决处理数据时遇到的一些问题,在功能适用性和实际可行性方面还存在一些不足。
结合现有的一些数据治理系统,本文设计并实现基于数据中台的数据治理系统,形成一站式的综合数据服务平台,提供业务的采集、清洗、存储和监控等功能,进而形成高效的数据应用服务,并将其应用到高校数据治理,帮助用户更有效的实现数据治理操作,更好的理解数据的含义,将数据治理切实应用到高校数据建设中去。
系统主要建设目标有:
(1)制定全校的信息统一标准,规范数据的来源,录入数据时也采用统一的录入标准,从而保证数据的规范性。
(2)建立全校的数据统一中心,从全局上进行数据架构,对整个校园各领域的数据模型、关系和处理能有一定的认知。
(3)建设数据治理平台提高数据的质量,从业务的角度去梳理数据的质量问题,建立数据的管理流程。
(4)实现数据能力中心的形成,强化数据应用与数据分析服务,构建符合企业实情的数据应用。
图1:数据治理模式构建
图2:系统功能结构图
1.2.1 元数据管理功能的建设
建设元数据管理功能模块,实现对元数据的统一化管理,奠定数据标准化的工作基础。元数据包括技术元数据和业务元数据,元数据管理模块主要负责数据源的配置、数据模型的管理以及元数据属性模型的管理等工作。
1.2.2 数据质量管理功能
数据质量管理可实现数据的自助查找、开发、共享和交换,保证数据的质量。确定数据的完整性与准确性的校验原则,结合数据业务的实际需要,建立数据质量的监测、分析与评估模型,进而实现数据质量情况的有效监测。
通过数据质量监控平台建立和支撑起基于数据指标、质量检核、问题发现和监控的完善的数据治理体系,从事前、事中和事后等各个环节规避、发现和解决数据问题,保证数据应用无后顾之忧。
1.2.3 数据安全管理
在满足数据能共享的情况下,还需要全面考虑共享数据的安全性要求,能有效规避因数据获取方管理不善所造成的数据外泄所引起的师生隐私安全问题。因此,平台需要能满足对共享数据的脱敏需求,即满足数据在保证使用方的数据特征要求下,还能对敏感信息进行有效的混淆、加密、仿真等安全措施。
1.2.4 数据监测查询管理
针对数据中心的各类数据提供一系列数据便捷化管理、服务能力,主要包括:
全量数据库查询工具,即Web 端的数据库查询器,能支持在线的数据库SQL 查询,支持规范的SQL 查询脚本,进行复杂的、多需求的、多表关联的自定义查询;对于日常工作常用查询支持“常用收藏”,简化操作,提升工作效率;SQL 查询须具备SQL 智能化提示能力,达到技术人员的快速SQL 编写以及简化脚本录入的目的;查询结果支持饼图、折线图、柱状图、表格等样式展现。
数据全文检索,提供面向全数据中心建设范畴为内容向导核心的全文检索引擎服务;以及面向人、财、物的数据实体化为知识图谱的场景化搜索服务:即提供针对全量数据库中所有元数据、数据内容、数据代码的模糊查询检索(类搜索引擎方式)。
异动数据监测,即自动化捕获数据恶意篡改的能力;平台提供对数据定格的数据标签, 基于该标签自动调度进行数据异常变化的筛查,为数据管理员提供异常数据变化行为的提醒;实现数据建设过程中的安全扫描。
1.2.5 自动化运维建设
围绕数据中心的日常管理和数据治理为数据中心管理人员提供自动化运维服务的能力,主要分为以下三个方面的工作:
场景化数据治理报告:满足不同场景的配置化作业,实现以一个业务场景及需求为核心的相关数据的数据集成、代码使用、数据质量、数据安全、数据历史完整性等全局范畴的数据报告自动化生成。
数据安全中心管理:满足数据建设整体的评估等级及得分,安全中心实现在线扫描相应指标项,并输出指标结果,以及提供安全的“一键式”快速处理解决通道。
自动化作业报告:在线输出数据平台建设过程中各范畴包含的数据报告下载,满足动态实时生成WORD 文档,包含:数据模式设计标准、代码标准编码规范、数据流程规范、业务系统元数据报告、数据资产盘点报告、数据服务输出报告、业务系统集成实施报告、数据治理实施报告、数据脱敏实施报告等。
针对在库关系型数据库,依据制定好的数据资源目录、数据同步规则、数据清洗规则,采用FETL 工具,实现各类业务数据的解析抽取、清洗转换和装载,采用转换设计加作业调度的方式实现集成。
针对高实时、海量大数据,采用实时数据同步引擎Logstash 进行同步,并通过分布式数据库HBase 和分布式数据仓库Hive 进行存储。
对一卡通流水数据、上网行为数据、日志数据等实时性较强的可以采用这种方式同步。
针对没有业务系统的数据,支持离线文件数据导入。通过模板化配置,动态配置模板和模型的映射关系,实现动态化数据导入;导入过程中能预览数据、确认数据的变化情况无误后导入数据库。
随着时代的进步及高校大数据应用的深入,高校的数据治理工作首先需要一定的保障,其次要有相关的数据治理平台作为支撑,最后还需要一定的反馈与监测体系,以便及时发现问题并解决问题。图1 给出了高校数据治理工作的治理模式,数据管理人员从各数据源处获取原始数据,然后对这些数据进行进一步的加工处理,最后将数据以产品的形式提供给各部门使用,进而可以更为高效的实现数据治理。
数据标准是指建立的符合自身实际,涵盖了定义、操作、应用多层次数据的标准化体系。信息的标准管理模块可实现对代码权责的规划、代码标准的管理与比对等功能。企业的各类数据需遵循统一化的标准进行组织,这样才可构建一个流通与共享并存的信息平台,主要用于不同系统之间形成信息地统一理解,为数据平台的各环节提供相应的标准规范,进而保证信息的高效汇聚与交换,更好的为企业各业务系统服务。
元数据管理模块主要负责盘点企业业务系统的资产信息,可实现数据源的配置、数据模型的管理以及元数据属性模型的管理等功能。元数据管理通常用数据源来描述业务资产,数据源可增加、删除、修改和测试。主数据中心的管理包含了业务系统的数据模型的管理,支持单个数据的在线编辑,同时也支持批量数据的整体录入与编辑。
元数据属性包含以下内容:
数据库:数据库名称、数据库类型、业务系统、部门、IP 地址等。
数据表:表名、中文含义、所在数据库、所有者、列数、记录数等。
字段:字段名、中文含义、字段类型、长度、所属表等。
主数据管理模块主要负责从企业各部门的多个业务系统中整合主数据并集中进行数据的清洗和丰富,再以服务的方式将统一、完整、准确且具有权威性的主数据传给企业内需要使用到这些数据的应用系统。主数据管理模块可实现数据的查看、添加、删除、导入等操作,进而实现对主数据的分类管理,数据管理人员可以有类别的查看和操作数据信息。
基于数据中台的数据治理系统主要可划分为数据管理、数据质量管理、数据监测查询几个功能模块,图2 给出了系统的功能结构图。
由系统的功能结构图可以看出,系统主要可分为元数据管理、主数据管理、数据质量管理以及数据监测与查询四个功能模块。其中,元数据管理主要负责数据元的配置、数据模型的管理以及元数据属性模型的管理;主数据模块主要负责以服务的方式将统一、完整、准确且具有权威性的主数据传给企业内需要使用到这些数据的应用系统;数据质量管理模块则主要针对数据质量的校验与管理;数据监测模块可对全局数据进行异常监测,也可实现全局数据的检索功能。
本文介绍数据中台的数据治理系统在满足了高校在数据治理方面的实际需求,且取得了一定的工作成果。从理论依据与实际业务需求来看,由于数据治理系统仍处于新生状态,仍需要在不断的发展过程中去探索和完善。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!