时间:2024-05-04
卜意磊 庞文迪
(江苏省工商行政管理局信息中心 江苏省南京市 210000)
2018年11月,江苏省市场监督管理局组建后,信息化工作是市场监管各项工作的基础和保障,全系统坚持在系统集成、一体建设、融合发展上下功夫。同时,信息化工作也是引领市场监管方式创新、提高市场监管效能的重要抓手。监管的有效性和精准性很大程度取决于对市场主体信息的全方位掌握,要求以市场主体信息为基础,进一步关联、汇聚市场准入、行政许可、综合执法、质量监管、食药安全、特种设备、信用监管、网络交易监管、标准计量、知识产权各类主体监管数据。建设统一的市场监管数据资源中心,分析利用融合后的数据资源支撑监管的智能化,是进一步释放数据红利的关键所在。
近年来,移动互联、大数据、云计算、人工智能、数据中台等新技术的应用在各行各业不断推广,也给市场监管领域带来了机遇和挑战,本文重点探讨数据中台技术在市场监管数据资源中心的应用,借鉴《数据中台:让数据用起来》一书中数据中台建设方法论[2],结合市场监管领域数据特点,搭建涵盖数据汇聚、数据开发、数据资源体系、数据资产管理和治理、应用支撑和数据服务以及数据运营和安全管理体系的市场监管统一数据资源中心,实现数据的全生命周期管理,为各项业务开展提供基础支撑。依托数据中台技术,构建一套可持续“让数据用起来的”机制,以数据驱动跨地区、跨部门、跨层级的数据共享和业务协同,探索创新市场监管方式,提升大数据监管、智慧化治理能力。
数据中台的概念最早由阿里巴巴首次提出,为了应对大规模数据的线性可扩展问题、应对复杂业务系统的解耦问题,而在技术、组织架构等方面采取的一些变革。在2018年 3月 15日ThoughtWorks 技术雷达峰会上,数据中台受到业界的广泛关注。
在传统的“前台+后台”的平台化架构的开发中,前台是由各类最终用户直接使用或交互的系统组成的,例如用户直接使用的网站,手机App,微信小程序等。后台是由管理了一类核心资源(数据+计算)的后台系统组成,基础设施和计算平台也属于后台的一部分。由于后台修改的成本和风险较高,后台系统尽量选择保持稳定性,但是随着企业业务的发展壮大,为了响应用户持续不断的需求,大量的业务逻辑(业务能力)被直接塞到了前台系统中。前台系统不断膨胀,业务系统烟囱林立,导致响应能力下降,业务灵活性也随之下降。对于这样的问题,Gatner 在2016年提出的一份《Pace-Layered Application Strategy》报告中,给出了一种解决方案,将企业的应用系统分为前台、中台、后台,各自采用不同策略,中台用连接前后台,使前台能够快速响应业务的变化。在数据开发中,核心数据模型的变化是相对缓慢的,同时对数据进行维护的工作量非常大,但业务创新的速度、对数据提出的需求的变化,是非常快速的。数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。
数据中台是中台的核心平台之一,与传统的数据仓库和数据平台不同,数据仓库是存储和管理一个或多个主题数据的集合,主要提供报表分析和支持管理决策分析服务,数据平台在大数据基础上融合了结构化和非结构化数据为业务直接提供数据集,而数据中台则是将数据服务化之后提供给业务系统,不仅限于分析型场景,也适用于交易型场景,距离业务更近,为业务提供速度更快的服务。数据中台不仅仅是技术,更是一种从“技术优先”到“数据优先”的思维转变,其目标是让数据持续用起来,通过数据中台提供的工具、方法和运行机制,把数据变为一种服务能力,让数据更方便地被业务所使用[2]。
机构整合后,传统IT 建设方式下,原各局的业务系统和数据中心大多独立建设,无法互联互通,造成分散的信息化现状。业务系统烟囱林立,系统间业务协同能力弱,在机构合并监管责任剧增的情形下,无法满足各级部门业务协同需求。目前主要存在以下问题:
(1)业务系统多且散,系统开发标准不统一,数据标准和接口标准各异造成数据共享交换困难。
(2)数据资源众多,且分散存放,造成归集困难。
(3)各部门共享交换系统不统一,共享需求多样,种类众多,方式各异,数据无统一出口/入口,数据质量参差不齐,无统一管理。
数据中台的出现,为适应机构改革期间的管理变革提供了全新的IT 架构,也为市场监管信息化的升级提供了全新的底层数据支撑。为解决数据孤岛问题,本文引入数据中台概念,利用数据中台汇聚整合、数据资产化、服务可视化、价值变现的能力整合分散在各个孤岛的数据,快速形成数据服务能力,更好地应对快速变化的市场监管前端业务,为智慧监管、精细化监管提供数据支撑。
本文提出一种基于数据中台的市场监管数据资源中心架构,包含数据汇聚、数据开发、数据资源体系、数据资产管理与治理、应用支撑与数据服务、数据运营与安全管理六部分组成,如图1所示,数据中台将传统数据仓库的范围扩大到组织的全域数据,联通传统IT 架构和各类数据,融合新老模式,整合孤岛数据,沉淀数据资产,快速形成不同维度的数据服务能力,为市场监管决策、精细化管理及创新应用提供支撑。
图1:市场监管数据资源中心总体架构图
数据汇聚是数据中台数据接入的入口,对内汇聚来自各个业务系统、已建数据仓库或数据中心,对外汇聚来自总局、地市局、直属单位、技术机构、省级部门、药监局、知识产权局和第三方互联网平台数据的资源库,根据不同数据结构、实时性要求,适配多源异构数据源,例如关系型数据库、分布式数据库、实时数据流、NoSql 数据库、文件系统、大数据组件等,以及国产数据库例如达梦数据库、神舟通用等。通过数据集成工具提供的一站式无需编码的全图形化大数据开发环境和全托管的大数据调度能力,完成集成过程的设计、维护、运行、监控。采用数据同步、消息队列等技术手段灵活支撑各种实时、批量、增量数据采集,将分散的异构数据源进行转换集成后加载到指定的数据存储位置。通过分布式数据处理和任务调度,高效的完成数据集成,具有高性能和高可靠性,具备多节点任务分发、并行工作、负载均衡处理的能力,同时包含连接管理、脚本开发、可视化配置、工作流编排,作业管理、作业监控等功能。
数据开发是一整套数据加工以及加工过程管控的工具,面向开发人员、分析人员,提供离线、实时、算法开发工具,以及任务的管理、代码发布、运维、监控、告警等一系列集成工具,具备批计算、流计算、在线查询、即系分析计算能力,用于处理以下应用场景:
2.2.1 离线处理场景
如离线数仓的加工、大规模数据的清洗和挖掘、在线查询和即席分析等。通常处理的数据量大,要求高计算和存储资源,可以通过MapReduce、Hive 或Spark 作业实现。
2.2.2 实时流处理场景
如监控告警、实时异常分析场景。需要对大规模数据进行低延时分析,要求高计算和内存资源,通常应用计算框架Flink、Spark Streaming 和Storm 等。
2.2.3 实时检索场景
实时检索主要用于数据的在线查询、条件过滤和筛选等。主要针对OLTP 类的增、删、改、查等操作,但是要求支持高并发、低延迟响应,如企业画像、搜索引擎等场景。根据场景响应延时要求的不同,可以选择缓存型数据库Redis 或者HBase、MySQL 等,对于需要进行条件过滤、全文检索的,可以选择Solr、Elasticsearch 等。
2.2.4 算法开发
算法开发是一套能支撑多环境、多集群、多形态模型的核心算法服务化能力的工具集,集成了以多维分析为主的数据探索和统计能力、以批计算为核心的离线模型训练能力、以流计算为核心在线机器学习能力。需要具备可视化建模功能,并支持主流的机器学习、深度学习计算框架(TensorFlow、PyTorch、MXNet、Spark 等)和一系列标准化的算法组件(特征工程、统计分析、NLP、图计算、知识图谱等),帮助算法工程师迅速实现人工智能应用的构建和落地。算法开发为离线开发和实时开发提供算法模型,在数据开发和资产加工的基础上,提供更深层次的数据挖掘和算法标签生产,供智能应用使用。
表1:市场监管业务板块[表题]
数据资源体系是在全域原始数据的基础上,进行标准定义及分层建模,建设一套完整、规范、准确的数据体系来支撑数据应用[2],使得数据可以被更容易、高效、低成本的使用。重点在于构建涵盖贴源数据、统一数仓、标签数据、应用数据四层的统一资源分层体系(如图2所示),首先在原有的数据仓库内容基础上,扩展业务内容,对业务系统数据进行采集汇聚,建设包含市场监管全域数据的归集库;然后定义统一的指标、维度,利用数据集成工具形成标准统一的基础库;再丰富并完善对象建模,形成对象的全域标签体系,建设主题库保证数据融合的可实施性,方便数据的深度分析、挖掘、应用;最后在基础库和标签库的基础上抽取数据,面向业务的特殊需求,进一步进行较为复杂的指标计算、数据融合、数据重构等加工工作,形成向特定应用组装的应用数据专题库,满足业务及性能的需求。
2.3.1 贴源数据层
贴源层主要对组织内部和外部的系统数据进行采集、汇聚形成归集库。与传统ETL(Extract-Transform-Load)过程不同,采用ELT(Extract-Load-Transform)方式,先将所有原始数据进行抽取(Extract)和装载(Load),再利用大数据支撑平台的计算能力进行转换(Transform)操作。根据不同数据结构、实时性要求,通过数据同步工具采集后,非实时数据加载到HDFS、NOsql 数据库,实时数据推送到消息队列,最后存储到贴源层的归集库中,数据传输过程除了对非结构化数据进行结构化处理以及对相同数据进行整合或者增加时间标识外,不涉及数据治理相关的清洗及转换工作,可为后期数据比对校验提供数据溯源支持。数据同步工具需要具备同步条件配置、任务调度、限速、容错、质量监控、告警等功能。
2.3.2 统一数仓层
统一数仓层对贴源层的数据进行去脏、去重、落标等工作,通过数据集成工具调用数据治理系统的各类质量规则、脚本以及业务代码标准库等来清洗转换数据,形成标准统一的数据仓库作为整个数据中台的基础库为后续数据分析利用打下基础。这一阶段的工作是整个数据资源中心的核心工作,需要重新整合定义原始业务流程数据,从业务完整性描述的角度还原全域、全历史的业务运转状态。本文采用维度建模方法,通过划分业务板块、定义数据域、业务过程、维度及指标,建立维度表和事实表来组织数据。如表1所示,本文根据市场监管总局《市场监管信息化建设总体技术方案》指导意见将市场监管业务板块分为市场准入域、市场监管域、质量基础域、行政执法域和协同辅助域五部分,并梳理业务流程和边界,将业务过程进行提取、拆分和分类,根据数据流与业务过程的关系,进一步划分数据域。市场准入域涉及市场主体、客体、行为的准入监管,包括主体登记和行政许可审批数据。市场监管域涉及市场监管业务的全覆盖,包括产品质量安全、食品安全、信用信息、特种设备、网络交易、广告等各类监管主题。质量基础域汇聚了计量、标准、认证认可、检验检测机构相关数据,为质量基础建设提供数据支撑。行政执法域包括执法办案、投诉举报、反垄断相关行政执法体系数据。协调辅助域包括综合办公、知识库等综合类数据。
定义数据的指标使得数据仓库对同一字段的命名、计算方法、业务理解全局唯一。分为原子指标和派生指标,原子指标是具体业务行为的度量,有确定的字段名称、数据类型、计算规则和所属数据域,派生指标在原子指标的基础上加入时间、数量、区域等修饰词合并而成[2]。维度表是维度建模的核心,包含了很多描述性属性字段,通过梳理层次和关联关系,形成统一的共用的维度属性,例如企业主维表有企业类型、行业分类等属性,一般从业务系统同步。事实表是统一数仓层的主要构成部分,主要描述业务过程的事实,通过外键关联各种维度表,事实表可以记录每个事务事件,也可以根据需要聚合多个事务事件或者累积记录事务关键时间点形成快照。稳定的数据模型可以提高数据的复用性,有助于后续开展数据应用和分析。
图2:数据资源体系架构图
2.3.3 标签数据层
标签数据层面向对象建模,整合跨业务板块、跨数据域的特定对象数据,建立对象的全域标签体系,形成对业务可阅读、易理解、有价值的描述信息,方便对象的深度分析、挖掘应用。同一个对象的信息往往分散在统一数仓层不同的数据域,例如市场主体对象,基本信息在主体登记域,相关的良好信息、警示信息、年报信息、投诉信息、案件信息分别在信用监管域、行政执法案件域、投诉举报域等,需要通过关联计算才能满足业务需求,而标签数据层的建立可以有效降低数据使用成本,更利于获取、分析对象的全域数据。按照各类主题对象的标签体系设计,从归集库和基础库抽取、装载、融合主题对象的相关数据,形成主题信息资源库,满足各种业务的共同需求。本文按照主体、客体、关系将标签类目分层级分类别管理,主体类标签有市场主体、执法人员等;客体类标签有许可、特种设备、产品、技术机构、监管对象等;关系标签可分为审批、检查行为、检验检测行为、广告审批、消费维权、投诉举报、监督执法等行为关系,标签类目根据业务流程抽象或根据分析需求抽象。每个类目下的具体标签(属性标签、统计标签、算法标签等)经过数据中台的数据开发能力加工后形成标签融合表。标签融合表面向组织数据资源,存储最终结果数据,由于大数据时代下标签类目及标签种类众多,考虑到性能因素,一般采用横表或纵表,并且由多张表组合而成。
2.3.4 应用数据层
应用数据层是按照业务使用的需要,经过复杂的指标计算、交叉分析、数据重构等工作,围绕多个类似业务场景建立专题分析库,满足查询、搜索、即席分析、批量计算等不同吞吐量和响应时间的业务场景要求,包括企业精准画像、企业信用分析、特种设备安全监管分析、食品安全监管、消费维权、风险预警等专题。
数据资产管理与治理在传统数据治理体系的基础上增加数据价值管理,把数据当资产评估资产价值。数据治理包括对数据标准、元数据、数据血缘、数据资产目录、数据生命周期等进行管理和展示,数据价值管理以直观的方式展现数据资产,提升数据意识。首先通过建立统一的数据标准管理功能模块可以实现数据标准的集中管理,规范数据标准的建立过程,为系统建设人员和应用人员提供了便捷的数据标准获取途径,并通过数据标准管理模块对数据资源中心的建设规范性进行检查,促进数据标准规范的实施落地。然后以表作为数据资产的核心单元,建立业务使用资产(指标、标签、维度、属性)的血缘桥梁,以图形化数据资产地图的方式形象的展示数据资源中心的数据分布情况、查看各数据库之间数据流向关系。通过数据治理来提高数据质量,需要元数据、数据模型、数据标准、数据质量、基础数据等子系统协同完成治理过程,检测、统计各类数据治理、数据集成任务执行情况,查看数据质量评估结果,通过影响分析,根据库、实体的变更关系可追溯并可快速处理。数据资产目录建立了动态更新的共享信息资源目录,方便与总局、省级部门及直属单位、地市局及省级政府部门资源目录平台的对接,满足资源目录柔性与开放性的要求。信息资源目录包括归集、基础、主题和专题信息资源目录等。数据价值管理对数据资产进行审核、发布、标签定义、数据开放管理,通过数据资产地图或目录的形式提供数据资产的查询功能,实现数据资产的“可视化”,对数据资产的价值进行评估,数据资产管理的成熟度是评估数据中台能力的重要指标。
应用支撑与数据服务模块为核心应用开发与服务提供支撑,采用组件化、服务化设计理念,提供了快速的服务生成能力以及服务的管控、鉴权、计量等功能。采用容器、微服务等技术架构,将市场监管业务应用需要的复杂功能进行分解,通过提供应用系统开发所需的基础组件微服务、数据访问微服务,以及服务组合来实现复杂的业务需求,提升服务模块的复用度、降低开发成本,实现“做厚平台、做强应用”,提升大数据整合与利用效率。
数据运营策让数据被持续高质量地生产出来,数据的消费者可以便捷地获取数据,并在安全、可监督的环境中使用,让数据资产发挥更大的价值。数据中台的运营需要在战略层级进行部署,作为整个组织的共同目标,并搭建配套组织,配备数据管理部门和人员,组建包含业务专家、数据建模专家、数据分析等人员的技术团队,制定包含数据资产查看、申请、使用、治理、评估完整闭环的运营流程。数据安全和质量是中台可持续运行的基础,需要在成本可控的范围内,提高数据的完整性、规范性、准确性、一致性、时效性等数据质量。通过实施安全策略保障数据资产安全,包括建立数据安全管理机制和定义安全分级分类标准、制定数据安全控制及措施、完善数据访问权限和回收策略、采用数据隐私保护工具、实施脱敏机制和策略等。
综上,数据中台汇聚来自部门内外的数据,利用大数据平台积累的能力和可复用的数据加工工具,使得开发人员、算法建模人员、分析人员可以快速把数据加工成业务所需的形式。通过建立统一的标准化的数据资源体系增加数据的一致性和可复用性。通过数据资产管理与治理、统一应用支撑及数据服务把数据资产变为数据服务能力,形成统一身份认证等公共服务组件,服务于部门内外的数据共享交换应用以及指挥大屏、企业画像专题分析、智慧市场监管等各类决策支持和监管方式创新应用。同时运营和安全管理体系使得数据中台可以长期健康、持续运转。
数据中台作为业务数字化转型的新兴产物,如何保障数据中台建设在组织内部顺利实施尚需进一步的讨论与分析。
(1)加强组织保障。数据中台是一项全新的、全局性的信息化工程,如果只是信息化部门把数据中台中的某些功能和特性作为新技术来局部验证和引入,往往达不到数字化变革所期望的效果,并且会面临成本剧增而效果不明的风险。数据中台是一种战略选择和组织形式,是“一把手工程”,需要从更高的层面推动建设,只有从战略高度进行顶层设计、确定规模化投入政策、设置更合理的组织结构来运维,才能确保数据中台作为数据应用的基础设施并落地建设,承担起市场监管数据资产全生命周期的管理。
(2)业务部门和信息化部门通力协作。数据中台必须能够接入、转换、写入或缓存内外部多种来源数据,协助不同部门和团队的数据使用者更好地定位数据、理解数据。然而信息技术人员不够懂业务,而业务人员不够懂数据,导致数据应用到业务变得很困难。因此数据中台需要考虑将信息技术人员与业务人员之间的障碍打破,信息技术人员将数据变成业务人员可阅读、易理解的内容,业务人员看到内容后能够很快结合到业务中去,这样才能更好地支撑创新,所以需要业务部门的参与,两方通力协作。
本文重点研究数据中台在市场监管数据资源中心的应用,介绍了数据中台的技术背景和应用场景,分析了基于数据中台的市场监管数据资源中心的架构设计,包括数据汇聚、数据开发、数据资源体系、数据资产管理与治理、应用支撑和数据服务以及数据运营和安全管理体系的建设内容和关键技术,并对数据中台在组织内部实施存在的问题进行讨论。本文认为,决定数据中台能否充分发挥数据价值的关键因素,在于是否具备完整可行的数据运营机制、稳定的数据建模能力和灵活的数据服务能力。本文提到的数据资源中心架构和关键技术只是解决方案之一,只是工具和平台,更重要是建立让数据用起来的机制,并对数据中台进行持续改进,可以采用纵向建设模式,从一个具体的应用场景入手,建立完整的数据从汇聚、开发、建模、提供应用服务,到数据资产管理和数据运营的架构体系,实现几个典型的数据应用,再根据业务需求逐步扩充完善数据中台,真正让数据中台用起来。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!