时间:2024-05-04
徐小博 毛小龙 丁峰 王小兵 徐斌
(中国司法大数据研究院有限公司 北京市 100043)
全国法院经过“十三五”的智慧法院信息化3.0建设,最高人民法院在“十四五”规划中提出了智慧法院信息化4.0建设要求。智慧法院信息化3.0“以数据为中心”,充分整合、融合法院数据挖掘数据价值反哺提升业务应用,提高智能化辅助应用研究;随着大数据、人工智能等新一代信息技术的发展,越来越多的应用场景需要信息化辅助更加先进、更加智能。在智慧法院信息化4.0建设规划中明确提出建设数据中台及智慧大脑,将在过去大数据管理与服务平台基础上开发知识应用,从数据转变成知识,建立“以数据为基础、以知识为中心”的新一代大数据管理体系,开发知识深度应用服务,为“智慧服务、智慧审判、智慧执行、智慧管理、智慧协同”提供坚实的数据与知识基础支撑。本文结合各地方法院实际调研情况,论述了地方法院存在的数据方面的问题,提出了切实可行的数据中台架构及建设后可到的成果。
目前各个系统建设时期跨度大,且有多家单位开发,由不同程序语言设计开发,在建设时缺乏统一的标准,并且经常处于独立应用的状态,这就出现了各个管理系统间交互性变差,各种数据信息重复的录入、重复分析、重复统计,形成了“数据孤岛”。
各业务系统各自独立开发,建设时缺乏统一的数据标准、采用不同的技术架构和业务规范、承建厂商技术水平参差不齐,导致数据复杂多样、质量差异很大,给数据分析应用造成很大困难,无法支撑上下级法院、法院内部部门之间、法院同相关外部单位之间业务协作需要。
法院业务系统来自不同家承建商,数据分散在各个业务系统中,形成数据壁垒,无法实现数据资源的集中统一管理,造成系统之间数据兼容性差、数据对接共享困难等问题。
海量历史数据不断积压,动态新增数据不断增长,数据备份中心仅解决了数据存储的问题,数据没有被分析挖掘,结构化案件数据没有充分融合利用,大量给结构化数据没有充分解构价值挖掘,不能为诉讼服务、审判管理、司法统计、辅助决策和监控预警提供智能化服务。
各业务系统数据各自独立存储,缺乏统一管理机制,数据由承建商各自把控,数据和业务系统、承建商三者捆绑在一起,数据所有权没有真正掌握在法院自己手中。
数据中台定位计算后台和业务前台之间,向上承法院业务,向下启大数据技术,是建设智能数据和催生数据智能的引擎。其关键职能与核心价值是大数据以业务视角而非纯技术视角出发,智能化构建数据、管理数据资产与提供数据调用、数据监控、数据分析与数据展现等多种服务。数据中台是集工具、方法论、组织于一体的智能大数据服务体系。数据开发工具是把数据加工、治理、质量、监控过程统一管理起来,提升数据中台开发效率;方法论,是数据中台建设方法论支撑,数据开发者按照统一模型、规范、标准、协议建设实施。
数据中台建设具备包括数据接入、数据标准化、数据融合、数据质量管理、数据模型设计、数据标签设计、画像分析以及数据资产管理和全程监控等内容,通过数据服务为上层应用提供标准、干净的、智能的数据。打造数据中台基础,实现全量业务源数据统一管理与服务,建设内容包含数据管理标准规范、平台支撑中心、数据处理中心、数据融合中心、数据服务中心、数据资源运营管理中心、资源共享交换平台、平台安全运维体系,通过业务源数据的全量数据统一汇聚、治理、融合,实现法院全量数据的统一汇聚与集中管理,突破应用系统管控,解决数据孤岛问题。
平台逻辑架构如图1所示。
图1:平台逻辑架构
数据采集存储:针对法院内部及外部单位各相关的业务系统等不同数据来源,平台依据各方数据资源情况,分别采用不同的采集方式,如API接口、数据库对接进行采集储存到原始库中。其中,对于法院内部业务系统数据,可采用ETL数据采集方式,直接从各个业务系统采集数据,并汇聚到数据采集平台当中;使用共享交换技术,依托于大数据共享交换系统打通各方信息孤岛,将不同层级法院各系统及法院外部各单位的数据汇集到原始库中;对于不同的数据类型,采用不同的存储方式,可支持结构化数据存储,文书等半结构化数据存储,及PDF、图片、音视频等非结构化数据存储。
数据治理管理:依托于大数据分析应用平台的计算能力,依据数据质量管理和数据标准管理规则,对采集到的数据进行抽取、清洗、转换等处理,保证数据质量和数据规范,并进行元数据管理、主数据管理、代码集标准管理、非结构化数据管理。数据标准管理对数据输入、利用、输出全过程建立标准化体系,并按版本对标准进行维护,用于保障数据的规范性和一致性;数据质量管理对数据的准确性、完整性、规范性、一致性、准确性、唯一性、关联性等多维度进行数据质量检测和管控分类存储至审判执行、司法研究、司法政务、司法人事、信息化管理和外部数据等六大标准库中。并建立基于数据分析需求的数据主题集市,依据主题或业务应用对数据进行抽取加工,形成主题集市库。结合专家经验,对数据进行法律要素、案件要素及关系抽取,为后续数据分析和应用服务提供高性能的关联分析及检索支撑能力。
数据共享交换:进行数据资源全景管理、数据服务管理、数据访问控制管理、数据交换监控服务、数据模型管管理,并提供统一数据接口总线服务。依托数据共享交换系统,按照数据标准及用户权限,将数据向法院各业务系统、上下级法院、外部单位进行共享交换,以满足业务协同等需求。提供网页查询服务、接口访问服务、点对点传输服务、消息的发布与订阅等服务形式,使各类应用用户能够统一读取其他法院的数据并进行功能操作和业务分析。提供灵活的数据模型服务,以满足多样化的共享需求。
数据分析应用及知识服务展现:通过大数据分析中的分析计算模块,基于自然语言处理、大数据挖掘等技术,结合数据资源进行高性能计算,为数据服务应用提供算法和计算支撑。并进一步为用户提供案件专题分析、态势分析、宏观预测分析等大数据分析功能,支持立体化、可视化结果展示,提供智能搜索等大数据应用功能,并提供集成数据分析功能和数据应用功能的数据服务门户。
为实现系统架构中的系统功能,制定平台技术架构。数据中台最核心的技术为基于Hadoop生态圈体系及微服务系统架构,微服务结构,以服务导向架构,将功能以一组松散耦合的服务形式提供,业务逻辑基于服务进行组装。数据中台基于Hadoop生态圈体系进行全量业务的数据实时采集、储存、处理,基于微服务架构提供可无限扩展、定制化开发的共享交换、数据服务及业务支撑。技术架构主要分为如图2所示层次,包括数据采集、数据存储、数据处理、共享交换、数据服务。
图2:平台技术架构图
数据采集:将分散在法院(各级法院)各个业务系统,底层日志,外部的数据采集到数据中心,支持海量数据汇集。Maysol、prstgre、XML、Oracle、sybase等数据库向关系数据库、hadoop集群汇聚支持FTP文件、数据库日志、JDBC数据库同步、API接口、kettle、sqoop等工具;采集的方式分为离线采集,实时采集,增量采集,全量采集,以及文件采集。
数据存储:将采集到的数据存储到包括审判执行库、司法人事库等六类司法审判信息资源库中。大数据资源数据量多,数据增量大,多数以非结构化、异构数据为主。对非结构化数据,如大量的原始数据将存入HDFS中提供计算基础,而Hbase支持数据查询,MongDB存储音视频数据,GraphDB存储图片数据,ES即Elasticsearch缩写,提供全文搜索,结构化搜索以及近实时分析;对结构化数据通过MySQL进行存储,如专题分析的数据结果、系统调度等数据将使用MySQL存储。
数据处理:通过对数据ETL处理,并进行整合、关联,形成审判信息资源库、数据主题库、数据服务库,其目的是从大量的、杂乱无章的、难以理解的司法数据中抽取、整理、校验、推导出对于法院业务或社会公众有价值、有意义的数据。采用Spark- Streaming/Flink进行实时计算,采用Hive/ MapRedeuce实现离线计算,YARN资源提供统一的资源管理和调度,采用数据中间件如Kafka,通过Hadoop的并行加载机制来统一线上和离线的消息处理,通过集群来提供实时的消费;针对数据挖掘处理需求,采用Spark-ML技术实现机器学习,进而实现专题应用的数据支撑。Zookeeper实现整体基于Hadoop生态圈各应用程序协调服务。
数据共享:共享交换功能提供司法信息交换和共享服务,其目的是满足法院本级内数据交互、上下级法院间纵向传输、与外部单位司法业务协同等需求。按照数据标准,实现集成应用系统中同构系统、异构系统之间数据共享和交换。共享交换提供网页查询服务、接口访问服务、点对点传输服务、消息的发布与订阅等,使各类应用用户能够统一读取其他法院的数据并进行功能操作和业务分析。
数据可视化:采用Kibana、Impala、ES、Spark-ML等技术,将数据分析结果以各种类型图形化直观展示。
司法知识:采用Postgre、ES知识库技术,结合OCR、NPL、知识图谱、深度学习、神经网络、分类算法等计算库,建设司法知识服务。
司法通用服务:司法通用服务采用微服务结构,通过Java Spring、JS、Json接口、HS接口、Python等技术提供司法通用服务。微服务结构是将单一应用程序作为由众多小型服务构成之套件加以开发的方式,其中各项服务都拥有自己的进程并利用轻量化机制(通常为HTTP源API)实现通信。这些服务围绕业务功能建立而成,且凭借自动化部署机制实现独立部署。微服务架构有扩展性好、容易部署、容易开发、易于测试等传统技术架构不具备的优点,并且粒度更加精细,服务与服务之间低耦合,互不影响,实现快速且频繁的开发、部署、测试。
中台首先汇集各业务数据,并进行融合治理、分类提取、知识计算,为提供数据应用服务支撑。数据构架如图3所示,数据存储架构包括信息资源库(原始库)、融合治理库(问题库、标准库)、数据主题库、数据服务库。
图3:平台数据存储架构图
中台汇集法院内部和外部的业务数据,按照数据结构类型和业务分类将获取的业务增量数据存入原始库的相应子库中。数据采集接入需要解决数据量大、应用场景复杂两个问题。由于案件历史数据不断的累计,多年累积的文字、庭审图片、音视频类数据量庞大,针对不同类型的数据选择合适的存储方案尤为重要,同时为了支撑更多的应用场景(查询、检索、关联、比对等),需要不同类型的数据存储平台完成数据仓库功能。
原始库(数据资源库)从法院业务系统中提取业务数据,按照数据结构类型和业务分类将获取的业务增量数据存入相应子库。原始库的存储子库包括案件、文档、电子档案、人事数据、办公数据、公文事务、管理数据等。
融合治理库库是将原始库数据经过数据清洗转换、元数据管理、数据标准管理、数据质量监控、数据整合融合等数据质检治理得到的数据库,分为问题库和标准库。问题库储存问题数据,标准库存储“判执行、司法研究、司法政务、司法人事、信息化管理和外部数据”,融合治理库提供了洁净标准、结构清晰的数据,符合数据完整性、一致性、准确性等原则,为进一步提供数据服务、发挥数据价值的必要前提。
数据主题库是依据主题规则将数据集市,是针对不同业务数据进行知识计算、加工处理的需要进行分类存储的数据模型。为保障数据服务效率和质量,进行数据筛选、统一格式、记录排序等数据处理,建立起满足多种应用服务的数据结构。数据处理从数据主题库获取相关数据,产生业务服务数据,并面向应用提供数据。比如“多元解纷、立案服务、分调裁审、审判辅助、涉诉信访、审判服务、执行服务”等的人、案、物等数据关联保存的语义网模型。为提升数据完整度和数据准确性,提高数据分析精度,将文书数据与案件数据融合。首先,将文书数据进行结构化处理,提取关键实体信息。然后,依据语义网模型规则,将结构化处理后的文书数据融入语义网模型,从而形成更为完善和丰富的信息数据。
数据中台提供系统时效性,全面采用实时流式处理技术,数据处理统一由计算层实时调度运行,实现数据从原始库、融合库、主题库,以增量方式进行实时同步。即将汇集的数据直接存入原始库,原始库用于接收实时的增量数据,索引库和统计结果库统一归入主题库,依据系统监控功能需要,在主题库类别中增加系统监控库等。
(1)建设自主管理数据中心,实现法院数据全盘管控,业务数据全面打通,数据服务统一出口。
(2)界面化采集调度配置,实现数据采集可视化操作,无需单独开发。
(3)数据中心统一管理业务生产库,对数据实时采集与共享,业务数据统一存储。
(4)通过多重信息组合分析解决数据重复问题,实现数据唯一性。
(5)法标数据标准转换、映射、数据融合,为数据共享和分析服务提供资源。
(6)非结构化数据分析,自定义标签标识,实现补充字段信息回填。
(7)实现法院数据全方位共享。
针对法院信息化建设的痛点问题提出了地方法院数据中台建设方案,根据建设方案建设内容在地方法院进行试点建设,建设达到了预期的建设成效。为后续地方法院数据中台建设提供了建设思路及依据。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!