当前位置:首页 期刊杂志

基于AESB的数据共享中心的设计与实现——以苏州市职业大学数据平台为例

时间:2024-07-29

朱 欣,董 剑,王亚东

(1.苏州市职业大学 信息中心,江苏 苏州 215104;2.江苏银狐信息技术有限公司 研发部,江苏 苏州 215021)

教育部发布的《教育信息化十年发展规划(2011—2020年)》中提到:加强高校智慧校园建设与应用,利用先进的网络和信息技术,整合资源,构建先进、高效、实用的高等教育信息基础设施,实现系统整合与数据共享。建立教育管理信息标准与编码规范,建立数据采集、交换共享、管理与应用的技术平台与工作机制,建立教育管理信息安全保障体系,衔接各级各类教育管理信息系统与基础数据库,实现系统互联与数据互通,建设纵向贯通、横向关联的教育管理信息化体系。

目前,各高校的数据共享及交换平台[1-6]主要通过以下几种较通用的技术手段实现。一种是基于ETL工具进行数据抽取及交换(如开源ETL工具Kettle、Talend等,以及商业化工具如ODI[7]、DataMigrator等。二是基于企业服务总线(OSB[8]、Mule、AESB等)建立共享数据平台,如文献[9]基于企业服务总线Mule建立了华南师范大学的数据中心。ETL技术和ESB技术[10]虽然都能达到在异构数据间的数据交互及共享目的,但ETL工具在实现时却有高耦合、缺少界面监控等缺点。ESB技术在实现数据共享时有低耦合、界面监控、实时更新等优点。苏州市职业大学早在数字化校园建设时期就已建成数据共享平台,此平台集成了一卡通、图书、教务、宿管、科研等多个业务系统,更多服务于学校的信息门户,能满足部分业务数据共享需求。然而随着原有数据中心的运用,也暴露出一系列问题:数据共享中心没有形成统一的数据服务资源池,业务系统之间数据共享程度不高(部门间数据的对接还需要运用电子表格导出的形式,如教务处需获得学工处的学生基本信息数据;一卡通、保卫处需获得教务处的学籍数据),数据的利用率不高(多局限于现有信息门户的展示);各系统之间缺乏有效的数据交换和共享机制,数据调用不直观。

本研究针对现有数据平台的缺陷,结合业内数据平台的建设经验,从本校实际情况出发,提出了一种基于金蝶企业服务总线AESB的共享数据平台,按照高校业务数据特点,将数据分成学生、教师两个主题库,以及科研、消费、上网等多个专题库,提供Web Service数据服务,记录采集加工日志,为后期进行多维度数据分析,辅助学校领导进行科学决策提供数据保障,解决了数据共享、数据交换、数据集成等问题。AESB提供可视化的设计工具和管理监控页面,此平台将达成标准完善、数据集成、数据服务共享的目的。

1 设计思路

1.1 建设现状

苏州市职业大学现有共享数据平台是采用Oracle ODI工具抽取各业务系统数据实现的。在建设初期,此平台解决了各类业务系统集成的难度,缩短了集成周期。但随着业务系统陆续的集成和学校对数据使用要求的提升,现有数据共享平台不能完全满足后期的数据需求,从实际使用的情况来看,现有的数据共享平台主要存在如下问题:①数据同步一旦出错,将产生大量的日志文件,严重的将会导致系统崩溃。②现有平台的数据对接方式单一,不能满足日益增长的数据对接需求。③技术专业性较强,ODI工具不具有AESB可方便管理监控操作界面,数据维护困难。④现有平台局限于数据抽取,没有数据服务的理念,没有形成统一的数据服务资源池,更没有分级权限的机制。⑤覆盖数据范围不够广泛(如没有集成汽车门禁、刷卡详情、宿管系统、就业信息等数据)。⑥目前数据中心共享平台数据主要用于学校信息门户的数据展示,业务系统之间数据共享程度不高,数据利用率不高,基于跨部门的综合数据分析处理不能实现(如综合查询学生奖助、财务欠费、家庭情况的综合信息)。

1.2 建设目标

1) 实现数据采集的全面、长效化;

2) 落地业务主体库,建立业务专题库;

3) 以新建的核心数据共享数据中心为依托,制定合理的决策计划,提高学校管理和领导决策水平;

4) 实现各业务部门间的数据共享,提高数据利用率;

5) 提高运维监控水平。

1.3 建设思路

数据平台建设初期需要对全校各部门业务系统的数据字段进行梳理,以及各业务部门的数据需求进行梳理,包括数据的来源、各数据字段相对应的负责部门、数据的存储方式、更新频率、参考标准等,明确需要共享的数据内容,获取各项数据内容的权限等。

1.4 ESB技术简介

企业服务总线(ESB)一般用于内部业务系统较多的企业,如能源、政府、医院、电力等行业,具有低耦合、实时更新、为终端用户提供Web Service服务的特点。本数据平台采用数据交换工具金蝶企业服务总线(AESB V9.0),采集学校各个业务系统的业务数据,并对数据进行清洗加工、关联整合、分区存储,形成校级共享数据中心,并且本平台包含数据服务、运维监控、数据分析等功能。AESB提供可视化的设计工具和管理监控页面,支持各类非结构化数据源,提供实时高效的数据处理性能,易于操作,并且通过AESB,以一种无缝的非侵入方式使高校已有的系统具有全新的服务接口,具有良好的吞吐能力和扩展性。 同时AESB的监控平台包含了数据服务、采集流程、数据源、触发器等多种系统资源的监控,以及数据传输统计日志、文件传输日志、操作日志等,通过日志了解系统运行状况,为系统排错、信息调整作出依据。此外AESB的服务注册库为后期建立数据服务系统提供数据保证。

2 数据中心架构设计

数据中心的形成需要经过从外部数据源进行数据适配采集、数据加工比对,标准转换,再到最后数据分区存储几个关键过程。贯穿整个过程的同时,包括数据处理的工具集(交换工具、数据库等)、安全管控的手段(交换安全、数据安全)、运维管理监控(采集、加工、数据监控管理),才能保证数据中心建设的顺利展开。数据中心主要包括数据采集和数据分区两个部分。数据中心架构如图1所示。

图1 数据中心架构图

2.1 数据采集流程

数据处理流程体现为数据交换的过程,实现不同数据源的数据整合,支持广泛的数据源,对于数据库、数据文件、Web Service等多种不同的数据源格式(如主流、非主流的关系型数据库、ODBC数据源、消息类型数据源、格式化的txt文件、Web Service文件、Excel文件)提供多样化的适配器接口,对目前我校的数据源进行统一的接入控制管理,提供安全、稳定、灵活多样的交换。数据采集流程图如图2所示。

2.1.1 数据采集机制

数据采集机制主要是确定数据在全量和增量的情况下从业务系统到主数据平台的数据采集,确保采集数据不重复、实时更新。

在通过ESB抽取各业务系统数据时,已经做了初步的数据格式转换、日期转换以及原业务系统列名与数值不统一的情况等,并且将采集情况(添加记录数、修改记录数、采集开始时间、采集结束时间)录入采集日志表,作为后期运维监控表的数据基础。

AESB在数据抽取采集时,定义一个定时器,对于不同的业务表,定义不同的采集频率进行采集,对于源业务表中已经存在的业务数据,源表数据发生变化时,AESB工具自带检查冲突功能,更新相应的列值。无需在源业务系统上添加触发器,耦合度低。原ODI工具在实现数据更新时需在业务表中建立触发器,破坏了原有业务系统的完整性,耦合度较高。

图2 数据采集流程图

2.1.2 数据采集频率

数据中心的数据来自于学校不同的业务系统,针对不同的数据源,采集的频率会有所差异。主要取决于数据源系统自身数据的产生频率和平台需要做分析展现的数据形成时间。对于实时性要求较高的系统,如一卡通消费记录、图书馆借书记录,频率设为每三分钟采集一次。对于数据变化频率不高的数据设为每天采集一次,或是每学期定期进行采集,如一卡通工作站、教职工基本信息。采集频率是可以自定义、动态作调整的。为不影响学校各业务系统的正常运行与使用,对于每天定期采集的数据设定在夜晚进行,此时间段学校各业务系统基本处于使用低谷期。

2.1.3 数据标准

结合苏州市职业大学一期数字化校园标准、JY/T 100x-2012 教育管理信息标准,形成我校新的数据标准,这是后期其他业务系统进行开发的数据标准准则,也是数据采集时源业务表到主数据平台的字段映射标准。

2.1.4 数据源类型

数据采集支持多种主流、非主流的数据源,通过数据适配器可以灵活扩展。支持多种主流关系型数据库(Oracle、Sqlserver、MySQL)、XML文件、Web Service、Word、Excel文件等类型。

2.1.5 数据对接方式

数据采集交换中间件支持多种数据获取方式:

1) Web Service 服务接口。可以从指定Web Service服务接口提供的方法中提取数据,一般是对所对接的业务系统提供封装好的服务接口,约定接口格式和验证方式及返回信息,调用接口就可以获取到数据。

2) 数据库视图。从指定数据库的视图中提取数据,一般是要对接的业务系统将部分所需数据通过数据库视图的方式开放权限,调用数据库视图获取数据。

3) 数据表。从指定数据库的表中提取数据,这种方式是数据库直连,只能查询数据不能对数据进行任何操作。

4) 自定义SQL。可以用自定义SQL从指定数据库中提取数据,需要获取源数据库的查询权限。

5) 文件。可以从指定XML、Excel、Access、Dbf文件中提取数据。这种文件方式较多的应用于Excel格式的数据,利用通用的数据上传接口把模板数据导入进行通用流程采集。对于无权限获得数据接口的数据,如省厅系统的就业数据以及财务处学生欠费数据均以Excel方式作为抽取数据源。

2.2 数据加工

数据加工通过建立学校信息化统一标准代码表,利用专业的工具经过数据的清洗转换、关联整合,形成学校核心基础数据。定时对采集的缓冲数据进行加工。数据加工主要包含两个方面的工作:

1) 数据清洗,对源数据进行如格式校验(日期格式转换)、空值补全、重复去除、代码转换等清洗工作,以提高主数据质量及数据源可信度。对于不同业务系统的数据字段展现方式进行统一。如原有的汽车出入门禁系统,不以教职工工号作为主键,在抽取数据到数据中心时就需要进行处理。

2) 关联整合,对数据进行如字段映射、字段拆分、字段合并、预计算等整合工作,形成统一主数据库。

2.3 数据分区

整体数据架构根据数据的不同类别进行分区设计,一方面通过工具平台和中间缓冲库数据区的引入,对不同类型数据区域进行区分,保障数据体系的划分清晰和区域内部的灵活扩展。另一方面,根据不同的数据分区数据特性的不同,设置不同的安全和访问策略,综合考虑各类数据访问使用的安全和效率,为后期进行数据分析缩短响应时间。

数据分区设计架构如图3所示,包括五部分,分别是前置区、数据缓冲库、师生核心库、扩展主题库和共享库。

1) 前置区。前置区定义为外部应用业务系统的数据区,是学校各个业务系统的数据库、可以是针对各业务系统的查询视图、甚至是服务接口的部署服务器、文件数据服务器。

图3 数据分区设计图

2) 数据缓冲区。从外部业务系统采集过来的数据,首先在数据缓冲区落地,缓冲区的设计是为了减轻数据采集给服务器及数据加工带来的压力。缓冲区所采集的表是各个业务系统包含数据价值信息,能进行数据分析的表,除去业务系统本身构建所需要的数据表以及日志表等。使用AESB抽取的界面图如图4所示。

3) 数据核心区。数据核心区存储的数据是通过Oracle Job定期调用事先设定的函数,经过缓冲区再次处理(格式检验、数据清洗)后的数据。处理的内容包括数据的权威性、业务关系、异常数据,其中异常包含业务异常和数据异常。数据核心区存储的是学校的核心数据,比如学生、教师的基础信息,扩展信息是一个较全面、质量较高的数据资源池,是今后做数据分析和数据共享以及数据应用的基础。核心库的每一张表需要有增量字段,采用采集时间戳来做增量,同时每张表需要主键UUID。

4) 扩展主题区。扩展主题区的数据来源于缓冲区和核心区,在物理上统一存储,这部分的数据是经过缓冲区和核心区,挖掘有业务主题的相关数据集合,这些数据集合可以是动态新增的,每个数据集合都分别有不同的数据库段存储,相互独立。扩展主题区是基于数据分析而设计的。数据库设计中按照事实表和维度表进行设计。在苏州市职业大学数据平台项目中,扩展主题库分为上网专题、消费专题、科研专题、教务专题、图书专题。

图4 使用AESB抽取的界面图

5) 数据共享区。根据业务需求驱动,建立数据共享区,共享区的数据供学校其他业务部门或其他建设项目使用。如果业务部门需要数据,由业务部门提出数据共享需求。存储的方式和扩展区一样,在物理上统一存储,每个业务系统的数据需求相互独立。对外以数据Web Service服务接口的方式提供。 数据共享区一方面与数据核心区隔离,另一方面负责对外发布服务。AESB工具自带服务注册功能,可以对数据接口进行封装,并可通过用户名、密码、时间戳、加密算法来保证数据安全。AESB的服务注册库中可以清晰地看到数据服务调用信息(调用次数、成功次数、失败次数、调用成功率、响应时间等)。在苏州市职业大学智慧校园实际的建设项目过程中,已经向GIS、微信通、服务大厅、学生画像、一卡通数据分析平台等多个项目进行数据推送。

3 结论

以苏州市职业大学数据中心改造项目为例,从数据分区、数据采集流程等方面描述了数据中心改造平台的设计过程,提出了基于AESB的数据共享平台的改造方案。新改造的数据中心,含有可视化的数据监控,实时保证数据更新和数据质量。且具有可视化维护监控页面,对数据抽取是否成功、抽取质量分析、数据服务调用具有直观性体现。为后期建设数据分析、运维服务管理系统提供数据基础。后续的工作将在现有的平台上进行,主要包括在数据中心平台上的多维度分析以及可视化报表展现、运维管理和服务管理系统的建立以及如何将数据中心向云平台数据中心进行过渡。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!