时间:2024-07-06
陈 芳
(江汉大学商学院,武汉,430056)
随着网络和信息技术的不断普及,产生了大量非结构化、半结构化数据,数据的单位向TB-PB-EB-ZB级别暴增,因此数据治理成为各行各业关注的热点。数据治理活动逐渐在企业、政府、医院和高校等领域展开,由于研究的视角和切入点的不同,对数据治理的理解也各不相同。IBM数据治理委员会、国际数据治理研究所等权威机构的定义最具代表性并被广泛地接受。企业数据治理的本质是:对企业的数据管理和利用进行评估、指导和监督,通过提供不断创新的数据服务,为企业创造价值[1]。数据治理主要分为两种类型,一类以客户数据为主,并且数据的日增长量大,比如金融、电信、保险、教育机构、大型电商等,另一类是传统的实体企业,这类企业对数据编码要求较高,比如加工制造、物流贸易等。不同领域的不同企业适合不同的治理框架。本文试图从实体企业数据治理的共性问题出发,重点分析企业实施数据治理的核心内容及条件保障。
大部分企业已经完成了ERP、CRM、供应链、协同办公等企业信息化系统的建设,但是由于数据分散在众多系统中,缺乏统一的数据定义和数据分类,因此在数据使用上存在数据不标准、数据不一致、数据完整性差等问题。数据不标准主要表现在不同系统之间描述同一业务问题的数据定义标准不同;数据不一致主要表现在相关联业务系统的数据不同步、各应用系统间存在数据编码规则不一致的问题,还有重复编码的问题;数据完整性差表现为缺少关键ID。企业必须对各个系统的数据源以及输出的数据资产进行统一的数据治理,实现数据在不同组织和系统内的交换与共享。只有解决了数据的问题,才能实现IT的价值。
大数据时代数据产生的价值越来越大,各企业都在探索基于数据的相关技术和应用模式,最终目的就是挖掘数据的价值,推动企业的发展。因为数据有可能是成本,也有可能是资产,能给企业带来重要的价值,是企业宝贵的资源。如果没有数据治理,数据的质量就无法保证,数据难以成为企业的资产,既使再多的业务和技术投入也都是徒劳。数据质量低下会导致企业在IT方面的重复投入,各种应用系统的价值难以有效地发挥出来,数据的问题甚至会使得企业错失商机,损失无法估量。国内外许多学者在数据治理领域都讨论了与价值创造或提升相关的话题,从全球范围来看,数据治理是保证数据质量的必需手段,数据治理的价值贡献在于确保数据的准确性、可获取性、安全性、适度分享和合规使用[2]。例如,湖北移动对数据服务涉及的计算资源、数据资源制定了标准化的统一管理规范,明确了各个应用项目计算资源的初始分配、扩容、忙闲时调度等策略和流程,制定了涵盖数据层次、数据主题、数据命名、质量检查、数据转换等11个大类的数据标准化规则体系,降低了管理成本和应用成本[3]。
当今世界进入了数据爆炸的时代,数据成为企业重要的资产。企业涉及的数据类型,包括文本、图像、音频、视频等,分为静态数据和动态数据,实时数据和非实时数据,结构化数据、半结构化数据和非结构化数据,这些数据有些来源于企业的内部信息系统及设备,有些来源于外部的供应链和社交网络。数据驱动企业的决策成为时代发展的必然。
数据治理能使企业清楚地认识自己的优势和劣势,有利于企业提高决策的合理性,为用户提供更加优质的服务。大数据时代,企业可以通过对数据的整合和分析,从中获取对企业有用的数据。新的数据技术手段,使得信息在企业内部不同部门之间有效、快速地传递,使得不同部门之间的交流、沟通更加透明,使得企业不同的利益主体能广泛地参与决策,从而提高决策的科学性和合理性。
在企业的生产经营活动中会产生大量的数据,企业需要对事务性数据、机器生成数据、社交媒体数据等内外部数据进行整合,特别是对与企业重大商业利益相关的数据资源的整合、分析与利用,从而指导企业的经营与发展。数据技术带来的不仅是技术的更新,还有管理方式的改变,数据治理不仅局限在企业的决策层,还包含管理层和业务层,数据治理能改善企业管理层与其他利益相关者的关系,大家共同关心企业的发展,致力于企业目标的实现,使企业变得更加敏捷和高效,更注重用户体验的提升和需求的满足。例如,长安汽车集团为解决日常的数据收集、数据处理效率较低、不同源系统的数据不一致的问题,通过元数据管理系统,建立采集元数据和元数据关系,提升了跨系统的数据交互能力以及数据整合能力,进一步提升了自身的竞争力[4]。
要做好数据治理,先要搭好框架。体系框架是实现大数据治理,进行大数据管理、利用、评估、指导和监督的一整套解决方案,包括制定战略方针、建立组织架构和明确职责分工等[5]。国内外不同的机构和学者提出了不少具有代表性的数据治理框架或模型。比如,IBM的有效数据治理元素框架EEDG包括目标要素、促成要素、核心要素和支撑要素四类,每一类可包括若干具体要素[6];DGI数据治理框架包括规则与协同工作规范、人员与组织机构、过程三大部分的10个小部分[7];DAMA数据治理框架包括功能子框架和环境要素子框架,主要解决数据管理的10个功能和7个要素之间的匹配问题[8]。不同于DGI数据治理框架,我国《数据治理白皮书模型》包括原则框架、范围框架、实施和评估框架等三个方面的内容[9]。
由于不同机构的关注点各不相同,数据治理的框架体系各有不同。刘奇燕等认为数据治理框架包含数据治理保障机制建设和数据治理核心领域两个部分,其中核心领域包括主数据治理、元数据治理、数据标准治理及数据安全治理等多个领域;组织、制度、流程和工具则是数据治理的保障机制[10]。郑大庆指出大数据治理的核心要素是大数据质量管理、大数据生命周期、大数据的安全与隐私,支持要素包括大数据架构、主数据、元数据、流程与活动,而促成要素包括组织结构、政策与策略、相关责任人等[11]。
每个企业由于所处的行业特点不同,业务情境有很大的差异,因而数据治理的框架体系也会出现个性化的差异。但是不同企业在实施数据治理时,都会围绕企业目标有计划、按步骤地实施。本文提出企业实施数据治理的体系,如图1所示,即数据治理的对象是数据资产,数据治理的关键因素包括数据质量管理、数据生命周期管理、主数据管理、元数据管理、业务流程整合等,它直接反映企业进行数据治理的条件和水平。而数据治理的顺利实施需要有管理、组织、制度、技术等方面的条件保障,不仅需要明确数据治理的目标和标准、监督控制数据治理的相关活动,而且要建立分层的数据治理组织,制定数据的标准和规范、数据的安全管理制度以及数据质量的评价方法与指标,采取集成式的数据架构,推动数据治理的价值变现。
图1 企业实施数据治理的体系图
元数据是描述数据的数据。ForresterResearch将元数据定义为“用于描述数据、内容、业务流程、服务、业务规则以及组织信息系统的支持政策或为其提供上下文的信息”[12]。元数据管理就是对元数据进行创建、组织与存储、整合与控制的相关活动。管理团队首先要弄清企业开展业务需要哪方面的数据,生产经营活动又会产生哪些方面的数据,如何获取支持业务活动的数据,以及各种数据之间的相互关系。企业可以创建元数据存储库,存储各种业务元数据和技术元数据的属性、状态及关系,以便于不同部门、不同系统之间的共享和利用。元数据的管理,在一定程度上可以解决数据重复建设等问题,进一步提升数据质量。比如,东方航空公司利用普元产品的全自动采集和大数据地图的自动展现等功能,集中管理了包括技术、业务、操作在内的全企业的元数据,分析出了海量元数据之间的关系,可视化展现出了东航数据资产全貌和数据之间的流向,促进了东航对海量数据的有效利用[13]。
主数据是企业业务实体的数据,比如客户数据、产商数据、产品数据等。它广泛地分散在企业的各种业务流程、各个信息系统以及应用程序中。对于企业来说,主数据是非常有价值的数据,也是各业务部门和应用系统需要共享的数据。企业数据治理的目标是充分挖掘主数据的价值,以满足不同部门对主数据的需求。针对各业务部门对数据使用的目的和要求不同,主数据管理需要围绕业务的目标与规则并与各部门的业务流程相匹配,同时也要得到各业务部门的支持,具体从提高主数据的质量着手,确立主数据管理的策略、规程和技术解决方案,尽量保证各业务数据的合规性、一致性和相关性。主数据管理是一项长期的实践活动,可通过建立主数据中心来规范主数据的使用,这不仅是一项技术工作,还有配套的管理工作,如确立主数据的管理规范和管理流程。2008年九州通集团开始进行主数据规划,首先通过管理和标准来建立流程,明确组织分工,之后进行数据清理,系统开发,上线实施主数据的建设,使信息自由流动,提升业务效率,为后续的数据分析、科学决策提供有价值的数据驱动,进而提升管理水平[14]。
Weber等人将数据质量管理定义为:以质量为导向的数据资产管理,即计划、规定、组织、使用和处理支持决策和运营业务流程的数据,从而持续性地提高数据质量[15]。大数据技术的广泛应用,使得企业对数据治理的需求日益迫切。企业数据大量分散在各个系统中,由于缺乏一套完整的数据标准体系,各系统之间的数据交互共享性差。由于缺乏标准化的管理和适当的控制,数据的分散会导致相同数据存放在不同系统中,不能被有效识别,数据的可靠性无法等到保证。数据的质量决定了技术应用的质量;数据质量管理侧重于高质量数据的计划、组织和使用,确保了治理对象的质量。通过数据治理,组织能够承担数据责任,解决技术问题,从而进一步提高数据管理和数据质量管理的能力[16]。以生产男式西装为主的红领集团为例,用户在手机APP上下单之后,测量师会到用户家里做定制测量,然后在版型库里做设计,自动排产之后就开始生产。整个过程都是基于高质量的数据驱动的,数据质量成为业务的生命线[17]。数据质量管理需明确质量管控的规范与流程,使相关人员明确在数据产生、存储、应用的整个生命周期中数据治理包含的工作内容、工作流程、各自的职责,进一步提升数据治理的效率。
数据生命周期是指数据从产生、利用到消亡的过程。数据对企业的重要性不言而喻,但数据不会永久性存在,一方面企业对数据的维护需要支付成本,另一方面数据的价值也会发生变化,因此企业数据治理需要根据自身的需求,结合数据生命周期的特征,采取不同的管理方式。数据生命周期管理的目标是在成本可控的情况下,有效管理数据,创造更多的价值。如,欧洲某公用服务公司在部署电气智能仪表时,实施大数据生命周期治理,使得包括大数据归档和压缩在内的总体的运营成本节约了60%[18]。数据生命周期管理首先要有一个判断标准,确定哪些数据需要存储,哪些数据需要进行分析利用,哪些数据需要被剔除;然后制定数据剔除、存储、分析、应用的标准与流程,结合数据实际应用情况,不断优化生命周期管理流程,最大限度地发挥数据的价值。
数据治理围绕企业业务活动展开,首先要识别企业的业务问题,根据实际的业务问题初步拟定数据治理计划,一旦问题得到解决,业务部门会给予更多的支持,并将数据治理的范围扩展到更多的业务活动中。业务流程整合的目的是为了便于数据治理活动的开展,同时也是为了提高数据治理的效率。业务流程的整合将有助于规范业务流程,有利于数据治理团队发现业务活动中的数据以及数据之间的关系。
首先,思想上要重视数据治理。数据资产是企业宝贵的资源,数据治理是一个系统的、大型的、长期的工程,需要管理层、系统开发人员、系统使用人员、系统维护人员等多方协作才能进行。企业实施数据治理的主要障碍是认知程度低和大数据应用平台的缺失[19]。首先需要意识到数据治理的重要性,保证在系统建设、系统运行、系统维护等各个环节都能重视数据治理。只有领导重视,各级管理人员广泛参与,数据治理活动才能有效开展。
其次,明确数据治理的目标,也即数据治理的预期结果,也可以理解为数据治理的价值实现和风险控制[20]。企业数据治理需要投入大量的人员、资金和技术,数据治理的价值实现显得尤为重要。数据治理必须帮助企业降低成本、控制风险、提高效益。数据治理的价值实现是一个循序渐进的过程,需与企业的发展战略和中长期规划相一致。根据企业发展需求,确立合理的总体目标和阶段性目标,才能指导数据治理的顺利实施。
最后,建立数据治理的管理控制中心。管理控制中心的任务是为数据治理提供管理层面的支持,具体的工作包括建立相互信任的数据治理文化、推进数据的标准化建设、整合数据流程和业务过程,确保数据质量和数据安全。借鉴数据治理成熟度模型对数据治理进行评价,了解企业数据治理的状态,为领导层的决策提供依据。如,江西省电力公司通过完善数据中心管理规范,建设辅助管理平台,提升了数据中心的运维能力,优化了公司数据治理体系,更有效地支撑了业务[21]。
企业数据治理需要设置与之相对应的组织机构,成立专门的数据治理组织。企业数据治理的主体,即参与决策的数据治理团队,具体来说包括数据利益相关者、数据治理委员会、数据管理者、数据技术专家[22]。
数据利益相关者既包括企业内部具体的业务部门,也包括受企业决策和行动影响的相关组织,他们是数据的产生者和使用者,负责创建和使用数据,同时对数据的使用规则进行管理和监督。
数据治理委员会是数据治理的中心决策层,由企业领导、IT部门负责人和业务部门负责人组成,负责制定企业数据治理的目标、制度、规范、流程、标准等,协调各部门不同的利益和需求,负责作出数据治理相关事务的决定。
数据管理者是数据治理的执行层,负责执行数据治理委员会的各项决定,由业务部门的业务专家和系统管理员组成。
数据技术专家主要由IT部门的相关技术人员组成,包括系统开发人员、数据库管理员等,他们根据相关标准负责做好数据的录入、监控、修改、备份、恢复、安全、审计等工作。
(1)制定数据的标准和规范
这是实现数据整合的基础,也是实现数据治理规范化、标准化的前提条件,数据治理应遵循标准先行的原则,制定具体的数据标准体系,包括数据基础标准、技术标准、管理标准、数据质量标准等内容,在各业务部门和各业务系统使用统一的数据标准,让数据充分地共享。现阶段,企业数据的可用性不强,很大程度上是由于缺乏统一的标准,同一数据在不同的应用系统中会出现不同的表现形式,给数据的管理和利用带来很大的困难。因此,从数据的采集、获取,到数据的存储、分析、利用,每个环节都必须有与之相匹配的各种技术标准和管理标准,才能提高数据的质量,满足不同业务部门对数据的需求。
(2)制定数据的安全管理制度
保障数据安全是企业数据治理的重要工作。如在华为-腾讯事件中,事件的核心问题被归结于数据的权属问题,各方权益如何界定,数据流通的规则如何构建,还需要长期探索[23]。大数据时代数据治理存在的安全问题主要包括数据传输过程中的数据安全问题、数据处理过程中的数据安全问题、用户对个人数据信息失去有效控制等[24]。针对这些问题,企业必须制定完善的安全管理制度,确保数据的安全性和可靠性。首先,要采取相应的技术措施,严格控制数据在传输、处理过程中的安全,保证数据不被非法篡改、非法截取、非法盗用;其次,要明确界定数据的安全范围,按照数据重要性程度划分不同的安全等级,由不同层级的技术人员对数据实施安全管理,比如数据的备份、恢复、监控、审计等;再者,对数据的权限进行设置,特别是对数据的访问和使用权限进行严格的限制,对数据的授权进行严格的等级划分,尤其是敏感数据,权限设置应更为严格;最后,注重对客户数据的合理使用,保护好个人用户的隐私数据。
(3)制定数据质量的评价方法与指标
数据质量评价能实现对数据质量的量化诊断和评价。数据质量可以从多种维度来评估,如从固有质量、环境质量、表达质量、可访问质量等,评估数据合乎需求的程度[25]。就数据对象本身来说,可以从数据的规范性、完整性、准确性、唯一性、及时性、可用性、易用性等方面来衡量[26]。企业可以根据数据质量的目标,采用数据质量管理的方法和工具,结合数据质量的评价指标,对数据的质量水平予以评分,分阶段分步骤来提高数据的质量。
数据治理的高效实施,必须要有一定的技术条件来支撑。企业通过建立统一的数据平台实现对数据的集中管理及有效整合。数据架构是系统和软件架构层面的描述,没有统一的数据架构,会导致数据冗余、数据不完整、数据不一致等问题,造成数据交换和共享的困难。数据架构涉及数据获取、数据组织、数据分析、决策服务等工作,可以采取分层架构的方式,最底层是数据基础资源层,包含各种数据库管理系统、文件系统、数据库等;中间层是数据架构的核心,包含数据仓库和数据分析等;最上层是数据的应用和服务层,包含数据可视化、数据共享、应用接口及应用服务等方面的内容[27]。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!