银行数据治理:数据质量管理实践 | |||||||||||||||||
Date of publication:2022-10-13 Reading times:102 字体:【大 中 小】 | |||||||||||||||||
现代商业银行日常经营活动中积累了大量数据,这些数据除了支持银行前台业务流程运转之外,越来越多地被用于决策支持领域,风险控制、产品定价、绩效考核等管理决策过程也都需要大量高质量数据支持。银行日常经营决策过程的背后,实质是数据的生产、传递和利用过程。 此外,日益全面的和严格的监管措施和信息披露要求,也对银行数据提出了前所未有的挑战。如果不能对这些数据进行有效管理,其价值就得不到很好体现,甚至会给运营管理带来负面作用,具体表现为:
01 数据治理体系简介
数据治理是为满足企业内部信息需求,提升企业信息服务水准而制定的相关流程、政策、标准以及相关技术手段,用于保证信息的可用性、可获取性、高质量、一致性以及安全性。数据治理体系建设的目的,是建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系,从全企业视角协调、统领各个层面的数据管理工作,确保内部各类人员能够得到及时、准确的数据支持和服务。通常认为,数据治理至少应当涵盖如下功能域:数据质量管理、元数据管理、数据标准管理数据安全管理和主数据管理,现对上述功能域说明如下: 1.数据质量管理 对支持业务需求的数据进行全面质量管理,通过数据质量相关管理办法、组织、流程、评价考核规则的制定,及时发现并解决数据质量问题,提升数据的完整性、及时性、准确性及一致性,提升业务价值。
2.元数据管理 元数据是关于数据的数据,即对数据的描述信息。根据其属性的不同,元数据可分为技术元数据和业务元数据。元数据管理是元数据的定义、收集、管理和发布的方法、工具及流程的集合,通过完成对相关业务元数据及技术元数据的集成及应用,提供数据路径、数据归属信息,并对业务术语、文档进行集中管理,借助变更报告、影响分析以及业务术语管理等应用, 以此保证数据的完整性、控制数据质量、减少业务术语歧义和建立业务人员之间、技术人员之间,以及双方的沟通平台。 3.数据标准管理 通过建立一整套数据规范、管控流程和技术工具来确保银行各种重要信息,包括产品、客户、机构、账户等信息在全行内外使用和交换的一致和准确。数据标准可分为技术标准和业务标准。 4.数据安全管理 通过建立对数据及相关信息系统进行保护的一系列措施, 确保数据免遭未经授权的访问、使用、修改或删除,保证数据完整性、保密性和可用性,具体可分为管理和技术两大类措施。 5.主数据管理 主数据指描述核心业务实体的数据,如客户、机构、员工、产品等。这些数据变化相对缓慢并通常在企业内跨业务重复使用。主数据管理适用于管理、协调、监控与企业主要业务实体相关联的主数据的一系列规则、技术、应用、策略和程序。
02 数据质量管理简介 业界普遍认可的数据质量定义为数据对其期望目的的适合度,即数据质量管理生命周期及其相关的数据质量管理流程,都要为确保数据满足其自身预期目标提供相应的方法和手段。 数据质量管理基础和问题分类下列要素是进行数据质量管理的基础:
银行关注的常见数据质量问题可以归成如下7类: 1.定义缺失,指缺少关键业务元素定义,导致对同一字段的理解偏差。例如, 什么是“一个客户”,不同业务有不同理解,通常风险应用将组织机构号作为对公客户的“身份证”,一个组织机构号代表一个客户;而核心系统对客户号的分配较为随意,允许一个组织机构号下存在多个客户号。 3.信息缺失或不准确,指在系统表中已经设计了某些字段,但在使用过程中, 很多记录却没有收集这些字段的信息,或存在信息收集不准确、信息重复登记等情况。信息缺失或不准确通常在客户信息方面最为严重。
6.数据生命周期问题。银行中的关键数据,例如,账户、客户、产品信息等, 都有若干日期字段记录其生命周期,这些日期字段包括创建/开户日期、关闭/ 销户日期、最后交易日期和最后修改日期等,但是在业务系统中往往存在修改了记录状态却并未同步更新相关日期字段的情况。此外,还有一个违反合理数据生命周期的常见做法,就是直接在物理上删除记录。 7.代码问题。包括三个与代码相关的问题:
03 数据质量管理方法论图 1 描述了权威人士普遍认可的数据质量管理方法论,共分六步。
图1 数据质量提升步骤图 第一步:定义及验证 表1 数据质量度量标准
第二步:影响分析与共性分析 完成数据质量目标定义后,需要评估一个特定的数据质量问题在预期的数据使用适合性方面带来的影响,并根据影响分析结果可以确定数据质量问题的重要性与优先级别。 所谓共性分析就是分析错误具有的共性,我们期望一次可以将许多错误归结到某类共同原因。这个分析将为下一步追踪根本原因做好准备。 第三步:追踪根本原因 图 2 所示鱼骨图是一个众所周知的用于鉴别数据质量背后根本原因的工具,它反映了需要达到的和实际的数据质量之间的差距原因,通常是信息、流程、技术、人员等因素所导致。 第四步:预防/修复数据质量问题
图2 数据质量根本原因图
图 3 预防/修复数据质量问题图 第五步:趋势监控 一个已知的数据质量问题被修复后并不意味着这个特定问题就被永远解决了。如果没有有效地预防措施,错误仍有可能再现。因此,对重要数据质量问题应当持续监控。图 4 所示控制图经常被用来做质量问题监控,当错误的个数在一定范围之内浮动时,质量问题被认为处于可控状态。
图 4 数据质量趋势监控图 第六步:识别和研究偏差
图 5 识别和研究偏差图 04 数据质量问题特征分析
从图6中可以看到,数据质量问题的产生主要在于数据产生环节,其次在于数据集成环节的数据加工过程,而在数据使用环节,由于原则上不再对数据作修改,因此基本上不产生数据质量问题。 图 6 数据质量问题分析图 数据质量问题的发现则不同,基本呈现出相反特征:一是业务源系统虽然是数据的主要产生环节,但是通常只能发现业务流程相关的数据质量问题,而且仅限于本系统内部;二是数据集成环节由于是企业内部数据的一个最主要会聚点,因此通常也是数据质量问题暴露最多的环节;三是数据使用环节是数据质量问题频繁暴露的另一个环节,主要是因为对数据的使用决定了数据质量问题的定义,所以很多质量问题都是在使用时被首次发现。 05 在不同流转环节关注的数据质量 基于数据质量管理的关键环节和质量问题特性,再结合业界事实数据质量管理的最佳实践,建议在不同流转环节侧重完成的功能点实现应如下: 1.数据产生环节。 2.数据集成环节。 3.数据使用环节。 06 数据质量管理流程的关键点在构建数据质量管理体系时,以下关键因素应当考虑:跨部门以上主管领导的重视和牵头;负责解决数据质量问题的专门和专业组织;负责解决数据质量问题的统一和专业流程;负责解决数据质量问题的统一平台;负责侦测数据质量问题的专业工具。 07 数据质量管理与数据治理体系的有机结合 数据质量管理应当与整个企业级的数据治理体系有机结合,图7 简要说明了这些治理体系各主要组件之间的关系。 图 7 反映的数据质量管理相关治理组件的关系如下: 图 7 数据治理主要组件之间的关系图 1.数据标准是数据质量管理进行质量检查的规则,因此数据与标准不相符,就是一个典型的数据质量问题,通过部署数据质量管理系统,可以对数据标准的落地实施提供有效的监控、检验和督促手段。 2.元数据管理系统可以作为数据质量管理的一个输入端,辅助数据质量检查 脚本的自动生成,而数据质量管理系统中存储的检查规则等信息又是一项元数据, 应当被元数据管理系统所采集。 3.数据安全管理中定义的数据所有者,是构建数据质量治理闭环流程和确定数据整改权责的重要依据。
本文来源中国银行总行信息科技部,作者孙中东 来源:数据学堂 |
|||||||||||||||||
Previous:贾康:在宏观经济讨论会上的发言(2022.9.24) | |||||||||||||||||
Next:李三希 黄卓:数字经济与高质量发展:机制与证据 |