数据稽核是数据质量管控的一个核心内容,重点就是实现数据的完整性和一致性检查,提升数据质量,数据稽核是一个从数据采集,预处理,比对,分析,预警,通知,问题修复的完整数据质量管控链条。我在前面也谈到过,在当前的应用和架构下,企业业务系统间的数据集成模式导致了核心的主数据和跨系统共享的动态数据全部落地,由于本身数据集成的问题或者由于数据源头管理不善等原因导致了大量的数据不一致性。虽然一直在做数据清理工作,但是这种不一致性和问题将持续存在于整个应用架构体系里面。在这里简单谈下数据稽核的系统解决方面的事情。
首先看下数据稽核的整个流程,首先是数据的采集和适配,这个常见方式是通过ETL工具来完成,ETL工具采集到的数据做初步的数据清理和预处理。在这个步骤完成后根据预定义的数据稽核和校验规则,对数据进行差异分析和异常分析,对于分析的结果,一方面是实时的预警和通知,一方面是根据预先定义的报表模版生产数据稽核统计报表。以上完全可以配置为一个自动化的流程,当然对于核心的业务对象或实体,我们还可以定义稽核的时间范围,稽核的业务规则进行实时的数据比对工作。
其次,来看下数据稽核中跨系统数据比对的内容。数据比对本身是一个由粗到细的过程,首先是数据表级别的比较,但是这个往往并不需要;然后是数据表中记录层级的数据比较,A系统同步了一条数据到B系统,是否正常成功同步到,首先要比对的就是两个数据表的key值关联是否存在。行记录级别比较完成后是字段级别的数据比对工作,字段级的比对分为两个层面,一个是数据表表结构和字段结构元数据的一致性,如相同的表两边字段数量不一致,相同的字段的字段类型或长度不一致等;其次是字段内数据和内容的一致性比对。还有些数据稽核工具会提供数据参考完整性和通用性业务规则校验的功能,但是这个不是数据稽核的重点,更多还是应该是业务系统自身去做好参照完整性控制工作。
最后谈下数据稽核应该是一个高度可灵活配置的产品平台,其中包括了稽核流程可以配置,ETL和元数据定义,字段映射可配置;数据稽核规则可配置,报表模版可以预定义和配置;预警和通知规则和配置。有了这些灵活的可配置能力后,数据稽核平台基本就可以应用到很多类似数据稽核和比对的场景中。
青春就应该这样绽放 游戏测试:三国时期谁是你最好的兄弟!! 你不得不信的星座秘密