谈数据稽核(1)

标签: 随笔文章 | 发表时间:2013-04-24 16:02 | 作者:人月神话
出处:http://blog.sina.com.cn/cmmi
数据稽核是数据质量管控的一个核心内容,重点就是实现数据的完整性和一致性检查,提升数据质量,数据稽核是一个从数据采集,预处理,比对,分析,预警,通知,问题修复的完整数据质量管控链条。我在前面也谈到过,在当前的应用和架构下,企业业务系统间的数据集成模式导致了核心的主数据和跨系统共享的动态数据全部落地,由于本身数据集成的问题或者由于数据源头管理不善等原因导致了大量的数据不一致性。虽然一直在做数据清理工作,但是这种不一致性和问题将持续存在于整个应用架构体系里面。在这里简单谈下数据稽核的系统解决方面的事情。

首先看下数据稽核的整个流程,首先是数据的采集和适配,这个常见方式是通过ETL工具来完成,ETL工具采集到的数据做初步的数据清理和预处理。在这个步骤完成后根据预定义的数据稽核和校验规则,对数据进行差异分析和异常分析,对于分析的结果,一方面是实时的预警和通知,一方面是根据预先定义的报表模版生产数据稽核统计报表。以上完全可以配置为一个自动化的流程,当然对于核心的业务对象或实体,我们还可以定义稽核的时间范围,稽核的业务规则进行实时的数据比对工作。

其次,来看下数据稽核中跨系统数据比对的内容。数据比对本身是一个由粗到细的过程,首先是数据表级别的比较,但是这个往往并不需要;然后是数据表中记录层级的数据比较,A系统同步了一条数据到B系统,是否正常成功同步到,首先要比对的就是两个数据表的key值关联是否存在。行记录级别比较完成后是字段级别的数据比对工作,字段级的比对分为两个层面,一个是数据表表结构和字段结构元数据的一致性,如相同的表两边字段数量不一致,相同的字段的字段类型或长度不一致等;其次是字段内数据和内容的一致性比对。还有些数据稽核工具会提供数据参考完整性和通用性业务规则校验的功能,但是这个不是数据稽核的重点,更多还是应该是业务系统自身去做好参照完整性控制工作。

最后谈下数据稽核应该是一个高度可灵活配置的产品平台,其中包括了稽核流程可以配置,ETL和元数据定义,字段映射可配置;数据稽核规则可配置,报表模版可以预定义和配置;预警和通知规则和配置。有了这些灵活的可配置能力后,数据稽核平台基本就可以应用到很多类似数据稽核和比对的场景中。

  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [数据] 推荐:

数据仓库

- Ran - Linux@SOHU
翻译:马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高,以及服务器价格的降低,让人们能够负担起大量的服务器,但是商业软件应用和监控工具快速的增加,还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者,以及初级数据库管理员发现,他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语,概念或工具.

数据抽取

- - 数据库 - ITeye博客
转自: http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%8A%BD%E5%8F%96#.   数据抽取是指从源数据源系统抽取目的数据源系统需要的. 实际应用中,数据源较多采用的是. 数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数 据库中抽取出来,并转换成自己的ETL 工具可以识别的格式.

数据库sharding

- - 数据库 - ITeye博客
当团队决定自行实现sharding的时候,DAO层可能是嵌入sharding逻辑的首选位置,因为在这个层面上,每一个DAO的方法都明确地知道需要访问的数据表以及查询参数,借助这些信息可以直接定位到目标shard上,而不必像框架那样需要对SQL进行解析然后再依据配置的规则进行路由. 另一个优势是不会受ORM框架的制约.

数据脱敏

- - IT瘾-bigdata
作者|李呈祥,其中部分内容由十一城补充. 数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形. 百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护. 这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集.

数据分析之如何用数据?

- - 互联网分析沙龙
光知道怎么看数据,还是不成,你得熟悉这些数据拿到手上之后怎么去用它,怎么让数据显示出来它本身的威力来. 第一个部分,是看历史数据,发现规律. 以社区中的活动和电商中的促销为例,这些都是常见的活动,活动做得好的话有意想不到的效果. 在做这样的活动,最好是拿到前一个月或者两个月的历史数据. 对电商来说,从这里面要去分析各个品类的销售情况,那个品类销量最大,那个品类销量最小,每月或者每周的平均增长率和符合增长率是多少.

excel数据导入mysql数据库

- - 互联网 - ITeye博客
1、excel另存为txt.       选中将要导出的数据列,然后另存为选择其它格式=>文本文件(制表符分割). E:\项目\fblike\game_code_san.txt. 2、txt导入到mysql数据库. load data infile 'E:\\项目\\fblike\\game_code_san.txt' into table game_code_san(code).

数据批量导入Oracle数据库

- - Oracle - 数据库 - ITeye博客
今天学习了一个新的东西,觉得还挺有意思的,也是从别出COPY 的,. SQL*LOADER是大型数据. 仓库选择使用的加载方法,因为它提供了最快速的途径(DIRECT,PARALLEL). 现在,我们抛开其理论不谈,用实例来使. 您快速掌握SQL*LOADER的使用方法.   首先,我们认识一下SQL*LOADER.

数据分析之如何用数据?

- - 人人都是产品经理
光知道怎么看数据,还是不成,你得熟悉这些数据拿到手上之后怎么去用它,怎么让数据显示出来它本身的威力来. 第一个部分,是看历史数据,发现规律. 以社区中的活动和电商中的促销为例,这些都是常见的活动,活动做得好的话有意想不到的效果. 在做这样的活动,最好是拿到前一个月或者两个月的历史数据. 对电商来说,从这里面要去分析各个品类的销售情况,那个品类销量最大,那个品类销量最小,每月或者每周的平均增长率和符合增长率是多少.

Solr从数据库导入数据

- - CSDN博客互联网推荐文章
一. 数据导入(DataImportHandler-DIH). DIH 是solr 提供的一种针对数据库、xml/HTTP、富文本对象导入到solr 索引库的工具包. apache-solr-dataimportscheduler-1.1.jar(增量导入使用). 数据库对应的jdbc驱动包这里使用的是Oracle oracle10g.ja放入Tomcat6.0.36/webapps/sol/WEB-INF/lib 中.

[原]数据仓库元数据管理

- - oycn2010的专栏
元数据管理, 简单的做就是EXCEL结合版本管理等传统工具管理, 专业点就用专门的元数据管理工具;. 数据字典--> 数据知识库. 业务元数据,技术元数据,管理元数据. 参照:SAP元数据管理平台:按业务(角色)分类,按技术类型分类(特征,关键值,DSO,InfoCube),数据流程图. 按照传统的定义,元数据(Metadata)是关于数据的数据.