谈数据稽核(2)

标签: 随笔文章 | 发表时间:2013-04-25 20:19 | 作者:人月神话
出处:http://blog.sina.com.cn/cmmi
本篇谈下在大数据或海量数据处理技术在数据稽核整个解决方案中可能的应用场景。

对于数据采集和ETL部分

首先谈下数据采集部分,在这部分可以基于传统的ETL工具或模式来完成,对于非结构化文件或日志的采集可以通过Flume等分布式开源数据采集平台来完成。对于数据采集部分主要是数据采集和传输效率的提升问题。

对于数据采集,可以大家分布式的数据采集集群,如果对于单个ETL不拆分,那么可以对多个数据库,多个数据表的数据采集均衡的分配到多台数据采集和处理服务器上,实现数据的并行采集处理,加快数据的采集速度和降低IO瓶颈。对于实时采集方面,可以考虑直接采用类似BinLog日志采集模式,可以实时的采集到变更数据。对于ETL而言,首先对于数据的unLoad和Load过程,最好的方法就是采用适配数据库的原始批量数据文件导出和导入接口,例如Oracle的SqlLoader,Sybase和SqlServer数据库的BCP工具等,这种原生接口对于大数据批量导出性能最好,而且导出的文件还可以在ETL处理过程中进行压缩传输。

对于上亿条记录的大表,那么单个表的导出本身也是一个相当耗时的工作。在这里我们可以考虑对这种大型表进行行拆分和列拆分操作,将一个任务作业拆分为多个子任务,每个子任务在分配到集群中的多个节点机去运行,最好进行数据的汇总处理。在这块暂时没有做过具体的试验,无法预估实际的效果和性能提升情况。

对于ETL中的Transfer部分,在Oracle的ODI工具中我们看到,已经将ETL更多的转换为了ELT模式,即在数据采集完成后在目标端数据库再做具体的数据转换和处理等相关工作。在这种情况下将比传统的ETL方法获取到更高的性能。如果仍然是采用类似ELT模式的数据采集和处理,我们可以考虑将转换规则进行分步骤的拆解,将步骤分解到多台节点机器进行处理再进行最终结果的归并,类似MapReduce的并行计算模式。

总之,对于数据采集部分我们期望达到的就是并行采集,并行写入,同时在处理环节进行数据分流和数据转换。在传输过程中做好数据的压缩,提升数据采集和写入的性能和速度。

对于数据处理和分析部分

对于数据分析部分是两一个很重要的内容,在大数据总体解决方案中也经常谈到数据分析部分的性能问题。在这里有商用的GreenPulm,开源的Hive,也有针对MySQL数据库的开源Infobright等。在这里的几个重点是分布式数据库集群,内存数据库,列式数据库,MPP大规模并行处理,数据库DaaS层,数据查询任务分解和汇聚等关键词。对于数据分析部分最关心的还是在海量数据下面的查询效率问题。

对于数据稽核中存在基于某种规则的实时性的数据分析和一致性比对工作,而这种是典型的海量数据下实时查询和汇总统计过程。因此在我们对目标数据库的考虑上不再是简单的单数据库模式,而应该是一种支撑高性能和线性扩展的数据库集群模式,在这种模式下可以很好的解决数据查询的性能问题。

对于定时处理的数据稽核任务,也存在数据处理的效率问题,对于电信行业话单和计费结算数据的比对分析往往需要7,8个小时才能够完成。说明在数据处理过程中还有很多具体的性能提升点。包括数据稽核规则本身的分解,将稽核任务分配到多个节点去运行然后再进行数据的聚合。个人任务在数据稽核中的数据处理部分MapReduce有很多具体的用武之地,而我们更多的是需要考虑如何对MapReduce框架根据典型的数据稽核规则场景进行更好的二次封装,能够方便规则更加灵活的配置和调度。

对于实时数据分析和比对

对于这个有明确的需求场景,即实时采集数据并动态的监控数据差异化和比对情况。这个将是后续数据稽核平台的一个重要发展点。在这种场景下基本基于一种持续的不落地的数据流处理方式下。对于前面有文章谈到的实时流处理平台如S4和Storm等将有很好的借鉴意义。

实时流处理打破了传统的数据分析和处理的模式,即数据最终积累和落地后再针对海量数据进行拆分处理,然后进行分析统计,传统的模式很难真正达到实时性和速 度要求。而实时流处理模型的重点正是既有类似Hadoop中MapReduce和PIG一样的数据处理和调度引擎,由解决了直接通过输入适配接驳到流的入 口,流实时达到实时处理,实时进行分组汇聚等增量操作。

在这种模式下一个重点就是前面谈到过的对于数据稽核规则需要进行拆分,形成多个可以并行处理的PE任务,对实时达到的数据流进行处理,形成某种结果信息后再向后续节点推送,最终实时的监控和查询数据比对结果。这是一种实时动态监控的模式,对于在实时性要求高的数据质量监控中可以使用。

  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [数据] 推荐:

数据仓库

- Ran - Linux@SOHU
翻译:马少兵、曾怀东、朱翊然、林业. 尽管服务器存储、处理能力得到有效的提高,以及服务器价格的降低,让人们能够负担起大量的服务器,但是商业软件应用和监控工具快速的增加,还是使得人们被大量的数据所困扰. 在数据仓库领域中的许多系统管理员、应用开发者,以及初级数据库管理员发现,他们正在处理“海量数据”-不管你准备与否-都会有好多不熟悉的术语,概念或工具.

数据抽取

- - 数据库 - ITeye博客
转自: http://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%8A%BD%E5%8F%96#.   数据抽取是指从源数据源系统抽取目的数据源系统需要的. 实际应用中,数据源较多采用的是. 数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数 据库中抽取出来,并转换成自己的ETL 工具可以识别的格式.

数据库sharding

- - 数据库 - ITeye博客
当团队决定自行实现sharding的时候,DAO层可能是嵌入sharding逻辑的首选位置,因为在这个层面上,每一个DAO的方法都明确地知道需要访问的数据表以及查询参数,借助这些信息可以直接定位到目标shard上,而不必像框架那样需要对SQL进行解析然后再依据配置的规则进行路由. 另一个优势是不会受ORM框架的制约.

数据脱敏

- - IT瘾-bigdata
作者|李呈祥,其中部分内容由十一城补充. 数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形. 百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护. 这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集.

数据分析之如何用数据?

- - 互联网分析沙龙
光知道怎么看数据,还是不成,你得熟悉这些数据拿到手上之后怎么去用它,怎么让数据显示出来它本身的威力来. 第一个部分,是看历史数据,发现规律. 以社区中的活动和电商中的促销为例,这些都是常见的活动,活动做得好的话有意想不到的效果. 在做这样的活动,最好是拿到前一个月或者两个月的历史数据. 对电商来说,从这里面要去分析各个品类的销售情况,那个品类销量最大,那个品类销量最小,每月或者每周的平均增长率和符合增长率是多少.

excel数据导入mysql数据库

- - 互联网 - ITeye博客
1、excel另存为txt.       选中将要导出的数据列,然后另存为选择其它格式=>文本文件(制表符分割). E:\项目\fblike\game_code_san.txt. 2、txt导入到mysql数据库. load data infile 'E:\\项目\\fblike\\game_code_san.txt' into table game_code_san(code).

数据批量导入Oracle数据库

- - Oracle - 数据库 - ITeye博客
今天学习了一个新的东西,觉得还挺有意思的,也是从别出COPY 的,. SQL*LOADER是大型数据. 仓库选择使用的加载方法,因为它提供了最快速的途径(DIRECT,PARALLEL). 现在,我们抛开其理论不谈,用实例来使. 您快速掌握SQL*LOADER的使用方法.   首先,我们认识一下SQL*LOADER.

数据分析之如何用数据?

- - 人人都是产品经理
光知道怎么看数据,还是不成,你得熟悉这些数据拿到手上之后怎么去用它,怎么让数据显示出来它本身的威力来. 第一个部分,是看历史数据,发现规律. 以社区中的活动和电商中的促销为例,这些都是常见的活动,活动做得好的话有意想不到的效果. 在做这样的活动,最好是拿到前一个月或者两个月的历史数据. 对电商来说,从这里面要去分析各个品类的销售情况,那个品类销量最大,那个品类销量最小,每月或者每周的平均增长率和符合增长率是多少.

Solr从数据库导入数据

- - CSDN博客互联网推荐文章
一. 数据导入(DataImportHandler-DIH). DIH 是solr 提供的一种针对数据库、xml/HTTP、富文本对象导入到solr 索引库的工具包. apache-solr-dataimportscheduler-1.1.jar(增量导入使用). 数据库对应的jdbc驱动包这里使用的是Oracle oracle10g.ja放入Tomcat6.0.36/webapps/sol/WEB-INF/lib 中.

[原]数据仓库元数据管理

- - oycn2010的专栏
元数据管理, 简单的做就是EXCEL结合版本管理等传统工具管理, 专业点就用专门的元数据管理工具;. 数据字典--> 数据知识库. 业务元数据,技术元数据,管理元数据. 参照:SAP元数据管理平台:按业务(角色)分类,按技术类型分类(特征,关键值,DSO,InfoCube),数据流程图. 按照传统的定义,元数据(Metadata)是关于数据的数据.