数据治理(Data Governance)

标签: 数据 治理 data | 发表时间:2013-04-26 08:40 | 作者:
出处:http://www.iteye.com

什么是数据治理

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。
 
数据治理的全过程
数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部门的知识和意见,通过一个类似于监督委员会或项目小组的虚拟组织对企业的信息化建设进行全方位的监管,这一组织的基础是企业高层的授权和业务部门与IT部门的建设性合作。从范围来讲,数据治理涵盖了从前端事务处理系统、后端业务数据库到终端的数据分析,从源头到终端再回到源头形成一个闭环负反馈系统(控制理论中趋稳的系统)。从目的来讲,数据治理就是要对数据的获取、处理、使用进行监管(监管就是我们在执行层面对信息系统的负反馈),而监管的职能主要通过以下五个方面的执行力来保证——发现、监督、控制、沟通、整合
 
如果您将要添加一个多领域 MDM (主数据是指在整个企业范围内各个系统(操作/事务型应用系统以及分析型系统)间要共享的数据)系统并承认 CRM 和 ERP 系统并不是设计用于管理主数据,为何不进行下一步骤并取消它们的创建、更新或删除主数据的功能,而是允许这些系统只能读取和处理主数据呢?{规定某一系统进行数据的录入,其他系统只用该系统的数据。或者另外搞一套系统,专门用来维护公共数据}
 
 
何时开始主动数据治理?
一些情况要求立即开始主动数据治理,例如当您获得多个 CRM 系统和 ERP 系统,它们要求与多领域 MDM 系统集成,以便让它们继续充当录入系统,或当您的当前源系统非常脆弱或很难维护或修改。
在这些情况下,要忍受困难并从一开始便为主动数据治理作出计划。一些组织拥有成千上万个直接在 MDM 系统中授权主数据的最终用户,并且有一个数据管理员团队支持他们、发现异常、解决低质量匹配、在需要时手动合并重复记录等等。另一种应用情况是当您发现自己最终会选择主动数据治理方法 — 何必再为建立源系统到多领域 MDM 系统的双向集成而争论?您或许不妨直接授权最终用户来编写主数据。
 
随着越来越多的企业建立并广泛应用BI系统,数据治理的话题也在最近被越来越多地提及和讨论。有专家表示,只有建立了一定的数据治理体系,用户才会真正进入商业智能的时代。
 

概念:管理举措,持续改善

数据治理(Data Governance),是由企业高级管理层的数据治理委员会发起并推行的,是关于如何进行整个企业内部数据的商业应用和技术管理的一系列政策和程序。数据治理是一套持续改善管理机制,通常包括了组织架构、政策制度、技术工具、数据标准、作业流程、监督及考核等方方面面。

 

 

技术:主题众多,元数据管理先行

       数据治理涉及的IT技术主题众多,包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。

根据权威数据管理研究机构TDWI对数百家国际企业的调研结果,元数据管理的重要性在全部技术主题中位列第一。

元数据管理是语义工具,其重要性在于,它能够为数据治理建立一套数据资料库,存储治理范围内的数据定义,负责人,来源,转换关系,目标,质量等级,依赖关系,安全权限等。这些信息对于商业整合,数据质量,可审计性等数据治理目标的实现至关重要。

元数据管理是实施数据治理的核心IT技术,有效的元数据管理将为数据质量、数据集成等技术的实施,以及数据治理目标的最终实现奠定坚实的基础。

 

 

意义:发掘数据资产的商业价值[数据深度使用]

数据治理是专注于将数据作为企业的商业资产进行应用和管理的一套管理机制,能够消除数据的不一致性,建立规范的数据应用标准,提高组织数据质量,实现数据广泛共享,并能够将数据作为组织的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的商业价值。同时,数据治理将帮助组织更好的遵从内外部有关数据使用和管理的监管法规,如SOX法案,Basel II协议等。良好的数据治理必将为信息化时代的企业带来不可替代的竞争优势。

 

数据治理(Data Governance)是围绕将数据作为企业资产而展开的一系列的具体化工作。数据是企业最大的价值来源,同时也是最大的风险来源,数据管理不佳通常意味着业务决策效果不佳以及更可能面临违规和失窃。而利用规则的可信数据有助于组织的业务创新提供更好的服务,提升客户忠诚度,减少合规及报表要求所需工作,并提升创新能力。

 

数据治理不光是软件,还要有相应的流程、方法。

 

框架包括产出领域:数据风险管理、价值创造;驱动领域:组织机构/流程、管理制度、数据责任人;核心领域:数据质量管理、信息生命周期管理、安全/信息披露/合规;支撑领域:数据模型/数据架构、元数据/主数据/数据标准、质量审计与报告。

 

主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单等。

主数据管理旨在从企业的多个业务系统中整合最核心的需要共享的数据,集中进行数据清洗,并以服务的方式把统一、完整、准确的主数据分发给企业内的操作型应用和分析型应用,包括业务系统、业务流程和决策支持系统等。

 

大数据的特点是3V,即大量化(Volume)、多种类(Variety)和高采集速度(Velocity)。大量化意味着传统的数据质量算法,除非有非常大的性能提升,是难以用在大数据环境下的,因为扫描一次的时间可能都是无法接受的;多种类更增加了这种难度,因为传统的数据质量算法基本上是基于关系数据的,对于象XML、文档、图数据等等类型,目前还没有太好的数据质量算法;高采集速度更是一个严峻的挑战,因为采集过程本来就是数据质量问题的主要来源,采集速度快,又不能及时进行数据质量处理,会导致数据质量问题的堆积,越来越严重。

       同时,数据质量是一个综合性的问题,一般认为其包括三个方面:元数据的质量、数据内容的质量和数据使用方式的质量,而大数据的特点恰恰是元数据的弱化和未来使用方式的不确定性。

 


已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [数据 治理 data] 推荐:

数据治理(Data Governance)

- - ITeye博客
数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程. 数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部门的知识和意见,通过一个类似于监督委员会或项目小组的虚拟组织对企业的信息化建设进行全方位的监管,这一组织的基础是企业高层的授权和业务部门与IT部门的建设性合作.

Big Data(大数据)技术简析

- - 服务器运维与网站架构|Linux运维|互联网研究
Big Data是近来的一个技术热点,但从名字就能判断它并不是什么新词. 历史上,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题. 被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将Big Data挂在嘴边了. 然而,Big Data作为一个专有名词成为热点,主要应归功于近年来互联网、云计算、移动和物联网的迅猛发展.

社交数据(Social Data)的变革

- - SocialBeta
本文译者张宇,博晓通科技联合创始人,研究垂直搜索应用,关注社交媒体发展,注重语义技术落地,喜欢社交数据分析. 微博交流 @inter3i社交媒体分析. 2009年,个人生成的数据比自有史以来到2008年为止所有人类产生数据都多(原文未提出处). 整个世界已经目睹了消费者数据问询和收集方式的两次次重大变革.

Avoiding Data Loss - 避免Kafka数据丢失

- -
If for some reason the producer cannot deliver messages that have been consumed and committed by the consumer, it is possible for a MirrorMaker process to lose data..

Data Structure Visualizations: 数据结构及算法可视化工具

- tiger - 黑客志
Data Structure Visualizations是旧金山大学的David Galles开发的一个以可视化方式演示数据结构和算法的非常棒的工具,可以很好的帮助你理解这些抽象的数据结构和算法,不管你是需要应付考试的CS学生,还是需要对付一些公司的变态面试题的上班族,你都会发现这是一个非常有用的工具,并且这个工具同时提供Java,Flash,以及基于HTML5的Web版本.

文章: 数据集成的演化:从EII到Big Data

- - InfoQ cn
 “企业信息集成(EII):实用方式”于2005年发布,描述了一套集成不同数据源的方法论,它利用了当时的先进技术,如面向服务架构(SOA)、Web Services、XML、资源描述架构(RDF)、基于XML的元数据格式、数据提取、转换和加载(ETL)等. EII基本能够为关系型数据元素提供统一视角,但在性能效率上还无法替代数据仓库和多维数据库.

oracle 11g Flashback Data Archive(闪回数据归档)

- - CSDN博客数据库推荐文章
Flashback Data Archive(闪回数据归档). UNDO表空间记录的回滚信息虽然可以提供回闪查询,但时间久了,这些信息会被覆盖掉,其实只要事务一提交,他们就变成可覆盖的对象了,所以经常在做回闪查询时,我们会因为找不到undo block而收到1555错误,11G里面引入了Flashback Data Archive ,他用于存储数据的所有改变,时间由你自己设定,消耗的是更多的磁盘空间,现在来看下这个特性.

使用Percona Data Recovery Tool for InnoDB恢复数据

- - OurMySQL
   昨晚收到一则求助,一个用户的本地数据库的重要数据由于误操作被删除,需要进行紧急恢复,用户的数据库日常并没有进行过任何备份,binlog也没有开启,所以从备份和binlog入手已经成为不可能,咨询了丁奇,发了一篇percona的 文章给我,顿时感觉有希望,于是到percona的官网上下载了 恢复工具:.

七个用于数据科学(data science)的命令行工具

- - 博客 - 伯乐在线
数据科学是 OSEMN(和 awesome 相同发音),它包括获取(Obtaining)、整理(Scrubbing)、探索(Exploring)、建模(Modeling)和翻译(iNterpreting)数据. 作为一名数据科学家,我用命令行的时间非常长,尤其是要获取、整理和探索数据的时候. 而且我也不是唯一一个这样做的人.

大数据从“小”做起——中小企业Big Data解决之道

- - 弯曲评论
本文是最新的拙作,希望能大家能提点意见^_^. 任何一个时代或者模式的兴起,都离不开与之相关的Killer App,比如,C/S时代的SAP ERP,互联网 1.0 时代的门户,以及互联网 2.0时代的搜索和SNS等,那么在当今云计算这个时代有那些Killer App呢. 当然首当其冲的肯定是以VMware 和Amazon EC2为代表的虚拟化和相关IaaS服务,除此之外,新近崛起的大数据绝对也是云计算的Killer App之一,并且不仅类似百度、阿里以及腾讯这样的互联网巨头有相关的应用需求,而且根据我个人平时与客户接触,发现有很多普通中小企业,特别是中型的互联网和物联网企业,在这方面的场景也有很多.