大众点评数据平台架构变迁

标签: BI/DW/DP | 发表时间:2015-11-05 02:02 | 作者:
出处:http://my.oschina.net/leejun2005

最近和其他公司的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性。

以下从 数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结,希望对还处在数据平台发展初期的同学有一些帮助,欢迎线下沟通。

1、1.0(2012.07)

1.1 数据:

1. 以支持用户报表需求为主

2. 初步沉淀出了一些底层模型

3. 模型计算程序以python为主

1.2 架构:

1. 存储和计算都在GreenPlum

2. GreenPlum采用双集群热备,一大一小,部分关键报表数据同时在两个集群存储、计算。

3.传输:公司的DBA同学将数据从Mysql、SQLServer拉出来,落地成文件。传输程序每天凌晨解析落地的文件,然后将数据load到greenplum

4.调度:使用Quartz框架,依赖关系存放到表中,将依赖检查做成一个脚本,下游job 调用方法check上游任务是否完成

5.监控:用户程序自主判断异常,邮件、手机报警。

1.3 数据应用:

1.报表数据以邮件的形式发送给用户

2.用户可以使用自定义sql的web查询工具主动查询数据

2、2.0(2013.04)

2.1 数据:

1. 有了明确的模型分层:

 a) ODS:存放从原系统采集来的原始数据

b) DW:保存经过清洗,转换和重新组织的历史数据,数据将保留较长时间,满足系统最细粒度的查询需要

c) DM: 数据集市。基于部门或某一特定分析主题需要

d) RPT:直接面向用户的报表

2. 形成了流量、团购、信息三大基础模型及构建于三大基础模型之上的数据集市

3. 基于volocity开发了canaan计算框架。

4. 开发了一些自定义的UDF

2.2 架构:

1. 存储和计算都基于HIVE

2. GREENPLUM作为HIVE的“cache”存在,供用户做一些小数据的快查询,报表存储。

3. 调度:和canaan框架进行整合,支持用户快速新增任务,并自动导入任务依赖。

4. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互。

5. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等。

6. 传输:

a)参考阿里DataX的设计,实现了点评的异构数据离线传输工具wormhole

b)可视化界面,用户通过界面操作,方便的将数据导入导出数据

c)和调度、主数据等系统打通

7. 监控:由于任务数量增长较快(2000+),运维已经是个问题此外,因此,我们花了较大精力做了可视化的工作:

 

2.3 数据应用

1. 运营工具:用户自定义SQL,存储基于HIVE

2. 指标(KPI):用户自定义SQL,计算基于HIVE,结果放到GREENPLUM中,用户可以根据指标通过时间拼接成报表

3. HIVE WEB:非常便捷的HIVE WEB工具,可用性可以甩hive原生的web界面HWI几条街了

3、3.0(2013.12)

3.1 数据:

1. 有了明确的上层数据集市,各层数据集市打通,例如团购数据和流量数据打通

2. 形成了用户集市、商户集市两大主题

3. 和算法团队合作建设推荐系统

4. 提供框架和工具支持,引入外部数据开发者

3.2 架构:

1. 引入mysql、hbase,支持线上服务

2. 数据访问接口支持:API、Query Engine、RPC Service

3. 引入shark支持临时查询,出于稳定性考虑,牺牲性能,shark/spark集群和hadoop/hive集群物理隔离

4. 数据质量:用户指定以条件,对计算结果做检查

3.3 数据产品:

支持DashBoard

4、4.0(2014.12)

4.1 数据:

1. 持续扩充/完善数据模型
2. 数据规范化,主要包括:APP日志、渠道
3. 完善数据开发平台,其他部门数据开发者100+

4.2 架构:

1. 建设Redis Cluster,支持实时推荐、用户画像等服务
2. Hadoop升级到YARN
3. 引入Storm支持实时计算
4. 推出类Kafka的分布式消息系统,结合日志框架,支持日志数据的快速/低成本接入
5. 建设元数据中心

4.3 数据产品:

推出专有数据产品,包括:运营效果评估、流量分析产品等。

Refer:

[1] 大众点评数据平台架构变迁

http://dwz.cn/28oSBm

[2] 饿了么数据仓库治理及数据使用

http://www.infoq.com/cn/presentations/data-warehouse-management-and-data-use-of-eleme

相关 [大众点评 数据 平台] 推荐:

大众点评数据平台架构变迁

- - leejun_2005的个人页面
最近和其他公司的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性. 以下从 数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结,希望对还处在数据平台发展初期的同学有一些帮助,欢迎线下沟通. 模型计算程序以python为主.

开发者眼中的大众点评开放平台:欲迎还拒

- - ITeye资讯频道
在经过了数月准备之后,大众点评正式宣布开放平台( developer.dianping.com). 这家被称为“慢公司”的互联网公司终于走出了开放的第一步,开始向第三方开放本地商户信息、最新点评、优惠、团购等内容. 一位开发者在详细了解开放细则之后向新浪科技深度吐槽,分享他眼中的大众点评开放平台. 以下为开发者口述,新浪创事记整理.

2010:数字盘点大众点评

- - 互联网旁观者
说明:这是一篇旧闻了,转载自大众点评的官方博客( http://blog.dianping.com/archives/77),基本数据还是很有参考意义的. 2010年,有您的支持和关注,大众点评网的各项业务获得高速发展:网站访问获得持续快速增长,成功开拓了团购这一新兴用户服务,并在手机应用这一新兴平台取得了一系列的突破.

Android 大众点评的接入

- - CSDN博客推荐文章
这里介绍的是大众点评的团购中的一个接口,就是所有团购信息,其他的接口的实现是大同小异的. 首先,登录大众点评的开发平台-> 大众点评 . 然后获取到自己的应用的appkey和secret,这个是开发必备的. 可以下载大众点评提供的demo-> demo . DZDPApiTool.java 大众点评提供的Api工具类(请求api -> requestApi这个方法).

口碑网VS大众点评,我的生活谁做主?大众点评!

- wangjia - Tech2IPO
HT实验室观点:口碑网与大众点评均是生活服务类软件,也都是希望为消费者提供一个评论分享、消费指南的平台. 且不管两家在线上线下的服务及数据库等建设如何,就安卓版的App本身来看,大众点评能给用户带来的帮助更大,其用户体验也更好. 因此可以说,我们的生活,暂且应该由大众点评来做主. 大众点评网的定位是“中国最大的本地搜索和城市消费门户网站”;口碑网的定位是“致力于打造生活服务领域的电子商务第一品牌”,并号称是“中国最大的生活搜索引擎”.

Visual.ly:可视化数据探索平台

- kaichun - TechWeb 新酷网站 RSS阅读
Visual.ly相关图片(图片来源:Techweb.com.cn).   【TechWeb报道】4月12日消息,新酷网站:可视化数据探索平台Visual.ly.   我们生活在数据收集和内容创作的时代. Visual.ly正是这个数据时代当产物,一个全新的可视化信息图形新平台. 信息图形将极大的刺激视觉表现,促进用户间相互学习、讨论.

数据分析平台系统架构

- - 企业架构 - ITeye博客
      大数据技术是近几年发展比较繁荣的技术方向,出了很多优秀的开源项目,也有越来越多的公司投入大量人力在其中. 认识到数据的重要性,数据分析平台系统也成为数据平台重点建设的项目,数据分析被广泛应用到电商、金融、教育、医疗领域. 开源的OLAP数据分析引擎:. 1.2 wedata系统架构图. 已有 0 人发表留言,猛击->> 这里<<-参与讨论.

大数据下的数据分析平台架构

- vento - 《程序员》杂志官网
随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求. 作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”. 多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上.