有道精品课实时数据中台建设实践

标签: 技术分享 大数据 有道精品课 | 发表时间:2021-05-21 15:00 | 作者:youdao
出处:http://techblog.youdao.com

撰文/ 李荣谦

编辑/ Ryan

来源:有道技术团队(ID: youdaotech)

0 序言

本期文章中,有道精品课技术团队将和大家分享有道精品课 数据中台的架构演进过程以及 Doris 作为一个 MPP 分析型数据库是如何为不断增长的业务体量提供有效支撑并进行数据赋能的。

本文以我们在实时数仓选型的经验为切入点,进一步着重分享使用 Doris 过程中遇到的问题,以及我们针对这些问题所做出的调整和优化。

1 背景概述

1.1 业务场景

根据业务需求,目前有道精品课的数据层架构上可分为 离线实时两部分。

离线系统主要处理埋点相关数据,采用批处理的方式定时计算。而实时流数据主要来源于各个业务系统实时产生的数据流以及数据库的变更日志,需要考虑数据的准确性、实时性和时序特征,处理过程非常复杂。

有道精品课数据中台团队依托于其实时计算能力在整个数据架构中主要承担了实时数据处理的角色,同时为下游离线数仓提供实时数据同步服务。

数据中台主要服务的 用户角色和对应的 数据需求如下:

  1. 运营/策略/负责人主要查看学生的整体情况,查询数据中台的一些课程维度实时聚合数据;
  2. 辅导/销售主要关注所服务学生的各种实时明细数据;
  3. 品控主要查看课程/老师/辅导各维度整体数据,通过T+1的离线报表进行查看;
  4. 数据分析师对数据中台 T+1 同步到离线数仓的数据进行交互式分析;

1.2 数据中台前期系统架构及业务痛点

如上图所示,在数据中台1.0架构中我们的实时数据存储主要依托于 Elasticsearch, 遇到了以下几个问题:

  1. 聚合查询效率不高
  2. 数据压缩空间低
  3. 不支持多索引的 join,在业务设计上我们只能设置很多大宽表来解决问题
  4. 不支持标准 SQL,查询成本较高

2、实时数仓选型

基于上面的业务痛点,我们开始对实时数仓进行调研,调研了 Doris、ClickHouse、TiDB+TiFlash、Druid、Kylin,考虑到查询性能、社区发展、运维成本等多种因素,我们最后 选择 Doris 作为我们的实时数仓。

3、基于Apache Doris的数据中台2.0

3.1 架构升级

在完成了实时数仓的选型后,我们针对 Doris 做了一些 架构上的改变,以发挥它最大的作用,主要分为以下几个方面:

>>>>Flink双写

将所有 Flink Job 改写,在写入Elasticsearch的时候旁路输出一份数据到 Kafka,并对复杂嵌套数据创建下游任务进行转化发送到 Kafka,Doris 使用 Routine Load 导入数据。

>>>>Doris On Es

由于之前我们的实时数仓只有 Es,所以在使用 Doris 的初期,我们选择了通过 Doris 创建 Es 外表的方式来完善我们的 Doris 数仓底表,同时也降低了查询成本,业务方可以无感知的使用数仓底表。

>>>>数据同步

原来我们使用 Es 的时候,由于很多表没有数据写入时间,数据分析师需要每天扫全表导出全量数据到 Hive,这对我们的集群有很大压力,并且也会导致数据延迟上升,我们在引入了 Doris 后,对所有数仓表都添加 eventStamp, updateStamp, deleted 这三个字段。

  • eventStamp:事件发生时间
  • updateStamp:Doris数据更新时间,在Routine Load中生成
  • deleted:数据是否删除,由于我们很多实时数仓需要定时同步到离线数仓,所以数据需要采取软删除的模式。

数据同步我们采用了多种方式,通过 hive 表名后缀来决定不同同步场景:

  • _f:每天/每小时全量同步,基于 Doris Export 全量导出
  • _i:每天/每小时增量同步,基 于Doris Export 按分区导出/网易易数扫表导出
  • _d:每天镜像同步,基于 Doris Export 全量导出

>>>>指标域划分/数据分层

将 Elasticsearch 中的数据进行整理并结合后续的业务场景,我们划分出了如下 四个指标域:

根据上面的指标域,我们基于星型模型开始构建实时数仓,在 Doris 中构建了20余张数仓底表以及10余张维表, 通过网易易数构建了完整的指标系统。

>>>>定时生成 DWS/ADS 层

基于 Doris insert into select 的导入方式,我们实现了一套定时根据 DWD 层数据生成 DWS/ADS 层数据的逻辑,延迟最低可以支持到分钟级。

>>>数据血缘

我们基于 Routine Load 和 Flink 实现了数据中台完善的数据血缘,供数据开发/数据分析师进行查询。

3.2 数据中台2.0架构

基于围绕 Doris 的系统架构调整,我们完成了 数据中台2.0架构:

  • 使用网易易数数据运河替换 Canal,拥有了更完善的数据订阅监控
  • Flink计算层引入 Redis/Tidb 来做临时/持久化缓存
  • 复杂业务逻辑拆分至 Grpc 服务,减轻Flink中的业务逻辑
  • 数据适配层新增 Restful 服务,实现一些 case by case 的复杂指标获取需求
  • 通过网易易数离线调度跑通了实时到离线的数据同步
  • 新增了数据报表/自助分析系统两个数据出口

数据中台2.0架构的数据流转如下图所示:

我们对数据中台整体架构进行梳理, 整体结构如下图所示:

4、Doris带来的收益

1. 数据导入方式简单,我们针对不同业务场景使用了三种导入方式:

  • Routine Load:实时异步数据导入
  • Broker Load:定时同步离线数仓数据,用于查询加速
  • Insert into:定时通过 DWD 层数仓表生成 DWS/ADS 层数仓表

2. 数据占用空间降低,由原来Es中的1T左右降低到了200G左右。

3. 数仓使用成本降低:

Doris 支持 Mysql 协议,数据分析师可以直接进行自助取数,一些临时分析需求不需要再将 Elasticsearch 数据同步到 Hive 供分析师进行查询。

一些在 Es 中的明细表我们通过 Doris 外表的方式暴露查询,大大降低了业务方的查询成本。

同时,因为 Doris 支持 Join,原来一些需要查询多个 Index 再从内存中计算的逻辑可以直接下推到 Doris 中,提升了查询服务的稳定性,加快了响应时间。

聚合计算速度通过物化视图和列存优势获得了较大提升。

5、上线表现

目前已经上线了数十个实时数据报表,在线集群的 P99 稳定在 1s 左右。同时也上线了一些长耗时分析型查询,离线集群的 P99 稳定在 1min 左右。

同时,也形成了一套完善的开发体系使数据需求的日常迭代更加迅速。

6、总结规划

Doris 的引入推进了有道精品课数据分层的构建,加速了实时数仓的规范化进程,数据中台团队在此基础上一方面向全平台各业务线提供统一的数据接口,并依托于 Doris 生产实时数据看板,另一方面定时将实时数仓数据同步至下游离线数仓供分析师进行自助分析,为实时和离线场景提供数据支撑。

对于后续工作的开展, 我们做了如下规划:

  • 基于Doris明细表生成更多的上层聚合表,降低Doris计算压力,提高查询服务的整体响应时间。
  • 基于Flink实现Doris Connector,实现Flink对Doris的读写功能
  • 开发Doris On Es支持嵌套数据的查询。

最后,感谢各业务方对数据中台的支持,目前数据中台还在迅速发展中,欢迎志同道合的朋友加入我们。

相关 [有道 精品 实时] 推荐:

有道精品课实时数据中台建设实践

- - 有道技术沙龙博客
来源:有道技术团队(ID: youdaotech). 本期文章中,有道精品课技术团队将和大家分享有道精品课 数据中台的架构演进过程以及 Doris 作为一个 MPP 分析型数据库是如何为不断增长的业务体量提供有效支撑并进行数据赋能的. 本文以我们在实时数仓选型的经验为切入点,进一步着重分享使用 Doris 过程中遇到的问题,以及我们针对这些问题所做出的调整和优化.

Xbox LIVE独立游戏系列精品推荐:精品佳作

- way - 独立星球
看到本文的标题,也许有些读者会有个疑问:「独立游戏」是什么呢?就像音乐界有独立音乐、电影界有独立电影一样,相对于主流商业游戏公司,由个人或者小团队、小公司自己制作出来的游戏,就可以称之为独立游戏. 在过去,由于游乐器平台需要向主机发行商取得开发授权、购买高价的开发机才能够进行正规的开发作业,个人或者小型团队并无力负担,就算是采用非官方的开发工具来开发,也会碰上成品难以散布推广的问题,因此多年来独立游戏的主要发展平台都是在个人电脑上.

10套免费精品WordPress主题

- - 软矿
今天为大家推荐10套免费的精品Wordpress主题,这些主题都有一个特征,就是主题能够根据显示设备进行自动调整以适应显示. 如今平板设备,移动设备越来越多,Wordpress应该必备这样的功能. 虽然这10套Wordpress主题是免费主题,但是功能和设计一点不逊色于一些所谓的“付费”主题,甚至比一些付费主题还要优秀得多.

“推荐系统”精品资料合集

- - 快课网
推荐系统的搭建是个复杂工程,涉及到实时计算、离线计算,以及各种数据采集、流转等,对自建推荐系统来说,更是很有困难. 云栖社区将在6月16日晚20点组织一场在线分享 《21天搭建推荐系统》,主要介绍推荐系统基本原理,并以阿里云推荐引擎为基础,展示如何快速搭建推荐系统. 为了帮助大家做好内容知识储备,云栖社区收集整理了一批学习资料,希望对大家学习推荐系统有所帮助,内容主要包括杂志、优秀的知乎问答、优秀图书及优秀博文.

网易有道推出类似Evernote产品:有道笔记

- boho - 36氪
网易旗下有道今天正式推出了云笔记本产品:有道笔记. 功能类似Evernote,支持桌面客户端、网页版、手机网页版和手机客户端间的笔记同步. 本次发布包括网页版、Wap版和PC桌面客户端,从网站上看还有iPhone客户端,不过点进去显示「敬请期待」. 网页版和客户端支持笔记的编辑、同步、管理和搜索,Wap版功能稍弱,可实现浏览、编辑和同步.

100个Google终极技巧【精品转载】

- Stanley - 博客园-网站分类-所有随笔
1.更加全面地用Google搜索的最好方式是点击高级搜索. 2.它可以让你搜索更加精准的词组,“所有词组”或者是适当的搜索框里输入词组的某一个特定关键词. 3.在高级搜索里你依然可以自定义在一张页面上展示多少个搜索结果,你所寻找的信息语言和文件格式. 4.“搜索以下网站或网域”可以让你通过输入一个顶级域名(如.co.uk)来限定搜索结果.

精品免费商业PSD网站模板(15个)

- mk - 小建の软件园
网上很多比较好的商业PSD网站模板都是付费购买下载使用,小建收集了15个非常漂亮而且免费下载的精品免费商业PSD网站模板,包括商品展示类、软件网站类、音乐影视类、个人博客类、商业官方网类等类型模板,各位需要的童鞋赶快下载收藏吧. 下载地址:1-5套PSD模板   |   6-10套PSD模板   |   11-15套PSD模板   |   来自小建の软件园.

100个Google终极技巧【精品转载】

- 潜龙入海 - FeedzShare
来自: 博客园-首页原创区 - FeedzShare  . 发布时间:2011年01月22日,  已有 4 人推荐. 1.更加全面地用Google搜索的最好方式是点击高级搜索. 2.它可以让你搜索更加精准的词组,“所有词组”或者是适当的搜索框里输入词组的某一个特定关键词. 3.在高级搜索里你依然可以自定义在一张页面上展示多少个搜索结果,你所寻找的信息语言和文件格式.

10个精品Android(安卓)主题下载

- Choope - 小建の软件园
今天带来10个Android(安卓)主题下载,图标、界面等都制作的非常漂亮,风格多样,卡通、景色、商务、非主流、炫酷等类别都有,拥有Android(安卓)手机的童鞋不容错过. 下载地址:1-5套Android(安卓)主题   |   6-10套Android(安卓)主题下载   |   小建の软件园.

西藏——人间的天堂…【精品美图】

- Jerry - 纯情即堕;纯想即飞
    西藏的风景是变化无穷的. 季节的更替使西藏拥有了多种截然不同的主题;天气的变换使同一个地点的风景有无穷多种变幻;动物的迁徙使西藏的风景有了生机. 这里有荒芜的高原,有一望无际的原野,有丰茂的绿林,也有高耸入云的雪山;这里还有奇特的寺院,有精美的壁画,有睿智的喇嘛,有虔诚的信徒……游在西藏,人们只有时间上的限制,却没有空间上的限制.