分布式平台的下的数据模型特征
- - 阿里集团数据平台 alidata.org在讨论分布式平台的数据模型特征之前,我们来看看两个分布式平台和传统数据库之间的差异是什么. 我想一个数仓模型的好坏,除了能否满足业务期望之外,还在于说我们能否充分利用平台的特性让我们的模型运转效率更高. 那么 我们的模型特征是什么. 充分利用分布式环境下的计算能力;. 有助于业务变化的快速实现;. 有助于数据问题的快速查找;.
在讨论分布式平台的数据模型特征之前,我们来看看两个分布式平台和传统数据库之间的差异是什么。
分布式 | 传统DB DW | |
系统& 平台层面差异 | 1、并行处理 | 1、单机或伪分布处理或大型机 |
2、整体可用性好 | 2、整体可用性差 | |
3、meta一致性不好 | 3、meta一致性高 | |
4、无索引 | 4、有索引 | |
5、SQL可优化空间、手段少 | 5、SQL可优化空间和手段多 | |
6、整体数据处理能力强 | 6、整体数据处理能力弱 | |
7、功能实现灵活度高 | 7、功能实现灵活度低 | |
8、平台的开放性好 | 8、平台的开放性差 | |
9、小数据下慢 | 9、小数据下快 | |
数据特征差异 |
1、总体数据量大 | 1、总体数据量小 |
2、脏数据多 | 2、脏数据少 | |
3、非结构数据多 | 3、非结构数据少 | |
4、数据变化快 | 4、数据变化慢 | |
5、数据来源更负责 | 5、数据来源复杂度低 | |
6、数据种类多 | 6、数据种类少 |
我想一个数仓模型的好坏,除了能否满足业务期望之外,还在于说我们能否充分利用平台的特性让我们的模型运转效率更高。
那么 我们的模型特征是什么?
模型计算过程扁平化
优点:
劣势
模型内并行计算能力高
模型脏数据的容错和处理能力高