支撑700亿数据量的ClickHouse高可用架构实践

- - InfoQ推荐

讲师介绍：蔡岳毅，携程旅行网酒店研发中心高级研发经理，资深架构师，负责酒店大住宿数据智能平台，商户端数据中心以及大数据的创新工作. 大家好，我是来自携程的蔡岳毅，今天给大家分享ClickHouse在我们大数据平台的应用，主要从应用的角度来介绍我们的高可用架构. 其实这个百亿，我没太纠结，来之前我查了一下，现在我的平台上面是将近700亿数据，压缩前是8T，存储是压缩后1.8T.

Greenplum VS ClickHouse (单表11亿数据)

- -

公司的一个报表业务，数据量比较大，用户使用频繁. 为了更好的用户体验，我们之前尝试过多种技术：MongoDB、ElasticSearch、Greenplum 等，但是一直没办法做到大部分查询秒级响应. 前段时间探索了很多大数据产品，无意中发现 ClickHouse，很快就被其极致的性能所吸引. 在一番实验和研究后，我们决定用 ClickHouse 解决这个历史债务.

ClickHouse集群数据在写入时，虽然可以通过 Distributed引擎的 sharding_key指定策略，从而保证一定程度的数据均衡，但这并不是最终解决方案. 比如 rand()均衡策略虽然可以保证数据的相对均衡，但是可能会破坏数据的内在业务逻辑. 举个简单的例子，我们想要将 kafka的数据写入 clickhouse集群，如果采用 rand()的策略，则可能将同一个 partition的数据拆分到 clickhouse集群不同的 shard中，为后续的数据分析等造成了一定的麻烦.

趣头条基于Flink+ClickHouse打造实时数据分析平台

- -

趣头条一直致力于使用大数据分析指导业务发展. 目前在实时化领域主要使用 Flink+ClickHouse 解决方案，覆盖场景包括实时数据报表、Adhoc 即时查询、事件分析、漏斗分析、留存分析等精细化运营策略，整体响应 80% 在 1 秒内完成，大大提升了用户实时取数体验，推动业务更快迭代发展. Flink to Hive 的小时级场景.

基于ClickHouse造实时计算引擎，百亿数据秒级响应！

- -

为了能够实时地了解线上业务数据，京东算法智能应用部打造了一款基于ClickHouse的实时计算分析引擎，给业务团队提供实时数据支持，并通过预警功能发现潜在的问题. 本文结合了引擎开发过程中对资源位数据进行聚合计算业务场景，对数据实时聚合计算实现秒级查询的技术方案进行概述. ClickHouse是整个引擎的基础，故下文首先介绍了ClickHouse的相关特性和适合的业务场景，以及最基础的表引擎MergeTree.

ClickHouse Better Practices

- - 简书首页

经过一个月的调研和快速试错，我们的ClickHouse集群已经正式投入生产环境，在此过程中总结出了部分有用的经验，现记录如下. 看官可去粗取精，按照自己项目中的实际情况采纳之. （版本为19.16.14.65）. 因为我们引入ClickHouse的时间并不算长，还有很多要探索的，因此不敢妄称“最佳实践”，还是叫做“更佳实践”比较好吧.

HDFS+Clickhouse+Spark：从0到1实现一款轻量级大数据分析系统

- - InfoQ推荐

导语 | 在产品精细化运营时代，经常会遇到产品增长问题：比如指标涨跌原因分析、版本迭代效果分析、运营活动效果分析等. 这一类分析问题高频且具有较高时效性要求，然而在人力资源紧张情况，传统的数据分析模式难以满足. 本文尝试从0到1实现一款轻量级大数据分析系统——MVP，以解决上述痛点问题. 文章作者：数据熊（笔名），腾讯云大数据分析工程师.

blong/clickhouse .md at master · xingxing9688/blong · GitHub

- -

https://clickhouse.yandex/tutorial.html快速搭建集群参考. https://clickhouse.yandex/reference_en.html官网文档. https://habrahabr.ru/company/smi2/blog/317682/关于集群配置参考.

HBASE数据架构

- - 数据库 - ITeye博客

关系数据库一般用B+树，HBASE用的是LSM树. MYSQL所用类B+树一般深度不超过3层，数据单独存放，在B+树的叶节点存储指向实际数据的指针，叶节点之间也相互关联，类似双向链表. 这种结构的特点是数据更新或写入导致数据页表分散，不利于顺序访问. LSM存储中，各个文件的结构类似于B+树，但是分多个存在内存或磁盘中，更新和写入变成了磁盘的顺序写，只在合并时去掉重复或过时的数据.

再谈数据架构

- - 人月神话的BLOG

本篇为杂谈，主要是想谈下企业架构中数据架构部分的一些关键点. 首先在TOGAF的ADM方法论中将数据架构部分的内容放在了信息系统架构-数据架构部分，这个方式是不合适的. 前面一直强调了企业架构的两条重要线索，一个是流程，一个是数据，这两者都是既涉及到业务架构部分，也涉及到应用架构部分. 在最终架构的分析和分解，业务建模到IT实现的转换过程中，自然就会过渡到应用架构部分的内容.

支撑700亿数据量的ClickHouse高可用架构实践

一、为什么选择ClickHouse

根据实际业务场景需要来选择

1、不固定的查询条件，不固定的汇总维度。

2、数据量日益增量，每天要更新的数据量也不断增大

3、业务场景不断增多，涉及面越来越广。

4、需要保证高可用并秒出。

5、从SQL、ES、Kylin、Ingite、CrateDB、MongoDB、HBase 不断的研究，实践。

ClickHouse的特点

1、优点

1）数据压缩比高，存储成本低。

2）支持常用的SQL语法，写入速度非常快，适用于大量的数据更新

3）依赖稀疏索引，列式存储，CPU/内存的充分利用造就了优秀的计算能力，并且不用考虑左侧原则

2、缺点

1）不支持事务，没有真正的update/delete

2）不支持高并发，可以根据实际情况修改qps相关配置文件

二、ClickHouse在大数据平台的应用

ClickHouse在酒店数据智能平台的架构

ClickHouse的全量数据同步流程

ClickHouse的增量数据同步流程

针对ClickHouse的保护机制

ClickHouse集群架构

1、数据读取通过应用程序做负载平衡

2、虚拟集群最少两台机器在不同的机房

3、数据独立，多写，相互不干扰

4、灵活创建不同的虚拟集群用于适当的场合

5、随时调整服务器，新增/缩减服务器

采用ClickHouse后平台的查询性能

ClickHouse应用小结

1、数据导入之前要评估好分区字段

2、数据导入提前根据分区做好排序，避免同时写入过多分区导致clickhouse内部来不及Merge

3、左右表join的时候要注意数据量的变化

4、根据数据量以及应用场景评估是否采用分布式

5、监控好服务器的CPU/内存波动

6、数据存储磁盘尽量采用SSD

7、减少数据中文本信息的冗余存储

8、特别适用于数据量大，查询频次可控的场景，如数据分析、埋点日志系统

三、ClickHouse当前存在的问题和规划

需要解决的问题：

1、部分场景下内存泄漏

2、历史数据更新的CPU消耗问题。

3、死锁问题

建议性问题：

1、如何保证高优先级的表在服务器维护后第一时间投入生产应用的问题?

新功能的实践：

1、20.9的新版支持订阅MySQL的binlog方式同步数据

2、查看执行计划

Q&A

相关 [数据 clickhouse 架构] 推荐：

相关文章

订阅