HDFS+Clickhouse+Spark：从0到1实现一款轻量级大数据分析系统

- - InfoQ推荐

导语 | 在产品精细化运营时代，经常会遇到产品增长问题：比如指标涨跌原因分析、版本迭代效果分析、运营活动效果分析等. 这一类分析问题高频且具有较高时效性要求，然而在人力资源紧张情况，传统的数据分析模式难以满足. 本文尝试从0到1实现一款轻量级大数据分析系统——MVP，以解决上述痛点问题. 文章作者：数据熊（笔名），腾讯云大数据分析工程师.

ClickHouse Better Practices

- - 简书首页

经过一个月的调研和快速试错，我们的ClickHouse集群已经正式投入生产环境，在此过程中总结出了部分有用的经验，现记录如下. 看官可去粗取精，按照自己项目中的实际情况采纳之. （版本为19.16.14.65）. 因为我们引入ClickHouse的时间并不算长，还有很多要探索的，因此不敢妄称“最佳实践”，还是叫做“更佳实践”比较好吧.

HDFS-压缩

- - Java - 编程语言 - ITeye博客

文件压缩带来了两大益处1）减少存贮空间2)加速网络(磁盘）传输. 基于大数据的传输，都需要经过压缩处理. 压缩格式工具算法文件扩展名可分块. Java代码复制代码收藏代码. 24. // io.compression.codecs 定义列表中的一个 . Native gzip 库减少解压缩时间在50%，压缩时间在10%(同java实现的压缩算法).

HDFS架构

- - 数据库 - ITeye博客

在阅读了GFS的论文之后，对GFS的框架有了基本的了解，进一步学习自然是对HDFS的解析，不得不说，之前对GFS的一些了解，对理解HDFS还是很有帮助的，毕竟后者是建立在前者之上的分布式文件系统，二者在框架上可以找到很多的共同点，建议初次接触HFDS的技术人员可以先把GFS的那篇论文啃个两三遍，毕竟磨刀不砍柴工.

Hadoop剖析之HDFS

- - CSDN博客数据库推荐文章

Hadoop的分布式文件系统（HDFS）是Hadoop的很重要的一部分，本文先简单介绍HDFS的几个特点，然后再分析背后的原理，即怎样实现这种特点的. 这是HDFS最核心的特性了，把大量数据部署在便宜的硬件上，即使其中某些磁盘出现故障，HDFS也能很快恢复丢失的数据. 这个的意思是HDFS适合一次写入，多次读取的程序，文件写入后，就不需要修改了.

blong/clickhouse .md at master · xingxing9688/blong · GitHub

- -

https://clickhouse.yandex/tutorial.html快速搭建集群参考. https://clickhouse.yandex/reference_en.html官网文档. https://habrahabr.ru/company/smi2/blog/317682/关于集群配置参考.

Hoop：Hadoop HDFS的RESTFul封装

- Vent - NoSQLFan

Hoop是对Hadoop HDFS Proxy 的改良重写，为Hadoop HDFS提供了HTTP(S)的访问接口. 通过标准的HTTP协议访问你的HDFS系统. 在运行不同版本的HDFS之间进行数据交换（这克服了一些RPC方式因版本不同而产生的兼容性问题）. 将对HDFS的操作置于防火墙的保护下.

[转]HDFS用户指南

- - 小鸥的博客

本文档可以作为使用Hadoop分布式文件系统用户的起点，无论是将HDFS应用在一个Hadoop集群中还是作为一个单独的分布式文件系统使用. HDFS被设计成可以马上在许多环境中工作起来，那么一些HDFS的运行知识肯定能大大地帮助你对一个集群做配置改进和诊断. HDFS是Hadoop应用的主要分布式存储.

UNIX Domain Socket是在socket架构上发展起来的用于同一台主机的进程间通讯（IPC），它不需要经过网络协议栈，不需要打包拆包、计算校验和、维护序号和应答等，只是将应用层数据从一个进程拷贝到另一个进程. UNIX Domain Socket有SOCK_DGRAM或SOCK_STREAM两种工作模式，类似于UDP和TCP，但是面向消息的UNIX Domain Socket也是可靠的，消息既不会丢失也不会顺序错乱.

Hadoop之HDFS子框架

- - CSDN博客云计算推荐文章

由图片可以看到HDFS主要包含这样几个功能组件. Namenode:存储文档的元数据信息，还有整个文件系统的目录结构. DataNode:存储文档块信息，并且文档块之间是有冗余备份的. 这里面提到了文档块的概念，同本地文件系统一样，HDFS也是按块存储的，只不过块的大小设置的相对大一些，默认为64M.

HDFS+Clickhouse+Spark：从0到1实现一款轻量级大数据分析系统

一、背景及问题

二、解决办法

三、技术实现

1. 数据建模

2. 技术选型

3. 页面交互

4. 应用效果

5. 总结

MVP乘风出海，结合先悉数据平台服务产业端

相关 [hdfs clickhouse spark] 推荐：