设计数据密集型应用-Data-Intensive Application_王 炸的博客-CSDN博客

标签: | 发表时间:2021-08-17 22:37 | 作者:
出处:https://blog.csdn.net

不懂数据库的全栈工程师不是好架构师              —— Vonng

周六停更 Spring Boot 从入门到实践系列教程

读一本好书《设计数据密集型应用》- Designing Data-Intensive Application

简称: DDIA        

                                                            在正确的时候读一本合适的书是一种幸运~

  • 作者: Martin Kleppmann

  • 原书名称:《Designing Data-Intensive Application》

  • 译者:冯若航

  • Gitbook地址:https://legacy.gitbook.com/book/vonng/ddia-cn/details(需要科学上网)

  • 建议使用Typora或Gitbook以获取最佳阅读体验。                                                                                                                                                           

 

这本书的作者是少有的从工业界干到学术界的牛人,知识面广得惊人,也善于举一反三,知识之间互相关联,比如有个地方把读路径比作programming language的lazy evaluation而写路径比作eager evaluation,令人拍案。这一本数囊括了几乎所有数据处理相关工作中可能遇到了的内容,而且也有非常棒的实操经验。比如书的一开始,作者反复强调监控中分位数的作用,可以揭示一些被平均数掩盖的事实,我也正好有一个监控从都是监控平均值变成主要监控若干p99分位数的经历,看到这里,不由得掩卷叹息。

 

这本书循循善诱的写作手法应该是相当高超了,讲解得非常深入浅出,一般照着提出问题 -> 解决方案 -> 这个方案的长处短处 -> 发散到其它方案这个模式讲解,看起来可以说是不知不觉,非常轻松,也没有有些作者的拽文习惯,几乎全部是中学词汇,句子也不复杂,保证非英语母语的人可以流畅阅读,这点可以说是非常良心了。

 

作者在最后一小节还讨论了大数据的伦理问题,尽管现实世界中,金钱利益面前,可能无人理会这些事情,但是这些夫子自道,还是很体现作者情怀。我觉得这是升华整本书的地方。

每一个数据工程师和产品经理都应该把最后一节,Doing the right thing,读十遍。

 

为了说服大家为什么值得读十遍,我摘抄几句:

automated systems can systematically and arbitrarily exclude a person from participating in society without any proof of guilt, and with little chance of appeal

machine learning is like money laundering for bias

when services become good at predicting what content users want to see, they may end up showing people only opinions they already agree with, leading to echo chambers in which stereotypes, misinformation, and polarization can breed

 

Data is the pollution problem (as in Industrial Revolution) of the information ag e

作者最后说:

we should stop regarding users as metrics to be optimized, and remember that they are humans who deserve respect, dignity and agency.

做一个有 情怀的工程师当如是啊!

 

内容简介

第一部分 数 据系统的基石

本书前四章介绍了数据系统底层的基础概念,无论是在单台机器上运行的单点数据系统,还是分布在多台机器上的分布式数据系统都适用。

  1. 第一章将介绍本书使用的术语和方法。可靠性,可扩展性和可维护性 ,这些词汇到底意味着什么?如何实现这些目标?

  2. 第二章将对几种不同的数据模型和查询语言进行比较。从程序员的角度看,这是数据库之间最明显的区别。不同的数据模型适用于不同的应用场景。

  3. 第三章将深入存储引擎内部,研究数据库如何在磁盘上摆放数据。不同的存储引擎针对不同的负载进行优化,选择合适的存储引擎对系统性能有巨大影响。

  4. 第四章将对几种不同的 数据编码进行比较。特别研究了这些格式在应用需求经常变化、模式需要随时间演变的环境中表现如何。

 

第二部分: 分布式数据

在本书的第一部分中,我们讨论了数据系统的各个方面,但仅限于数据存储在单台机器上的情况。现在我们到了第二部分,进入更高的层次,并提出一个问题:如果 多台机器参与数据的存储和检索,会发生什么?

你可能会出于各种各样的原因,希望将数据库分布到多台机器上:

可扩展性

如果你的数据量、读取负载、写入负载超出单台机器的处理能力,可以将负载分散到多台计算机上。

容错/高可用性

如果你的应用需要在单台机器(或多台机器,网络或整个数据中心)出现故障的情况下仍然能继续工作,则可使用多台机器,以提供冗余。一台故障时,另一台可以接管。

延迟

如果在世界各地都有用户,你也许会考虑在全球范围部署多个服务器,从而每个用户可以从地理上最近的数据中心获取服务,避免了等待网络数据包穿越半个世界。

 

扩展至更高的载荷

如果你需要的只是扩展至更高的 载荷(load),最简单的方法就是购买更强大的机器(有时称为 垂直扩展(vertical scaling)向上扩展(scale up))。许多处理器,内存和磁盘可以在同一个操作系统下相互连接,快速的相互连接允许任意处理器访问内存或磁盘的任意部分。在这种 共享内存架构(shared-memory architecture)中,所有的组件都可以看作一台单独的机器。

i. 在大型机中,尽管任意处理器都可以访问内存的任意部分,但总有一些内存区域与一些处理器更接近(称为非均匀内存访问(nonuniform memory access, NUMA)。 为了有效利用这种架构特性,需要对处理进行细分,以便每个处理器主要访问临近的内存,这意味着即使表面上看起来只有一台机器在运行,分区(partitioning)仍然是必要的。 

共享内存方法的问题在于,成本增长速度快于线性增长:一台有着双倍处理器数量,双倍内存大小,双倍磁盘容量的机器,通常成本会远远超过原来的两倍。而且可能因为存在瓶颈,并不足以处理双倍的载荷。

共享内存架构可以提供有限的容错能力,高端机器可以使用热插拔的组件(不关机更换磁盘,内存模块,甚至处理器)——但它必然囿于单个地理位置的桎梏。

另一种方法是 共享磁盘架构(shared-disk architecture),它使用多台具有独立处理器和内存的机器,但将数据存储在机器之间共享的磁盘阵列上,这些磁盘通过快速网络连接ii。这种架构用于某些数据仓库,但竞争和锁定的开销限制了共享磁盘方法的可扩展性【2】。

ii. 网络附属存储(Network Attached Storage, NAS),或存储区网络(Storage Area Network, SAN) 

无共享架构

相比之下, 无共享架构(shared-nothing architecture)(有时称为 水平扩展(horizontal scale) 或 向外扩展(scale out))已经相当普及。在这种架构中,运行数据库软件的每台机器/虚拟机都称为 节点(node)。每个节点只使用各自的处理器,内存和磁盘。节点之间的任何协调,都是在软件层面使用传统网络实现的。

无共享系统不需要使用特殊的硬件,所以你可以用任意机器——比如性价比最好的机器。你也许可以跨多个地理区域分布数据从而减少用户延迟,或者在损失一整个数据中心的情况下幸免于难。随着云端虚拟机部署的出现,即使是小公司,现在无需Google级别的运维,也可以实现异地分布式架构。

在这一部分里,我们将重点放在无共享架构上。它不见得是所有场景的最佳选择,但它是最需要你谨慎从事的架构。如果你的数据分布在多个节点上,你需要意识到这样一个分布式系统中约束和权衡 ——数据库并不能魔术般地把这些东西隐藏起来。

虽然分布式无共享架构有许多优点,但它通常也会给应用带来额外的复杂度,有时也会限制你可用数据模型的表达力。在某些情况下,一个简单的单线程程序可以比一个拥有超过100个CPU核的集群表现得更好【4】。另一方面,无共享系统可以非常强大。接下来的几章,将详细讨论分布式数据会带来的问题。

复制 vs 分区

数据分布在多个节点上有两种常见的方式:

复制(Replication)

在几个不同的节点上保存数据的相同副本,可能放在不同的位置。 复制提供了冗余:如果一些节点不可用,剩余的节点仍然可以提供数据服务。 复制也有助于改善性能。 第五章将讨论复制。

分区 (Partitioning)

将一个大型数据库拆分成较小的子集(称为 分区(partitions)),从而不同的分区可以指派给不同的节点(node)(亦称 分片(shard))。 第六章将讨论分区。

复制和分区是不同的机制,但它们经常同时使用。如图II-1所示。

图II-1 一个数据库切分为两个分区,每个分区都有两个副本

理解了这些概念,就可以开始讨论在分布式系统中需要做出的困难抉择。第七章将讨论 事务(Transaction),这对于了解数据系统中可能出现的各种问题,以及我们可以做些什么很有帮助。第八章和第九章将讨论分布式系统的根本局限性。

在本书的第三部分中,将讨论如何将多个(可能是分布式的)数据存储集成为一个更大的系统,以满足复杂的应用需求。 但首先,我们来聊聊分布式的数据。

 

第三部分:衍生数据

在本书的第一部分和第二部分中,我们自底向上地把所有关于分布式数据库的主要考量都过了一遍。从数据在磁盘上的布局,一直到出现故障时分布式系统一致性的局限。但所有的讨论都假定了应用中只用了一种数据库。

现实世界中的数据系统往往更为复杂。大型应用程序经常需要以多种方式访问和处理数据,没有一个数据库可以同时满足所有这些不同的需求。因此应用程序通常组合使用多种组件:数据存储,索引,缓存,分析系统,等等,并实现在这些组件中移动数据的机制。

本书的最后一部分,会研究将多个不同数据系统(可能有着不同数据模型,并针对不同的访问模式进行优化)集成为一个协调一致的应用架构时,会遇到的问题。软件供应商经常会忽略这一方面的生态建设,并声称他们的产品能够满足你的所有需求。在现实世界中,集成不同的系统是实际应用中最重要的事情之一。         

记录和衍生数据系统

从高层次上看,存储和处理数据的系统可以分为两大类:

记录系统(System of record)

记录系统,也被称为 真相源(source of truth),持有数据的权威版本。当新的数据进入时(例如,用户输入)首先会记录在这里。每个事实正正好好表示一次(表示通常是 标准化的(normalized))。如果其他系统和 记录系统之间存在任何差异,那么记录系统中的值是正确的(根据定义)。

衍生数据系统(Derived data systems)

衍生系统中的数据,通常是另一个系统中的现有数据以某种方式进行转换或处理的结果。如果丢失衍生数据,可以从原始来源重新创建。典型的例子是 缓存(cache):如果数据在缓存中,就可以由缓存提供服务;如果缓存不包含所需数据,则降级由底层数据库提供。非规范化的值,索引和物化视图亦属此类。在推荐系统中,预测汇总数据通常衍生自用户日志。

从技术上讲,衍生数据是 冗余的(redundant),因为它重复了已有的信息。但是衍生数据对于获得良好的只读查询性能通常是至关重要的。它通常是非规范化的。可以从单个源头衍生出多个不同的数据集,使你能从不同的“视角”洞察数据。

并不是所有的系统都在其架构中明确区分 记录系统和衍生数据系统,但是这是一种有用的区分方式,因为它明确了系统中的数据流:系统的哪一部分具有哪些输入和哪些输出,以及它们如何相互依赖。

大多数数据库,存储引擎和查询语言,本质上既不是记录系统也不是衍生系统。数据库只是一个工具:如何使用它取决于你自己。 记录系统和衍生数据系统之间的区别不在于工具,而在于应用程序中的使用方式。

通过梳理数据的派衍生关系,可以清楚地理解一个令人困惑的系统架构。这将贯穿本书的这一部分。

 

第四部分:关于作者

Martin Kleppmann是英国剑桥大学分布式系统的研究员。此前他曾在互联网公司担任过软件工程师和企业家,其中包括LinkedIn和Rapportive,负责大规模数据基础架构。在这个过程中,他以艰难的方式学习了一些东西,他希望这本书能够让你避免重蹈覆辙。

Martin是一位常规会议演讲者,博主和开源贡献者。他认为,每个人都应该有深刻的技术理念,深层次的理解能帮助我们开发出更好的软件。

                                  

 

 


 

相关 [设计 数据 应用] 推荐:

美团 MySQL 数据库巡检系统的设计与应用

- - IT瘾-dev
我们生活中随处可见各种巡检系统,比如电力巡检、消防检查等,正是这些巡检工作,我们才能在稳定的环境下进行工作、生活. 巡检对于数据库或者其他IT系统来说也同样至关重要,特别是在降低风险、提高服务稳定性方面起到了非常关键作用. 为了保障数据库的稳定运行,以下核心功能组件必不可少:. 图1 数据库运维保障核心功能组件 其中,数据库巡检作为运维保障体系最重要的环节之一,能够帮助我们发现数据库存在的隐患,提前治理,做到防患于未然.

【书籍】设计数据密集型应用

- -
如果近几年从业于软件工程,特别是服务器端和后端系统开发,那么您很有可能已经被大量关于数据存储和处理的时髦词汇轰炸过了: NoSQL. 在最近十年中,我们看到了很多有趣的进展,关于数据库,分布式系统,以及在此基础上构建应用程序的方式. 这些进展有着各种各样的驱动力:. 谷歌,雅虎,亚马逊,脸书,领英,微软和推特等互联网公司正在和巨大的流量/数据打交道,这迫使他们去创造能有效应对如此规模的新工具.

设计数据密集型应用-Data-Intensive Application_王 炸的博客-CSDN博客

- -
不懂数据库的全栈工程师不是好架构师              —— Vonng. 周六停更 Spring Boot 从入门到实践系列教程. 读一本好书《设计数据密集型应用》- Designing Data-Intensive Application.                                                             在正确的时候读一本合适的书是一种幸运~.

从数据中了解用户——数据在现有产品改版设计中的应用

- - TaoBaoUED
通常情况下,我们可以通过用户访谈的方法了解用户需求,其实设计师还可以通过分析用户问卷调查数据以及网站页面数据等方式,了解用户需求以及用户在使用产品时遇到的问题. 而且,直接通过接触用户了解到的需求有可能只是个案,为了增强客观性,通常都会通过大样本调查,从数据实证的角度,进一步更准确和客观地找到用户的普遍需求.

数据库设计规范

- - SQL - 编程语言 - ITeye博客
数据库表的命名以是名词的复数形式且都为小写,如cities, categories, friends等等. 如果表名由几个单词组成,则单词间用下划线("_")分割,如subscribed_pois,poi_categories等. 表名尽量用全名,表名限制在30个字符内. 当表的全名超过30字符时,可用缩写来减少表名的长度,如description --> desc;information --> info;address --> addr等.

数据中心设计

- - 企业架构 - ITeye博客
内容:网易公司因互联网业务发展迅速,急需建设支持自己业务的数据中心. 目前,IT部门根据业务部门提出的需求,计划在数据中心内部署1000台机柜,每台机柜的功率密度为10KW,PUE=1.3. 你作为数据中心技术总监,需要根据上述要求,完成数据中心总体规划(简要描述数据中心总面积大小,描述都需要配套哪些功能房间,每个功能房间的作用是什么, 主机房承重要求, UPS室及电池室承重要求),并计算、推导出以下核心数据:.

Android 应用界面设计

- - 互联网的那点事...
与 iOS 相比,Android 系统界面存在各种不协调,应用界面本身缺乏统一的规范. 虽然 Android 的开放性为应用的自主发挥带来了最大的可能性,但如果系统本身能够提供标准的范例,也未必是一件坏事,毕竟许多应用并不一定需要独创的界面. 从 Android 4.0 开始,系统界面在一致性上有了许多改善,那么 Android 应用的界面应该如何设计.

多IDC的数据分布设计(二)

- crystal - Tim[后端技术]
在前文《多IDC的数据分布设计(一)》中介绍了多IDC数据一致性的几种实现原理,遗憾的是,目前虽然有不少分布式产品,但几乎都没有开源的产品专门针对IDC来优化. 本文从实践的角度分析各种方法优缺点. 背景资料 Latency差异. Jeff Dean提到不同数据访问方式latency差异. 这个数据对于我们设计多IDC数据访问策略具有关键的指导作用,我们可以用这个数据来衡量数据架构来如何设计才能满足高并发低延迟的目标.

数据库设计的三大范式

- 文斌 - 博客园-首页原创精华区
为了建立冗余较小、结构合理的数据库,设计数据库时必须遵循一定的规则. 在关系型数据库中这种规则就称为范式. 范式是符合某一种设计要求的总结. 要想设计一个结构合理的关系型数据库,必须满足一定的范式. 在实际开发中最为常见的设计范式有三个:. 如果数据库表中的所有字段值都是不可分解的原子值,就说明该数据库表满足了第一范式.