亿级日增量的ES线上环境集群部署，上干货！

标签： | 发表时间：2021-08-24 09:43 | 作者：

出处：https://dbaplus.cn

在生产环境搭建或维护 Elasticsearch 集群和个人搭建集群的小打小闹有非常大的不同。

本文的最佳实践基于每天增量数亿+ 的线上环境。

少啰嗦，上干货。

一、内存

Elasticsearch 和 Lucene 都是 Java 语言编写，这意味着我们必须注意堆内存的设置。

Elasticsearch 可用的堆越多，它可用于过滤器（filter）和其他缓存的内存也就越多，更进一步讲可以提高查询性能。

但请注意，过多的堆可能会使垃圾回收暂停时间过长。请勿将堆内存的最大值设置为 JVM 用于压缩对象指针（压缩的 oops）的临界值之上，确切的临界值有所不同，但不要超过 32 GB。

推荐：干货 | 吃透Elasticsearch 堆内存

常见内存配置坑 1：堆内存设置过大

举例：Elasticsearch 宿主机：64 GB 内存，堆内存恨不得设置为 64 GB。

但，这忽略了堆的另一部分内存使用大户：OS 文件缓存。

Lucene 旨在利用底层操作系统来缓存内存中的数据结构。Lucene 段存储在单独的文件中。

由于段是不可变的（immutable），因此这些文件永远不会更改。这使它们非常易于缓存，并且底层操作系统很乐意将热段驻留在内存中，以加快访问速度。

这些段包括倒排索引（用于全文搜索）和doc values 正排索引（用于聚合）。Lucene 的性能取决于与 OS 文件缓存的交互。

如果你将所有可用内存分配给 Elasticsearch 的堆，则 OS 文件缓存将不会剩下任何可用空间。这会严重影响性能。

官方标准建议是：将 50％的可用内存（不超过 32 GB，一般建议最大设置为：31 GB）分配给 Elasticsearch 堆，而其余 50％留给 Lucene 缓存。

图片来自网络

可以通过以下方式配置 Elasticsearch 堆：

方式一：堆内存配置文件 jvm.options

  # Xms represents the initial size of total heap space  # Xmx represents the maximum size of total heap space  -Xms16g  -Xmx16g

方式二：启动参数设置

  ES_JAVA_OPTS="-Xms10g -Xmx10g" ./bin/elasticsearch

二、CPU

运行复杂的缓存查询、密集写入数据都需要大量的CPU，因此选择正确的查询类型以及渐进的写入策略至关重要。

一个节点使用多个线程池来管理内存消耗。与线程池关联的队列使待处理的请求得以保留（类似缓冲效果）而不是被丢弃。

由于 Elasticsearch会做动态分配，除非有非常具体的要求，否则不建议更改线程池和队列大小。

线程池和队列的设置，参见：

Elasticsearch 线程池和队列问题，请先看这一篇。

亿级日增量的ES线上环境集群部署，上干货！

- -

在生产环境搭建或维护 Elasticsearch 集群和个人搭建集群的小打小闹有非常大的不同. 本文的最佳实践基于每天增量数亿+ 的线上环境. Elasticsearch 和 Lucene 都是 Java 语言编写，这意味着我们必须注意堆内存的设置. Elasticsearch 可用的堆越多，它可用于过滤器（filter）和其他缓存的内存也就越多，更进一步讲可以提高查询性能.

Kafka线上环境部署

- - ITeye博客

本章内容是如何规划 Kafka 服务器的相关内容. linux 效率优于 windows. 因为 I/O 模型和网络传输效率(sendfile). 1.性价比 JBID 优于 RAID. 2.使用机械盘完全可以满足 Kafka 集群的使用，SSD 更好. 1.尽量分配跟多的内存给操作系统的 page cache.

ES优化总结

- - 非技术 - ITeye博客

最近一直在研究ＥＳ集群，也看了很多篇前辈们总结的博客，同事借鉴了官方给出的一些建议，做了一下几点总结，希望对后来者有用：. 为了防止ES进程的内存被置换到磁盘上（会导致在检索的时候发生内存交换导致检索速度迟缓）引起性能急速下降. 候可以把config/elasticsearch.yml中的bootstrap.mlockall设置为true就可以了.

es的连接查询

- - 行业应用 - ITeye博客

在一般的关系型数据库中，都支持连接操作. 在ES这种分布式方案中进行连接操作，代价是十分昂贵的. 不过ES也提供了相类似的操作，支持水平任意扩展，实现连接的效果. 其他内容，参考Elasticsearch官方指南整理. 在ES中支持两种连接方式：嵌套查询和 has_child、has_parent父子查询.

ES性能优化总结

- - 互联网 - ITeye博客

Elasticsearch是目前大数据领域最热门的技术栈之一，经过近8年的发展，已从0.0.X版升级至6.X版本，虽然增加了很多的特性和功能，但是在主体架构上，还是没有太多的变化. 下面就把我对于ES使用实践的一些经验总结一下，供大家参考；也请大家拍砖. 如果有条件，尽可能使用SSD硬盘，不错的CPU.

ElasticSearch —修改ES数据

- -

ElasticSearch能够以接近实时的速度提供数据操作和搜索功能. 在默认情况下，从索引/更新/删除数据到出现在搜索结果之间，你可能会感受到有1秒的延迟时间（刷新间隔）. 这是与SQL等其他平台的一个重要区别，这些平台在完成事务之后，它们的数据立即可用. 先前，我们已经知道如何索引一个单个的文档.

virgo-tomcat-server的生产环境线上配置与管理 - 520_1351

- - 博客园_首页

Virgo Tomcat Server简称VTS，VTS是一个应用服务器，它是轻量级, 模块化, 基于OSGi系统. 与OSGi紧密结合并且可以开发bundles形式的Spring web apps应用. 他们同样拥有OSGi和Spring的特性. VTS由SpringSource 的Spring DM server过渡而来， virgo官网地址： http://www.eclipse.org/virgo.

es近实时搜索原理

- - 企业架构 - ITeye博客

随着按段（per-segment）搜索的发展，一个新的文档从索引到可被搜索的延迟显著降低了. 新文档在几分钟之内即可被检索，但这样还是不够快. 提交（Commiting）一个新的段到磁盘需要一个 . fsync 来确保段被物理性地写入磁盘，这样在断电的时候就不会丢失数据. 但是 fsync 操作代价很大; 如果每次索引一个文档都去执行一次的话会造成很大的性能问题.

请警惕 ES 的三大坑

- - InfoQ推荐

搜索引擎现在是用得越来越多了，比如日志系统用到的 ELK 中的 E 就是搜索引擎 Elasticsearch（简称 ES）. 那对于搜索这种技术来说，最看重的是搜索的结果的准确性和搜索的响应时间. ES 的准确性可以通过倒排索引算法来保证，那响应时间就需要磁盘或缓存来支持了，那么磁盘和缓存会带来哪些坑呢.

碾压ES和MongoDB，RedisJson横空出世！

- - DockOne.io

近期官网给出了 RedisJson（RedisSearch）的性能测试报告，可谓碾压其他 NoSQL. 下面是核心的报告内容，先上结论：. 对于隔离写入（isolated writes），RedisJSON 比 MongoDB 快 5.4 倍，比 ElasticSearch 快 200 倍以上. 对于隔离读取（isolated reads），RedisJSON 比 MongoDB 快 12.7 倍，比 ElasticSearch 快 500 倍以上.

亿级日增量的ES线上环境集群部署，上干货！

相关 [es 线上环境] 推荐：

亿级日增量的ES线上环境集群部署，上干货！

Kafka线上环境部署

ES优化总结

es的连接查询

ES性能优化总结

ElasticSearch —修改ES数据

virgo-tomcat-server的生产环境线上配置与管理 - 520_1351

es近实时搜索原理

请警惕 ES 的三大坑

碾压ES和MongoDB，RedisJson横空出世！

相关文章

订阅

亿级日增量的ES线上环境集群部署，上干货！

相关 [es 线上 环境] 推荐：

相关文章

订阅

相关 [es 线上环境] 推荐：