Elasticsearch索引生命周期管理方案

标签: elasticsearch elk 微服务 | 发表时间:2020-12-30 08:42 | 作者:zlt2000
出处:https://segmentfault.com/blogs

file

一、前言

Elasticsearch 的日常中,有很多如存储 系统日志行为数据等方面的应用场景,这些场景的特点是数据量非常大,并且随着时间的增长 索引 的数量也会持续增长,然而这些场景基本上只有最近一段时间的数据有使用价值或者会被经常使用(热数据),而历史数据几乎没有作用或者很少会被使用(冷数据),这个时候就需要对 索引 进行一定策略的维护管理甚至是删除清理,否则随着数据量越来越多除了浪费磁盘与内存空间之外,还会严重影响 Elasticsearch 的性能;

 

Elastic Stack 6.6 版本后推出了新功能 Index Lifecycle Management(索引生命周期管理),支持针对索引的全生命周期托管管理,并且在 Kibana 上也提供了一套 UI 界面来配置策略。本文主要介绍 Elasticsearch 索引生命周期管理如何配置和使用。

 

二、生命周期

2.1. 阶段介绍

索引生命周期分为4个阶段:hot、warm、cold、delete,其中hot主要负责对索引进行rollover操作。

rollover:滚动更新创建的新索引将添加到索引别名,并被指定为写索引。

PS:4个阶段中只有hot阶段是必须的

file

索引根据时间参数min_age进入生命周期阶段,若未设置,默认是0ms。min_age通常是从创建索引的时间开始计算,如果索引被设置为滚动索引,那么min_age是从索引滚动开始计算。注意,在检查min_age参数并进入下一个阶段前,当前阶段的操作必须完成。

 

2.2. 阶段动作

阶段/action 优先级设置 取消跟随 滚动索引 分片分配 只读 强制段合并 收缩索引 冻结索引 删除
hot × × × × × ×
warm × × ×
cold × × × × ×
delete × × × × × × × ×

 

2.3. 例子

下面以索引 syslog-2020.10.01 为例子,在索引创建 1 天后转为 Warm 阶段,30 天后转为 Cold 阶段,30 天后删除

日期 动作 阶段
2020-10-01 创建索引 syslog-2020.10.01 ,处理读写请求 hot阶段
2020-10-02 syslog-2020.10.01 改为只读 warm阶段
2020-11-01 syslog-2020.10.01 为只读,并迁移到冷节点储存 cold阶段
2020-12-01 删除索引 syslog-2020.10.01 delete阶段

 

三、模拟过程

3.1. 创建索引生命周期策略

假设 Policy 设定如下:

  • 索引以每10个文档做一次 Rollover
  • Rollover 后 5 秒转为 Warm 阶段
  • Rollover 后 20 秒转为 Cold 阶段
  • Rollover 后 40 秒删除
  curl -XPUT "http://$IP:9200/_ilm/policy/my_ilm_policy" \
    -H 'Content-Type: application/json' \
    -u elastic:changeme \
    -d '{
      "policy": {
        "phases": {
          "hot": {
            "actions": {
              "rollover": {
                "max_docs": "10"
              }
            }
          },
          "warm": {
            "min_age": "5s",
            "actions": {
              "allocate": {
                "include": {
                  "box_type": "warm"
                }
              }
            }
          },
          "cold": {
            "min_age": "20s",
            "actions": {
              "allocate": {
                "include": {
                  "box_type": "cold"
                }
              }
            }
          },
          "delete": {
            "min_age": "40s",
            "actions": {
              "delete": {}
            }
          }
        }
      }
    }'
ip、用户名和密码按实际情况修改

 

3.2. 关联策略

关联策略有两种方式,分别是使用索引模板关联和索引直接关联

3.2.1. 索引模板关联

索引模板来创建所需的索引,并关联ilm策略

  curl -XPUT "http://$IP:9200/_template/my_test_template" \
    -H 'Content-Type: application/json' \
    -u elastic:changeme \
    -d '{
        "index_patterns": ["my-test-*"], 
        "settings": {
            "number_of_shards": 1,
            "number_of_replicas": 0,
            "index.lifecycle.name": "my_ilm_policy", 
            "index.lifecycle.rollover_alias": "my-test",
            "index.routing.allocation.include.box_type": "hot"
        }
    }'
ip、用户名和密码按实际情况修改

index.lifecycle.name:指明该索引应用的 ILM Policy
index.lifecycle.rollover_alias:指明在 Rollover 的时候使用的 alias
index.routing.allocation.include.box_type:指明新建的索引都分配在 hot 节点上

 

3.2.2. 索引直接关联

为现有的索引单独关联策略

  curl -XPUT "http://$IP:9200/my-test-*/_settings" \
    -H 'Content-Type: application/json' \
    -u elastic:changeme \
    -d '{
      "index": {
        "lifecycle": {
          "name": "my_ilm_policy"
        }
      }
    }'
ip、用户名和密码按实际情况修改

 

3.3. 查看索引所处阶段

  http://$IP:9200/my-test-*/_ilm/explain

 

3.4. 更新策略

  1. 如果没有index应用这份策略,那么我们可以直接更新该策略。
  2. 如果有index应用了这份策略,那么当前正在执行的阶段不会同步修改,当当前阶段结束后,会进入新版本策略的下个阶段。
  3. 如果更换了策略,当前正在执行的阶段不会变化,在结束当前阶段后,将会由新的策略管理下一个生命周期。

 

3.5. kibana图形化操作

上述的步骤,大部分都可以在 Kibana 中以图形化界面的方式进行操作
file

 

file

注意:如果使用图形化界面来创建策略,删除阶段会缺失 actions 内容而导致无法删除

 

四、修改轮询间隔(可选)

ILM Service 会在后台轮询执行 Policy,默认间隔时间为 10 分钟,为了测试更快地看到效果,可将其修改为1秒。

  curl -XPUT "http://$IP:9200/_cluster/settings" \
    -H 'Content-Type: application/json' \
    -u elastic:changeme \
    -d '{
        "persistent": {
          "indices.lifecycle.poll_interval":"1s"
        }
    }'
ip、用户名和密码按实际情况修改

 

五、启动和停止索引生命周期管理

ILM 默认开启

由ILM管理的所有索引将继续执行其策略。有时可能不需要某些索引,甚至集群中的所有索引都不需要。例如,当需要集群拓扑更改时,可能会有计划的维护窗口,这可能会影响正在运行的ILM操作。因此,ILM有两种禁用操作的方法。

停止ILM时,快照生命周期管理操作也会停止,这意味着不会创建计划的快照(当前正在进行的快照不受影响)。

通常,ILM将默认运行。要查看ILM的当前运行状态,请使用 Get Status API 来查看ILM的当前状态。

  GET  _ilm/status

如果请求没有遇到错误,您将收到以下结果:

  {
    "operation_mode": "RUNNING"
}

 

ILM的操作模式

阶段/action 优先级设置
正在运行 正常运行,所有策略均正常执行
停止 ILM已收到停止请求,但仍在处理某些策略
已停止 这表示没有执行任何策略的状态

 

5.1. 停止ILM

可以暂停ILM服务,以便使用 Stop API不再执行其他步骤。

  POST  _ilm/stop

 

停止后,所有其他政策措施都将停止。这将反映在状态API中

  {
    "operation_mode": "STOPPING"
}

 

然后,ILM服务将异步地将所有策略运行到可以安全停止的位置。在ILM确认它是安全的之后,它将移至该 STOPPED模式

  {
    "operation_mode": "STOPPED"
}

 

5.2. 启动ILM

要启动ILM并继续执行策略,请使用 Start API

  POST  _ilm/start

 

Start API将向ILM服务发送请求,以立即开始正常操作。

  {
  "operation_mode": "RUNNING"
}

 

六、API清单

可以使用以下API来管理索引策略。可参考官方文档 管理索引生命周期

 

扫码关注有惊喜!

file

相关 [elasticsearch 索引 生命周期] 推荐:

Elasticsearch索引生命周期管理方案

- - SegmentFault 最新的文章
在 Elastic Stack 6.6 版本后推出了新功能 Index Lifecycle Management(索引生命周期管理),支持针对索引的全生命周期托管管理,并且在 Kibana 上也提供了一套 UI 界面来配置策略. 本文主要介绍 Elasticsearch 索引生命周期管理如何配置和使用.

ElasticSearch索引优化

- - 行业应用 - ITeye博客
ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展,而这ES主要是用tranlog进行各节点之间的数据平衡. 所以从上我可以通过索引的settings进行第一优化:. 这两个参数第一是到tranlog数据达到多少条进行平衡,默认为5000,而这个过程相对而言是比较浪费时间和资源的. 所以我们可以将这个值调大一些还是设为-1关闭,进而手动进行tranlog平衡.

ElasticSearch 索引 VS MySQL 索引

- - crossoverJie's Blog
这段时间在维护产品的搜索功能,每次在管理台看到 elasticsearch 这么高效的查询效率我都很好奇他是如何做到的. 这甚至比在我本地使用 MySQL 通过主键的查询速度还快. 这类问题网上很多答案,大概意思呢如下:. Lucene 的全文检索引擎,它会对数据进行分词后保存索引,擅长管理大量的索引数据,相对于.

ES中的索引生命周期管理

- - JenkinWang's Blog
ILM:索引生命周期管理,即 Manage the index lifecycle. 使用 ILM应确保集群中的所有节点运行的是同一个版本,不然无法保证他们会按预期工作. Hot:索引更新和查询很活跃. Warm:索引不再更新,但仍然有查询. Cold:索引不再更新,只有很少的查询,而且查询速度也很慢.

ElasticSearch 倒排索引、分词

- - 行业应用 - ITeye博客
es使用称为倒排索引的结构达到快速全文搜索的目的. 一个倒排索引包含一系列不同的单词,这些单词出现在任何一个文档,. 对于每个单词,对应着所有它出现的文档. 比如说,我们有2个文档,每个文档有一个conteng字段. 我们首先对每个字段进行分词,我们称之为terms或者tokens,创建了一些列有序列表,.

elasticsearch java API------批量添加索引

- - 行业应用 - ITeye博客
elasticsearch java API------批量添加索引.         person.setName("张三" + i);  .         person.setSex("男");  .         String index = "user"; // 相当于数据库名  .         String type = "tb_person"; // 相当于表名  .

Elasticsearch 索引设计实战指南

- - IT瘾-dev
随着 Elastic 的上市,ELK Stack 不仅在 BAT 的大公司得到长足的发展,而且在各个中小公司都得到非常广泛的应用,甚至连“婚庆网站”都开始使用 Elasticsearch 了. 随之而来的是 Elasticsearch 相关部署、框架、性能优化的文章早已铺天盖地. 初学者甚至会进入幻觉——“一键部署、导入数据、检索&聚合、动态扩展, So Easy,妈妈再也不用担心我的 Elastic 学习”.

Elasticsearch 索引容量管理实践

- -
作者:gavinyao,腾讯 PCG 后台开发工程师. Elasticsearch 是目前大数据领域最热门的技术栈之一,腾讯云 Elasticsearch Service(ES)是基于开源搜索引擎 Elasticsearch 打造的高可用、可伸缩的云端全托管 Elasticsearch 服务,完善的高可用解决方案,让业务可以放心的把重要数据存储到腾讯云 ES 中.

Spring bean生命周期

- - 开源软件 - ITeye博客
Spring bean生命周期.       在传统的Java应用中,Bean的生命周期非常简单.  Java的关键词new用来实例化Bean(或许他是非序列化的).  相反,Bean的生命周期在Spring容器中更加细致.  理解Spring Bean的生命周期非常重要,因为你或许要利用Spring提供的机会来订制Bean的创建过程.

Activity生命周期详解

- - 编程语言 - ITeye博客
本文概述:针对一个例子详细阐述Activity的生命周期. Android是使用任务(Task)来管理活动的,一个任务就是一组存放在栈里的Activity的集合,这个栈也叫返回栈(Back Stack). 每次我们启动一个新的Activity,这个Activity就会入栈,并处于栈顶位置. 按下返回键或者finish()方法销毁一个Activity时,处于栈顶的Activity就会出栈,另一个Activity就会处于栈顶位置,显示给用户的就会是这个Activity..