ES中的动态映射和动态模板

标签: es 映射 模板 | 发表时间:2020-10-10 07:56 | 作者:乔珂力
出处:https://juejin.im/backend

为了方便演示和切换 ES 地址,在 ~/.bashrc 中添加如下变量和脚本:

    ES=localhost:9200
escurl () { 
   curl -H 'Content-Type: application/json' "$@";
}
复制代码

Elasticsearch 具有非常强大的动态性和灵活性,例如当向一个不存在的索引添加文档时,会自动创建该索引,例如:

   $ escurl -XPUT $ES/my_article/doc/1?pretty -d '
{
  "title": "标题",
  "createdAt": "2020-02-02T02:02:02.020Z",
  "wordCount": 100,
  "extra": {
    "deleted": false,
    "score": 8.5
  }
}'
复制代码

如果 my_article 索引不存在,则会自动创建 my_article 索引,并向其中添加数据,其数据结构为:

   {
  "mappings": {
    "doc": {
      "properties": {
        "createdAt": { "type": "date" },
        "wordCount": { "type": "long" },
        "extra": {
          "properties": {
            "score": { "type": "float" },
            "deleted": { "type": "boolean" }
          }
        },
        "title": {
          "type": "text",
          "fields": {
            "keyword": {
              "ignore_above": 256,
              "type": "keyword"
            }
          }
        }
      }
    }
  }
}
复制代码

可以发现 ES 自动做了如下字段类型映射

  • title 字段映射成 text 类型
  • createdAt 字段映射成 date 类型
  • wordCount 字段映射成 long 类型
  • extra.score 字段映射成 float 类型
  • extra.deleted 字段映射成 boolean 类型

猜测非常准确,而且后续增加新字段还可以动态猜测并更新 mapping。

动态更新映射

如果继续添加一个新文档,里面多出几个字段:

   $ escurl -XPUT $ES/my_article/doc/2?pretty -d '
{
  "title": "新文章",
  "createdAt": "2020-02-02T02:02:02.020Z",
  "wordCount": 100,
  "likes": 0,
  "author": "作者",
  "extra": {
    "deleted": false,
    "score": 8.5,
    "remark": "备注"
  }
}'
复制代码

发现映射被自动更新了:

   {
  "mappings": {
    "doc": {
      "properties": {
        "createdAt": { "type": "date" },
        "wordCount": { "type": "long" },
        "author": {
          "type": "text",
          "fields": { "keyword": { "ignore_above": 256, "type": "keyword" } }
        },
        "extra": {
          "properties": {
            "score": { "type": "float" },
            "deleted": { "type": "boolean" },
            "remark": {
              "type": "text",
              "fields": { "keyword": { "ignore_above": 256, "type": "keyword" } }
            }
          }
        },
        "title": {
          "type": "text",
          "fields": { "keyword": { "ignore_above": 256, "type": "keyword" } }
        },
        "likes": { "type": "long" }
      }
    }
  }
}
复制代码

也就是说,ES 会根据该字段的值猜测其数据类型,并动态添加到类型映射里面。

手动干预动态映射

动态映射虽然灵活,但有时候又想明确数据结构,因为不是所有字段都需要被存储,此时可以配置索引的 dynamic 选项,有三个可选值:

  • true:动态添加新的字段(默认值)
  • false:忽略新的字段
  • strict:如果遇到新字段抛出异常
   $ escurl -XPUT $ES/my_article?pretty -d '
{
  "mappings": {
    "doc": {
      "dynamic": "false",
      "properties": {
        "title":  { "type": "keyword"},
        "wordCount": { "type": "long" },
        "createdAt": { "type": "date" },
        "extra":  {
          "type": "object",
          "dynamic": true
        }
      }
    }
  }
}'
复制代码

上面的索引的意思是:如果遇到新字段,会自动忽略,而内部对象 extra 遇到新字段就会动态创建新字段。注意,如果索引已经存在就会出错,必须删除重建。这个时候,如果再添加如下数据:

   $ escurl -XPUT $ES/your_article/doc/2?pretty -d '
{
  "title": "新文章",
  "createdAt": "2020-02-02T02:02:02.020Z",
  "wordCount": 100,
  "likes": 0,
  "author": "作者",
  "extra": {
    "deleted": false,
    "score": 8.5,
    "remark": "备注"
  }
}'
复制代码

likes 和 author 字段就会被忽略,而 extra.remark 字段则被添加进去了。

用动态模板约束动态映射

动态映射的自动推断功能很强大,但有时候并不完全符合业务需求,例如我希望所有 string 类型都映射成 keyword 而不是 text,所有 number 都映射成 double 而不是 long,这个时候就需要动态模板(dynamic_templates),可以完全控制新生成字段的映射类型。例如:

   $ escurl -XPUT $ES/my_article?pretty -d '
{
  "settings": {
    "index": {
      "number_of_shards": 1,
      "number_of_replicas": 0
    }
  },
  "mappings": {
    "doc": {
      "dynamic_templates": [
        {
          "string_fields": {
            "match": "*",
            "match_mapping_type": "string",
            "mapping": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        },
        {
          "number_fields": {
            "match": "*",
            "match_mapping_type": "long",
            "mapping": {
              "type": "double"
            }
          }
        }
      ]
    }
  }
}'
复制代码

dynamic_templates 是一个数组,也就是说可以添加多个模板,ES 会按照顺序来检测,启用第一个匹配的模板。

上面的做法是给当前索引指定动态模板,其实也可以反过来,先创建动态模板,让模板指定匹配的索引。

   $ escurl -XPUT $ES/_template/my-template?pretty -d '
{
  "index_patterns":[ "my_*" ],
  "mappings": {
    "doc": {
      "dynamic_templates": [
        {
          "string_fields": {
            "match": "*",
            "match_mapping_type": "string",
            "mapping": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        },
        {
          "number_fields": {
            "match": "*",
            "match_mapping_type": "long",
            "mapping": {
              "type": "double"
            }
          }
        }
      ]
    }
  }
}'
复制代码

这个时候再创建 my-xxx 索引的时候,动态字段映射会根据 my-template 里面的规则进行映射。由于动态模板非常实用,下面记录其增删改查的语法:

查看模板

   escurl -XGET $ES/_template?pretty # 查看所有模板
escurl -XGET $ES/_template/tpl_1?pretty # 查看指定模板 tpl_1
escurl -XGET $ES/_template/tpl_1,tpl_2?pretty # 批量查看模板 tpl_1 和 tpl_2
复制代码

返回结果是一个对象,key 是模板名称,value 是模板定义。

检查模板是否存在

   $ escurl --head $ES/_template/tpl_1
复制代码

存在则返回:

   HTTP/1.1 200 OK
content-type: application/json; charset=UTF-8
content-length: 488
复制代码

否则返回:

   HTTP/1.1 404 Not Found
content-type: application/json; charset=UTF-8
content-length: 2
复制代码

创建模板

   $ escurl -XPUT $ES/_template/my-prefix-template
{
  "order": 0,
  "index_patterns": [
    "prefix-*"
  ],
  "settings": {
    "index": {
      "number_of_shards": "5",
      "number_of_replicas": "0"
    }
  },
  "mappings": {
    "doc": {
      "dynamic_templates": [
        {
          "string_fields": {
            "match": "*",
            "match_mapping_type": "string",
            "mapping": {
              "type": "keyword",
              "ignore_above": 256
            }
          }
        }
      ],
      "properties": {
        "discount": {
          "type": "double"
        },
        "pay": {
          "type": "double"
        }
      }
    }
  }
}
复制代码

删除模板

   $ escurl -XDELETE $ES/_template/template_1
复制代码

相关 [es 映射 模板] 推荐:

ES中的动态映射和动态模板

- - 掘金后端
为了方便演示和切换 ES 地址,在. ~/.bashrc 中添加如下变量和脚本:. curl -H 'Content-Type: application/json' "$@"; } 复制代码. Elasticsearch 具有非常强大的动态性和灵活性,例如当向一个不存在的索引添加文档时,会自动创建该索引,例如:.

ES优化总结

- - 非技术 - ITeye博客
最近一直在研究ES集群,也看了很多篇前辈们总结的博客,同事借鉴了官方给出的一些建议,做了一下几点总结,希望对后来者有用:. 为了防止ES进程的内存被置换到磁盘上(会导致在检索的时候发生内存交换导致检索速度迟缓)引起性能急速下降. 候可以把config/elasticsearch.yml中的bootstrap.mlockall设置为true就可以了.

es的连接查询

- - 行业应用 - ITeye博客
在一般的关系型数据库中,都支持连接操作. 在ES这种分布式方案中进行连接操作,代价是十分昂贵的. 不过ES也提供了相类似的操作,支持水平任意扩展,实现连接的效果. 其他内容, 参考Elasticsearch官方指南整理. 在ES中支持两种连接方式:嵌套查询 和 has_child、has_parent父子查询.

ES性能优化总结

- - 互联网 - ITeye博客
    Elasticsearch是目前大数据领域最热门的技术栈之一,经过近8年的发展,已从0.0.X版升级至6.X版本,虽然增加了很多的特性和功能,但是在主体架构上,还是没有太多的变化. 下面就把我对于ES使用实践的一些经验总结一下,供大家参考;也请大家拍砖. 如果有条件,尽可能使用SSD硬盘, 不错的CPU.

ElasticSearch —修改ES数据

- -
ElasticSearch能够以接近实时的速度提供数据操作和搜索功能. 在默认情况下,从索引/更新/删除数据到出现在搜索结果之间,你可能会感受到有1秒的延迟时间(刷新间隔). 这是与SQL等其他平台的一个重要区别,这些平台在完成事务之后,它们的数据立即可用. 先前,我们已经知道如何索引一个单个的文档.

es近实时搜索原理

- - 企业架构 - ITeye博客
 随着按段(per-segment)搜索的发展, 一个新的文档从索引到可被搜索的延迟显著降低了. 新文档在几分钟之内即可被检索,但这样还是不够快.  提交(Commiting)一个新的段到磁盘需要一个 . fsync 来确保段被物理性地写入磁盘,这样在断电的时候就不会丢失数据. 但是  fsync 操作代价很大; 如果每次索引一个文档都去执行一次的话会造成很大的性能问题.

请警惕 ES 的三大坑

- - InfoQ推荐
搜索引擎现在是用得越来越多了,比如 日志系统用到的 ELK 中的 E 就是 搜索引擎 Elasticsearch(简称 ES). 那对于搜索这种技术来说,最看重的是搜索的结果的准确性和搜索的响应时间. ES 的准确性可以通过 倒排索引算法来保证,那响应时间就需要磁盘或缓存来支持了,那么磁盘和缓存会带来哪些坑呢.

碾压ES和MongoDB,RedisJson横空出世!

- - DockOne.io
近期官网给出了 RedisJson(RedisSearch)的性能测试报告,可谓碾压其他 NoSQL. 下面是核心的报告内容,先上结论:. 对于隔离写入(isolated writes),RedisJSON 比 MongoDB 快 5.4 倍,比 ElasticSearch 快 200 倍以上. 对于隔离读取(isolated reads),RedisJSON 比 MongoDB 快 12.7 倍,比 ElasticSearch 快 500 倍以上.

MySQL InnoDB 與 PostgreSQL 的 Partial Index(es) 是不一樣的東西…

- - Gea-Suan Lin's BLOG
MySQL InnoDB 指的 Partial Index 是:. An index that represents only part of a column value, typically the first N characters (the prefix) of a long VARCHAR value..

索引表和ES的一点点思考 - CSDN博客

- -
在电商项目中,物理库存系统是个极其重要的系统,订单支付后,就会开始来占用物理库存. 一般情况下,库存系统都是要分库的,因为主要的操作是写操作,例如占用/释放/取消等写操作. 使用分库可以降低数据库写的压力. 尽管写操作为主,但是读操作也是有的. 比如说,库存占用的时候,得先查询是否有库存,而这个查询操作并不都会带上分库因子(用于路由到具体的某个数据库),而是一些比较宽松的查询条件,这些查询条件对应的数据可能分布在不同的数据库上.