Elasticsearch 索引设计实战指南

- - IT瘾-dev

随着 Elastic 的上市，ELK Stack 不仅在 BAT 的大公司得到长足的发展，而且在各个中小公司都得到非常广泛的应用，甚至连“婚庆网站”都开始使用 Elasticsearch 了. 随之而来的是 Elasticsearch 相关部署、框架、性能优化的文章早已铺天盖地. 初学者甚至会进入幻觉——“一键部署、导入数据、检索&聚合、动态扩展， So Easy，妈妈再也不用担心我的 Elastic 学习”.

ElasticSearch索引优化

- - 行业应用 - ITeye博客

ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展，而这ES主要是用tranlog进行各节点之间的数据平衡. 所以从上我可以通过索引的settings进行第一优化：. 这两个参数第一是到tranlog数据达到多少条进行平衡，默认为5000，而这个过程相对而言是比较浪费时间和资源的. 所以我们可以将这个值调大一些还是设为-1关闭，进而手动进行tranlog平衡.

ElasticSearch 索引 VS MySQL 索引

- - crossoverJie's Blog

这段时间在维护产品的搜索功能，每次在管理台看到 elasticsearch 这么高效的查询效率我都很好奇他是如何做到的. 这甚至比在我本地使用 MySQL 通过主键的查询速度还快. 这类问题网上很多答案，大概意思呢如下：. Lucene 的全文检索引擎，它会对数据进行分词后保存索引，擅长管理大量的索引数据，相对于.

ElasticSearch 倒排索引、分词

- - 行业应用 - ITeye博客

es使用称为倒排索引的结构达到快速全文搜索的目的. 一个倒排索引包含一系列不同的单词，这些单词出现在任何一个文档，. 对于每个单词，对应着所有它出现的文档. 比如说，我们有2个文档，每个文档有一个conteng字段. 我们首先对每个字段进行分词，我们称之为terms或者tokens,创建了一些列有序列表，.

elasticsearch java API------批量添加索引

- - 行业应用 - ITeye博客

elasticsearch java API------批量添加索引. person.setName("张三" + i); . person.setSex("男"); . String index = "user"; // 相当于数据库名 . String type = "tb_person"; // 相当于表名 .

Elasticsearch 索引容量管理实践

- -

作者：gavinyao，腾讯 PCG 后台开发工程师. Elasticsearch 是目前大数据领域最热门的技术栈之一，腾讯云 Elasticsearch Service（ES）是基于开源搜索引擎 Elasticsearch 打造的高可用、可伸缩的云端全托管 Elasticsearch 服务，完善的高可用解决方案，让业务可以放心的把重要数据存储到腾讯云 ES 中.

开源搜索引擎评估:lucene sphinx elasticsearch

- - 鲁塔弗的博客

lucene系,java开发,包括 solr和 elasticsearch. sphinx,c++开发,简单高性能. 搜索引擎程序这个名称不妥当,严格说来应该叫做索引程序(indexing program),早期主要用来做中文全文搜索,但是随着互联网的深入普及,各家网站规模越来越大,索引程序在优化网站架构上发挥了更大的作用: 替代mysql数据库内置的索引.

elasticsearch RESTful搜索引擎-(java jest 使用[入门])

- - zzm

elasticsearch简称ES. 好吧下面我介绍下jest(第三方工具),个人认为还是非常不错的...想对ES用来更好,多多研究源代码吧...迟点,会写一些关于ES的源代码研究文章,现在暂时还是入门的阶段.哈..(不敢,不敢). 它是ES的java客户端,基于http restful.... jest是开源的....其他就不清楚了,看源代码吧..哈..

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

- - zzm

网络爬虫架构在Nutch+Hadoop之上，是一个典型的分布式离线批量处理架构，有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项. 由于网络爬虫只负责网络资源的抓取，所以，需要一个分布式搜索引擎，用来对网络爬虫抓取到的网络资源进行实时的索引和搜索. 搜索引擎架构在ElasticSearch之上，是一个典型的分布式在线实时交互查询架构，无单点故障，高伸缩、高可用.

elasticsearch更改mapping(不停服务重建索引)

- - zzm

Elasticsearch的mapping一旦创建，只能增加字段，而不能修改已经mapping的字段. 但现实往往并非如此啊，有时增加一个字段，就好像打了一个补丁，一个可以，但是越补越多，最后自己都觉得惨不忍睹了. 这里有一个方法修改mapping，那就是重新建立一个index，然后创建一个新的mapping.

Elasticsearch 索引设计实战指南

题记

索引设计的重要性

1、PB 级别的大索引如何设计？

1.1 大索引的缺陷

1.1.1 存储大小限制维度

1.1.2 性能维度

1.1.3 风险维度

1.2 PB 级索引设计实现

1.2.1 使用模板统一配置索引

1.2.2 使用 Rollver 增量管理索引

1.2.3 索引增量更新原理

1.2.4 使用 curator 高效清理历史数据

2、分片数和副本数如何设计？

2.1 分片/副本认知

2.2 分片和副本实战中设计

2.2.1 问题 1：索引设置多少分片？

2.2.2 问题 2：索引设置多少副本？

3、Mapping 如何设计？

3.1 Mapping 认知

3.2 设计 Mapping 的注意事项

3.3 Mapping 字段的设置流程

3.4 Mapping 建议结合模板定义

3.5 包含 Mapping 的 template 设计万能模板

4、分词的选型

4.1 坑 1：分词选型

4.2 坑 2：ik 要装集群的所有机器吗？

4.3 坑 3：ik 匹配不到怎么办？

5、检索类型如何选型呢？

5.1 term 精确匹配

5.2 prefix 前缀匹配

5.4 match 分词匹配

5.6 multi_match 多组匹配

5.7 query_string 类型

5.8 bool 组合匹配

6、多表关联如何设计？

6.1 为什么会有多表关联

6.2 多表关联如何实现

方案一：多表关联视图，视图同步 ES

方案二：1 对 1 同步 ES

方案三：使用 Nested 做好关联

方案三、方案四选型对比：

小结

7、实战中遇到过的坑

8、小结

相关 [elasticsearch 索引 设计] 推荐：

相关文章

订阅

相关 [elasticsearch 索引设计] 推荐：