关于Elasticsearch里面聚合group的坑

标签： elasticsearch 聚合 group | 发表时间：2017-05-12 20:32 | 作者：

出处：http://www.iteye.com

原来知道Elasticsearch在分组聚合时有一些坑但没有细究，今天又看了遍顺便做个笔记和大家分享一下。

我们都知道Elasticsearch是一个分布式的搜索引擎，每个索引都可以有多个分片，用来将一份大索引的数据切分成多个小的物理索引，解决单个索引数据量过大导致的性能问题，另外每个shard还可以配置多个副本，来保证高可靠以及更好的抗并发的能力。

将一个索引切分成多个shard，大多数时候是没有问题的，但是在es里面如果索引被切分成多个shard，在使用group进行聚合时，可能会出现问题，这个在官网文档里，描述也非常清楚

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-terms-aggregation.html#_shard_size_3

下面就针对官网的例子，描述下，group count如果有多个shard可能会出现的问题

假设我们现在，我们有一份商品的索引数据，它有3个shard，每个shard的数据如下所示：

现在我们的需求是，按商品分组求top5的商品，es收到这个请求后，会去搜索这三个shard，然后子每个shard上面取top5，数据如下图所示：

最后，将三个shard的top5的数据，最后做一下汇聚然后最终排序取top5结果如下图：

最后我们发现这个top5的结果，并不是100%精确的，只是一个近似精确的结果值：

Product A在所有top5的shard数据里面都存在，所以它的结果是精确的， Product C仅仅返回了 shard A 和 C里面的top5的数据，所以这里显示50是不精确的， Product C在shard B里面也存在，但是它在 top5里面没有出现，所以group后的结果实际上是有误差的，再来看下 Product Z仅仅返回了2个shards的数据因为第三个里面不存在，所以它的结果是准确的，最后我们注意下 Product H实际上它的总数是44，横跨三个shard 但是它在每个shard的top5里面并没有出现，所以最终的top5里面也没有这条数据，这样看来最终的top5的值并不是100% 准确的，这一点在设计和使用es的时候需要特别注意。

虽然我们可以调大返回size的个数来提高精确度，但是size个数的提升，也意味着有更多的数据会被返回，从而会导致检索性能的下降，这一点是需要找到平衡点的。

那么有没有方法避免这种不精确的统计的呢？

答案是有的，es官网文档里面也提到，总共有2种：

第一种：

聚合操作在单个shard时是精确的，也就是说我们索引的数据全部插入到一个shard的时候它的聚合统计结果是准确的。

第二种：

在索引数据的时候，使用route路由字段，将所有聚合的数据分布到同一个shard即可，这样再聚合时也是精确的。

上面的两种办法都是可以解决的，第一种适合数据量不大的场景下，我们直接把数据放在一份索引里面，第二种办法适合数据量比较大的场景下，我们通过业务字段将相同属性的数据路由在同一个shard里面即可，具体使用哪个需要和具体的业务场景相结合。

总结：

es虽然很强大，但是在一些场景下也是有局限的，比如上面提到的聚合分组的这个情况，或者聚合分组+分页的情况，此外min，max，sum这些函数在多个shard中聚合结果是准确的，count是近似准确的，但是es能保证top 前几的数据是精确的，这也是为什么搜索引擎一般都返回top n数据作为最终的返回结果，当然上面提到那个例子，如果聚合的key本来就很少，那么它的聚合结果也是准确的，比如按性别，月份聚合，因为这些返回的key，都是有限的，所以结果没问题，但是一旦对分组的个数没法确定，这种情况下出现问题的几率就比较大，跨表或者跨分片聚合其实在任何db系统里面都会存在这种问题，所以我们应该尽量在设计业务时就考虑到这种特殊情况，然后最终做特殊处理。

有什么问题可以扫码关注微信公众号：我是攻城师(woshigcs)，在后台留言咨询。技术债不能欠，健康债更不能欠，求道之路，与君同行。

已有 0 人发表留言，猛击->> 这里<<-参与讨论

ITeye推荐

—软件人才免语言低担保赴美带薪读研！—

关于Elasticsearch里面聚合group的坑

- - ITeye博客

原来知道Elasticsearch在分组聚合时有一些坑但没有细究，今天又看了遍顺便做个笔记和大家分享一下. 我们都知道Elasticsearch是一个分布式的搜索引擎，每个索引都可以有多个分片，用来将一份大索引的数据切分成多个小的物理索引，解决单个索引数据量过大导致的性能问题，另外每个shard还可以配置多个副本，来保证高可靠以及更好的抗并发的能力.

ElasticSearch聚合分析API

- - 大涌日志｜智能金融唠叨

说完了ES的索引与检索，接着再介绍一个ES高级功能API – 聚合(Aggregations)，聚合功能为ES注入了统计分析的血统，使用户在面对大数据提取统计指标时变得游刃有余. 同样的工作，你在hadoop中可能需要写mapreduce或hive，在mongo中你必须得用大段的mapreduce脚本，而在ES中仅仅调用一个API就能实现了.

kafka consumer group offset

- - 开源软件 - ITeye博客

kafka0.9及以前版本kafka offset 保存在zookeeper，因频繁读写zookeeper性能不高；从0.10开始，主题分区offset存储于kafka独立主题中. 管理监控kafka主题及分区offset至关重要，原网上很开源流行工具KafkaOffsetMonitor、kafka-manager，旧版offset保存于zookeeper，kafka consumer无相应API，从kafka0.10.1.1以后提供相应API读取主题分区offset（也可以调用KafkaClient API，kafka管理API由scala语言编写）.

elasticsearch原理之搜索与聚合之谜

- - 开源软件 - ITeye博客

满足海量数据实时聚合要求的数据库不多，比较常见的有这么几种：. Lucene构建的“搜索引擎”：. Elasticsearch，但是聚合逻辑是自己实现的），. 其中Elasticsearch是目前市场上比较很少有的，能够在检索加载和分布式计算三个方面都做得一流的数据库. 它使用了很多技术来达到飞一般的速度.

Elasticsearch过滤与聚合的先后顺序java实现

- - 开源软件 - ITeye博客

一、Elasticsearch的聚合. ES的聚合相当于关系型数据库里面的group by，例如查找在性别字段男女人数的多少并且按照人数的多少进行排序，在使用mysql的时候，可以使用如下的句子. 在ES里面想要实现这种的语句，就叫做聚合，比如这种的聚合使用DSL语句的话如下所示：. 这样就可以实现最以上例子中的group by的功能，当然这只是最简单的聚合的使用，在ES里面的聚合有多重多样的，比如说有度量聚合，可以用来计算某一个字段的平均值最大值等，在此给出一个简单的度量聚合的例子.

Elasticsearch聚合之 Terms 及准确性 - xingoo - 博客园

- -

之前总结过metric聚合的内容，本篇来说一下bucket聚合的知识. Bucket可以理解为一个桶，他会遍历文档中的内容，凡是符合要求的就放入按照要求创建的桶中. 本篇着重讲解的terms聚合，它是按照某个字段中的值来分类：. 比如性别有男、女，就会创建两个桶，分别存放男女的信息. 默认会搜集doc_count的信息，即记录有多少男生，有多少女生，然后返回给客户端，这样就完成了一个terms得统计.

solr中facet、group查询

- - 编程语言 - ITeye博客

项目(评论)中使用solr查询的时候，有个场景需求：. 1、获取某个商品下评论的级别数量统计（比如该商品下一到五颗星的评论数量各有多少）；. 最终经过讨论，使用了solr中的group和facet完成. 先说下solr中保存的文档数据结构，如下：. .

Mapreduce实例-分组排重（group by distinct）

- - CSDN博客云计算推荐文章

需要实现以下几个类,代码太多，列了下主要代码，可根据排重数据的特征判读是否需要添加combiner来提速. job.setPartitionerClass(MyPartitioner.class); map略. combiner（根据需要添加） reduce中的实现：. 作者：liuzhoulong 发表于2013-9-5 22:17:26 原文链接.

量化InnoDB group commit的效果

- - OurMySQL

前几天有位开发的同学问了个问题，InnoDB的group commit效果如何. 之前说好了回头给看下，结果险些拖过年. Group commit 背景. InnoDB的redo log的group commit历史比较悠久了（有别于binlog的group commit）. 如果设置为1，每次事务提交都至少需要写一次redolog.

Lucene5学习之Group分组统计

- - ITeye博客

Group即分组，类似SQL里的group by功能，Lucene中分组是通过内置的几种Collector结果集收集器实现的，有关group的结果集收集器都在org.apache.lucene.search.grouping包及其子包下，. 包含group关键字的Collector都是有关Group分组的结果收集器，如果你只需要统计如下这些分组信息:.

关于Elasticsearch里面聚合group的坑

相关 [elasticsearch 聚合 group] 推荐：

关于Elasticsearch里面聚合group的坑

ElasticSearch聚合分析API

kafka consumer group offset

elasticsearch原理之搜索与聚合之谜

Elasticsearch过滤与聚合的先后顺序java实现

Elasticsearch聚合之 Terms 及准确性 - xingoo - 博客园

solr中facet、group查询

Mapreduce实例-分组排重（group by distinct）

量化InnoDB group commit的效果

Lucene5学习之Group分组统计

相关文章

订阅