Elasticsearch:什么是相关性

标签: 信息检索 | 发表时间:2015-05-26 09:06 | 作者:
出处:http://my.oschina.net/zjzhai

我们已经注意到,搜索结果会以相关性的倒序方式返回。但是什么是相关性,它又是如何被计算出来的呢?

每一份被搜索出来的文档都带有一个由正的浮点数来表示的相关性评分,被称为_score。这个分数越高,代表这份文档越相关。

查询子句会为每份文档生成一个评分_score。如何生成这个评分依赖于查询子句的类型。不同类型的查询子句用于不同的目的:模糊查询(fuzzy query)通过计算原始搜索单词与找到单词之间有多相似,来决定相关性评分。然而,我们平常说的相关性指的是那些我们用于计算全文字段与全文查询字符串之间有多相似的算法。

Elasticsearch标配的相似度算法(similarity algorithm)是著名的词频/反向文档频率(term frequency/inverse document frequency),或称为 TF/IDF算法。它将以下计算因子考虑在内:

词频(Term frequency)

指查询语句中的词在某个字段中出现有多频繁?越频繁,越相关。如果这个字段包含了5个查询语句提及到的词,这份文档的相关性当然大于只包含1个的。

反向文档频率(Inverse document frequency)

指查询语句中的词在索引中出现有多频繁?越频繁,越不相关。在很多文档里都出现的词的权重比起那些更不经常出现的更低。

词长基准(Field-length norm)

指这个字段有多长。越长,越不相关。一个词出现在短的title字段中比相同的词出现在长内容的content字段具有更大的权重。

当然,在某些查询语句中会将TF/IDF评分与其它评分因子结合起来使用,如短语查询(phrase query)的词接近度(term proximity)或模糊查询中的词相似度。

然而,相关性不只是用于全文搜索。它同样可以被应用于yes/no的查询子句。文档匹配到的子句越多,评分_score就越高。

当使用组合查询(compound query)——如bool查询——来组合多个查询子句时,各个查询子句的评分被组合起来共同计算出这个文档的评分。



小结

实际上, 在信息检索领域,跳过 索引这个概念直接说 相关性是不合理的。所以,当这篇文章对于不少人应该是不好理解的。但是没关系。下次我们聊聊 什么是索引。


相关 [elasticsearch 相关性] 推荐:

Elasticsearch:什么是相关性

- - 翟志军
我们已经注意到,搜索结果会以相关性的倒序方式返回. 但是什么是相关性,它又是如何被计算出来的呢. 每一份被搜索出来的文档都带有一个由正的浮点数来表示的相关性评分,被称为_score. 这个分数越高,代表这份文档越相关. 查询子句会为每份文档生成一个评分_score. 如何生成这个评分依赖于查询子句的类型.

[译]elasticsearch mapping

- - an74520的专栏
es的mapping设置很关键,mapping设置不到位可能导致索引重建. 请看下面各个类型介绍^_^. 每一个JSON字段可以被映射到一个特定的核心类型. JSON本身已经为我们提供了一些输入,支持 string,  integer/ long,  float/ double,  boolean, and  null..

Elasticsearch as Database - taowen - SegmentFault

- -
【北京上地】滴滴出行基础平台部招聘 Elasticsearch 与 Mysql binlog databus 开发工程师. 内推简历投递给: [email protected]. 推销Elasticsearch. 时间序列数据库的秘密(1)—— 介绍. 时间序列数据库的秘密(2)——索引.

ElasticSearch 2 的节点调优(ElasticSearch性能)

- - 行业应用 - ITeye博客
一个ElasticSearch集群需要多少个节点很难用一种明确的方式回答,但是,我们可以将问题细化成一下几个,以便帮助我们更好的了解,如何去设计ElasticSearch节点的数目:. 打算建立多少索引,支持多少应用. elasticsearch版本: elasticsearch-2.x. 需要回答的问题远不止以上这些,但是第五个问题往往是容易被我们忽视的,因为单个ElasticSearch集群有能力支持多索引,也就能支持多个不同应用的使用.

Elasticsearch:使用 Elasticsearch 进行语义搜索

- - 掘金 后端
在数字时代,搜索引擎在通过浏览互联网上的大量可用信息来检索数据方面发挥着重要作用. 此方法涉及用户在搜索栏中输入特定术语或短语,期望搜索引擎返回与这些确切关键字匹配的结果. 虽然关键字搜索对于简化信息检索非常有价值,但它也有其局限性. 主要缺点之一在于它对词汇匹配的依赖. 关键字搜索将查询中的每个单词视为独立的实体,通常会导致结果可能与用户的意图不完全一致.

elasticsearch的javaAPI之query

- - CSDN博客云计算推荐文章
elasticsearch的javaAPI之query API. the Search API允许执行一个搜索查询,返回一个与查询匹配的结果(hits). 它可以在跨一个或多个index上执行, 或者一个或多个types. 查询可以使用提供的 query Java API 或filter Java API.

Elasticsearch基础教程

- - 开源软件 - ITeye博客
转自:http://blog.csdn.net/cnweike/article/details/33736429.     Elasticsearch有几个核心概念. 从一开始理解这些概念会对整个学习过程有莫大的帮助.     接近实时(NRT).         Elasticsearch是一个接近实时的搜索平台.

ElasticSearch索引优化

- - 行业应用 - ITeye博客
ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展,而这ES主要是用tranlog进行各节点之间的数据平衡. 所以从上我可以通过索引的settings进行第一优化:. 这两个参数第一是到tranlog数据达到多少条进行平衡,默认为5000,而这个过程相对而言是比较浪费时间和资源的. 所以我们可以将这个值调大一些还是设为-1关闭,进而手动进行tranlog平衡.

elasticsearch集群搭建

- - zzm
之前对于CDN的日志处理模型是从 . logstash agent==>>redis==>>logstash index==>>elasticsearch==>>kibana3,对于elasticsearch集群搭建,可以把索引进行分片存储,一个索引可以分成若干个片,分别存储到集群里面,而对于集群里面的负载均衡,副本分配,索引动态均衡(根据节点的增加或者减少)都是elasticsearch自己内部完成的,一有情况就会重新进行分配.

Elasticsearch集群入门

- - 编程语言 - ITeye博客
欢迎来到Elasticsearch的奇妙世界,它是优秀的全文检索和分析引擎. 不管你对Elasticsearch和全文检索有没有经验,都不要紧. 我们希望你可以通过这本书,学习并扩展Elasticsearch的知识. 由于这本书也是为初学者准备的,我们决定先简单介绍一般性的全文检索概念,接着再简要概述Elasticsearch.