Elasticsearch:准确值与全文本

标签: 信息检索 | 发表时间:2015-05-28 22:14 | 作者:
出处:http://my.oschina.net/zjzhai

概括地说,Elasticsearch将数据分成两类:准确值(Exact values)和全文本(Full text)。

准确值就是它们听上去的那样。诸如日期或用户ID。当然字符串也可以是准确值,如用户名或邮件地址。准确值Foo与准确值foo是不同的。准确值2014和准确值2014-09-15也是不同的。

 

另一方面,全文本(full text)指的是通常用人类语言写的文本数据,像一条tweet的文本或一封邮件的内容。

全文本也经常被称为非结构化数据(unstructured data)。这个定义并不十分恰当,因为自然语言是高度结构化的。问题在于自然语言的规则是非常复杂的,以至于计算机很难正确地解析它们。例如以下句子:May is fun but June bores me.

请问,May 和 June到底指的是月份还是人?

准确值非常容易查询。因为它要么匹配查询条件,要么不匹配。像下面这种查询就很容易使用SQL来表达:

     WHERE name = "John Smith"

          AND user_id = 2

          AND date > "2014-09-15"

相对准确值查询,全文查询更为微妙。我们不会只问:“这份文档是否能匹配这次查询”,而是问:“这份文档有多匹配这次查询”。换种说法,这份文档与这次查询有多 相关

我们很少对整个全文文本字段(full-text field)进行准确匹配。取而代之,我们会想去查询存在里面的文本字段。不过不只这种方式,我们期望搜索引擎能理解我们的意图:

     * 当我们搜索UK时,它应该还会返回提到United Kingdom的文档

     * 当我们搜索jump时,它应该还会匹配jumped、jumps、jumping,甚至leap

     * jhnny walker 应该还会匹配Johnnie Walker。 而johnnie depp应该匹配到Johnny Depp。

     * fox news hunting应该返回在Fox News上的关于hunting的故事。而fox hunting news应该返关于fox hunting的新闻。

为了使这种全文搜索更容易,Elasticsearch首先对文本进行分析,然后使用分析结果构建反向索引(inverted index)。接下来的两节,我们将讨论反向索引和这个分析过程。

小结

一开始学习信息检索时,很容易地就认为SQL语句不是完全可以实现搜索功能了么。后来学习到全文检索和反向索引,就明白信息检索背后还需要很多不同的技术来支持,如分词技术、索引、自然语言处理等。

说回来,目前我学习到,使用的都是 “索引”思路来解决搜索问题。那么是不是存在另一些人们不知道的信息检索思路?这里说的索引思路,指的是使用某种方法抽取出待搜索物的特征,查询时,只要与这些特征比较就可以哪些待搜索物匹配查询了。


相关 [elasticsearch 准确 文本] 推荐:

Elasticsearch:准确值与全文本

- - 翟志军
概括地说,Elasticsearch将数据分成两类:准确值(Exact values)和全文本(Full text). 当然字符串也可以是准确值,如用户名或邮件地址. 准确值Foo与准确值foo是不同的. 准确值2014和准确值2014-09-15也是不同的. 另一方面,全文本(full text)指的是通常用人类语言写的文本数据,像一条tweet的文本或一封邮件的内容.

Elasticsearch聚合 之 Terms 及准确性 - xingoo - 博客园

- -
之前总结过metric聚合的内容,本篇来说一下bucket聚合的知识. Bucket可以理解为一个桶,他会遍历文档中的内容,凡是符合要求的就放入按照要求创建的桶中. 本篇着重讲解的terms聚合,它是按照某个字段中的值来分类:. 比如性别有男、女,就会创建两个桶,分别存放男女的信息. 默认会搜集doc_count的信息,即记录有多少男生,有多少女生,然后返回给客户端,这样就完成了一个terms得统计.

[译] 使用 Docker 和 Elasticsearch 搭建全文本搜索引擎应用

- - IT瘾-dev
作者简介:Patrick Triest是一位全栈工程师,数据爱好者,持续学习者,洁癖编程者. 作者github地址为 https://github.com/triestpa,本文地址参见 https://blog.patricktriest.com. 本文源码可以在GitHub repository 中找到 - https://github.com/triestpa/guttenberg-search.

[译]elasticsearch mapping

- - an74520的专栏
es的mapping设置很关键,mapping设置不到位可能导致索引重建. 请看下面各个类型介绍^_^. 每一个JSON字段可以被映射到一个特定的核心类型. JSON本身已经为我们提供了一些输入,支持 string,  integer/ long,  float/ double,  boolean, and  null..

Elasticsearch as Database - taowen - SegmentFault

- -
【北京上地】滴滴出行基础平台部招聘 Elasticsearch 与 Mysql binlog databus 开发工程师. 内推简历投递给: [email protected]. 推销Elasticsearch. 时间序列数据库的秘密(1)—— 介绍. 时间序列数据库的秘密(2)——索引.

ElasticSearch 2 的节点调优(ElasticSearch性能)

- - 行业应用 - ITeye博客
一个ElasticSearch集群需要多少个节点很难用一种明确的方式回答,但是,我们可以将问题细化成一下几个,以便帮助我们更好的了解,如何去设计ElasticSearch节点的数目:. 打算建立多少索引,支持多少应用. elasticsearch版本: elasticsearch-2.x. 需要回答的问题远不止以上这些,但是第五个问题往往是容易被我们忽视的,因为单个ElasticSearch集群有能力支持多索引,也就能支持多个不同应用的使用.

Elasticsearch:使用 Elasticsearch 进行语义搜索

- - 掘金 后端
在数字时代,搜索引擎在通过浏览互联网上的大量可用信息来检索数据方面发挥着重要作用. 此方法涉及用户在搜索栏中输入特定术语或短语,期望搜索引擎返回与这些确切关键字匹配的结果. 虽然关键字搜索对于简化信息检索非常有价值,但它也有其局限性. 主要缺点之一在于它对词汇匹配的依赖. 关键字搜索将查询中的每个单词视为独立的实体,通常会导致结果可能与用户的意图不完全一致.

elasticsearch的javaAPI之query

- - CSDN博客云计算推荐文章
elasticsearch的javaAPI之query API. the Search API允许执行一个搜索查询,返回一个与查询匹配的结果(hits). 它可以在跨一个或多个index上执行, 或者一个或多个types. 查询可以使用提供的 query Java API 或filter Java API.

Elasticsearch基础教程

- - 开源软件 - ITeye博客
转自:http://blog.csdn.net/cnweike/article/details/33736429.     Elasticsearch有几个核心概念. 从一开始理解这些概念会对整个学习过程有莫大的帮助.     接近实时(NRT).         Elasticsearch是一个接近实时的搜索平台.

ElasticSearch索引优化

- - 行业应用 - ITeye博客
ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展,而这ES主要是用tranlog进行各节点之间的数据平衡. 所以从上我可以通过索引的settings进行第一优化:. 这两个参数第一是到tranlog数据达到多少条进行平衡,默认为5000,而这个过程相对而言是比较浪费时间和资源的. 所以我们可以将这个值调大一些还是设为-1关闭,进而手动进行tranlog平衡.