Elasticsearch搜索中文分词优化 - 简书

标签: | 发表时间:2020-06-22 15:18 | 作者:
出处:https://www.jianshu.com

Elasticsearch 中文搜索时遇到几个问题:

    1. 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?
    1. 搜索“RMB”时只会匹配到包含“RMB”关键词的内容,实际上,“RMB”和“人民币”是同义词,我们希望用户搜索“RMB”和“人民币”可以相互匹配,ES同义词怎么配置?
    1. 用户搜索拼音: 如"baidu",或者拼音首字母"bd",怎么匹配到"百度"这个关键词,又如用户输入"摆渡"这个词也能匹配到"百度"关键词,中文拼音匹配怎么做到?
    1. 怎么保证搜索关键词被正确分词,通常我们会采用自定义词典来做,那么怎么获取自定义词典?

接下来从以下几点讲一下怎么ES中文分词

  1. 中文分词器
  2. ES 分词流程之 analysis,analyzer,filter,tokenizer
  3. ES内置分词器
  4. 自定义analyzer
  5. ES同义词功能实现
  6. ES拼写纠错
  7. ES自定义词典获取
  8. 停用词

1.IK 分词器

  • 1,Elasticsearch中文分词我们采用Ik分词,ik有两种分词模式,ik_max_word,和ik_smart模式;
    • ik_max_word 和 ik_smart 什么区别?

ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;
ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。

索引时,为了提供索引的覆盖范围,通常会采用ik_max_word分析器,会以最细粒度分词索引,搜索时为了提高搜索准确度,会采用ik_smart分析器,会以粗粒度分词
字段mapping设置如下:

    "author": {
            "type": "string",
            "analyzer": "ik",
            "search_analyzer": "ik_smart"
        }

2.Elasticsearch之分析(analysis)和分析器(analyzer)

analysis索引分析模块充当analyzer分析器的可配置注册表,通过analyzer对文档索引阶段的字段和搜索String进行处理,自定义analyzer时,通常需要character filter tokenizer token filters来完成

2.1 character filter 字符过滤器

首先字符串经过过滤器(character filter),他们的工作是在分词前处理字符串。字符过滤器能够去除HTML标记,例如把“<a>”变成“a

2.2 tokenizer 分词器

英文分词可以根据空格将单词分开,中文分词比较复杂,可以采用机器学习算法来分词

2.2 token filters 表征过滤器

最后,每个词都通过所有表征过滤(token filters),他可以修改词(例如将“Quick”转为小写),去掉词(例如停用词像“a”、“and”、“the”等等),或者增加词(例如同义词像“a”、“and”、“the”等等)或者增加词(例如同义词像“jump”和“leap”)。

2.3 ES分词流程

character filter-->>tokenizer-->>token filters

2.5 自定义analyzer

官网example:

    index :
    analysis :
        analyzer :
            myAnalyzer2 :
                type : custom
                tokenizer : myTokenizer1
                filter : [myTokenFilter1, myTokenFilter2]
                char_filter : [my_html]
                position_increment_gap: 256
        tokenizer :
            myTokenizer1 :
                type : standard
                max_token_length : 900
        filter :
            myTokenFilter1 :
                type : stop
                stopwords : [stop1, stop2, stop3, stop4]
            myTokenFilter2 :
                type : length
                min : 0
                max : 2000
        char_filter :
              my_html :
                type : html_strip
                escaped_tags : [xxx, yyy]
                read_ahead : 1024
2.6 分词mapping设置

通常为了保证索引时覆盖度和搜索时准确度,索引分词器采用ik_max_word,搜索分析器采用ik_smart模式

    "content": {
          "type": "string",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_smart"
        }
1.7 如果更改了mapping分词器,需要重新索引数据才能生效
    POST /_reindex
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

因为倒排索引中的数据是索引时由分词器来处理的,如果分词器有变化,那么搜索时query关键词即使和doc中关键词相同,但是因为分词器的原因,分出来的词会出现不匹配的情况,因此当mapping或者分词器字典同义词词典等发生变化时,需要reindex索引数据

1.8 分词测试
    http://127.0.0.1:9200/index/_analyze?analyzer=ik_max_word&pretty=true&text=中国驻洛杉矶
1.8 更改别名,不重启服务切换索引
    POST /_aliases

{  
  "actions": [  
    {  
      "remove": {  
        "index": "oldindex",  
        "alias": "alias_oldindex"  
      }  
    },  
    {  
      "add": {  
        "index": "newindex",  
        "alias": "alias_oldindex"  
      }  
    }  
  ]  
}

2 同义词

2.1 建议同义词词典

  • elasticsearch /config/analysis 下建议同义词词典文件pro_synonym.txt,采用UTF-8编码,写入内容
  • 同义词内容格式 ,注意标点符号使用英文符号
    • 启航 => 起航 : "=>"左边的词全部会被右边的词替换
    • 启航,起航 :使用","英文逗号分隔,两个词是互等的,分词时会同时分成两个词进行索引或者检索,如"启航"会被分成"启航","起航"两个词分别建立索引或者去倒排索引检索

自定义添加同义词通过ik分词器

    "settings": {
        "analysis": {
            "filter": {
                "my_synonym_filter": {
                    "type": "synonym",
                    "synonyms_path": "analysis/pro_synonym.txt"
                }
            },
            "analyzer": {
                "ik_syno_max_word": {
                    "tokenizer": "ik",
                    "filter": "my_synonym_filter"
                },
                "ik_syno_smart": {
                    "tokenizer": "ik_smart",
                    "filter": "my_synonym_filter"
                }
            }
        }
    }

想查看同义词效果或者测试分词效果

    http://192.168.0.100:9200/index/_analyze?analyzer=ik_max_word&pretty=true&text=启航

3 Suggest分词

suggest词需要对拼音前缀,全拼,中文进行前缀匹配,例如:“百度”一词,键入"baidu","bd","百"都必须匹配到,因此在索引的时候需要一词分多个分词器来索引保存,中文采用单字分词,拼音首字母和全拼需要自定义analyzer来索引。

  • Elasticsearch Suggest setting mapping设置参考如下
    {
    "mappings": {
        "suggest": {
            "properties": {
                "full_pinyin": {
                    "type": "completion",
                    "analyzer": "full_pinyin_analyzer",
                    "payloads": true,
                    "preserve_separators": false,
                    "preserve_position_increments": true,
                    "max_input_length": 50
                },
                "prefix_pinyin": {
                    "type": "completion",
                    "analyzer": "prefix_pinyin_analyzer",
                    "search_analyzer": "standard",
                    "payloads": true,
                    "preserve_separators": false,
                    "preserve_position_increments": true,
                    "max_input_length": 50
                },
                "suggestText": {
                    "type": "completion",
                    "analyzer": "standard",
                    "payloads": true,
                    "preserve_separators": false,
                    "preserve_position_increments": true,
                    "max_input_length": 50
                }
            }
        }
    },
    "settings": {
        "index": {
            "analysis": {
                "filter": {
                    "_pattern": {
                        "type": "pattern_capture",
                        "preserve_original": "1",
                        "patterns": ["([0-9])", "([a-z])"]
                    },
                    "full_pinyin": {
                        "keep_first_letter": "false",
                        "keep_none_chinese_in_first_letter": "false",
                        "type": "pinyin",
                        "keep_original": "false",
                        "keep_full_pinyin": "true"
                    },
                    "prefix_pinyin": {
                        "keep_first_letter": "true",
                        "none_chinese_pinyin_tokenize": "false",
                        "type": "pinyin",
                        "keep_original": "false",
                        "keep_full_pinyin": "false"
                    }
                },
                "analyzer": {
                    "full_pinyin_analyzer": {
                        "filter": ["lowercase", "full_pinyin"],
                        "tokenizer": "standard"
                    },
                    "prefix_pinyin_analyzer": {
                        "filter": ["lowercase", "prefix_pinyin"],
                        "tokenizer": "standard"
                    }
                }
            }
        }
    }
}

4 中文拼音搜索

1.关于搜索关键词会将不相关词搜索出来
  • 解决单字搜索的一种方案
    • 问题:搜索时,搜索牙膏,需检索出包含“牙膏”二字的内容,过滤掉包含“牙”或者“膏”的内容,但是搜索单字“牙”或者“膏”时需要将牙膏匹配出来
    • 方案:加入单字字典,ik_max_word分词时,会把所有形式分出来,因此单字字典,此分词模式下会将单字索引起来,ik_smart会按照最粗粒度分词,搜索关键词时不会匹配单字内容
    • 索引和搜索采用不同分词器 "analyzer": "ik", "search_analyzer": "ik_smart"
    • 过程:更改mapping,searchAnalyzer=ik_smart,reindex,reindex现有数据 参考资料
    POST /_reindex
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

部分内容有待完善

相关 [elasticsearch 搜索 中文分词] 推荐:

Elasticsearch搜索中文分词优化 - 简书

- -
Elasticsearch 中文搜索时遇到几个问题:. 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?.

ElasticSearch中文分词ik安装

- - ITeye博客
下载编译好的安装包,解压缩就可以直接使用. 自己编译的版本在安装插件时可能会出现一些问题. 上面这一步很简单,没有出现任何问题就通过了,然而在安装ik时走了很多弯路,为防止今后出现类似情况将此次安装过程中出现的问题记录下来. 从elasticsearch-rtf中下载的elasticsearch-analysis-ik-1.2.6.jar直接拷贝到.

[Elasticsearch] 分布式搜索

- - 编程语言 - ITeye博客
本文翻译自Elasticsearch官方指南的 Distributed Search Execution一章. 在继续之前,我们将绕一段路来谈谈在分布式环境中,搜索是如何执行的. 和在分布式文档存储(Distributed Document Store)中讨论的基本CRUD操作相比,这个过程会更加复杂一些.

ElasticSearch入门-搜索如此简单

- - ITeye博客
搜索引擎我也不是很熟悉,但是数据库还是比较了解. 可以把搜索理解为数据库的like功能的替代品. 第一、like的效率不行,在使用like时,一般都用不到索引,除非使用前缀匹配,才能用得上索引. 第二、like的不能做到完全的模糊匹配. 比如like '%化痰冲剂%'就不能把”化痰止咳冲剂“搜索出来.

Elasticsearch搜索类型(query type)详解

- - ITeye博客
欢迎发送邮件至 [email protected] 请支持原创 http://donlianli.iteye.com/blog/2094305. es在查询时,可以指定搜索类型为QUERY_THEN_FETCH,QUERY_AND_FEATCH,DFS_QUERY_THEN_FEATCH和DFS_QUERY_AND_FEATCH.

基于Elasticsearch实现搜索推荐

- - GinoBeFunny
在 基于Elasticsearch实现搜索建议一文中我们曾经介绍过如何基于Elasticsearch来实现搜索建议,而本文是在此基础上进一步优化搜索体验,在当搜索无结果或结果过少时提供推荐搜索词给用户. 在根据用户输入和筛选条件进行搜索后,有时返回的是无结果或者结果很少的情况,为了提升用户搜索体验,需要能够给用户推荐一些相关的搜索词,比如用户搜索【迪奥】时没有找到相关的商品,可以推荐搜索【香水】、【眼镜】等关键词.

基于Elasticsearch实现搜索建议

- - GinoBeFunny
搜索建议是搜索的一个重要组成部分,一个搜索建议的实现通常需要考虑建议词的来源、匹配、排序、聚合、关联的文档数和拼写纠错等,本文介绍一个基于Elasticsearch实现的搜索建议. 电商网站的搜索是最基础最重要的功能之一,搜索框上面的良好体验能为电商带来更高的收益,我们先来看看淘宝、京东、亚马逊网站的搜索建议.

【翻译】用 elasticsearch 和 elasticsearch 为数十亿次客户搜索提供服务

- - IT技术博客大学习
标签:   elasticsearch   elasticsearch   搜索.    原文地址: http://www.elasticsearch.org/blog/using-elasticsearch-and-logstash-to-serve-billions-of-searchable-events-for-customers/.

Elasticsearch分布式搜索架构原理 | Elasticsearch权威指南(中文版)

- -
在继续之前,我们将绕道讲一下搜索是如何在分布式环境中执行的. 它比我们之前讲的基础的增删改查(create-read-update-delete,CRUD)请求要复杂一些. 本章的信息只是出于兴趣阅读,使用Elasticsearch并不需要理解和记住这里的所有细节. 阅读这一章只是增加对系统如何工作的了解,并让你知道这些信息以备以后参考,所以别淹没在细节里.

开源搜索引擎评估:lucene sphinx elasticsearch

- - 鲁塔弗的博客
lucene系,java开发,包括 solr和 elasticsearch. sphinx,c++开发,简单高性能. 搜索引擎程序这个名称不妥当,严格说来应该叫做 索引程序(indexing program),早期主要用来做中文全文搜索,但是随着互联网的深入普及,各家网站规模越来越大,索引程序在 优化网站架构上发挥了更大的作用: 替代mysql数据库 内置的索引.