ElasticSearch中文分词ik安装

标签: elasticsearch 中文分词 ik | 发表时间:2015-01-02 22:59 | 作者:
出处:http://www.iteye.com
http://www.elasticsearch.org/overview/elkdownloads/
下载编译好的安装包,解压缩就可以直接使用
自己编译的版本在安装插件时可能会出现一些问题

上面这一步很简单,没有出现任何问题就通过了,然而在安装ik时走了很多弯路,为防止今后出现类似情况将此次安装过程中出现的问题记录下来。

1. 从elasticsearch-rtf中下载的elasticsearch-analysis-ik-1.2.6.jar直接拷贝到
ES的plugins/analysis-ik目录下,运行ES报如下错误:
org.elasticsearch.ElasticsearchIllegalArgumentException: failed to find analyzer type [ik] or tokenizer for [ik]
org.elasticsearch.common.settings.NoClassSettingsException: Failed to load class setting [type] with value [ik]
java.lang.ClassNotFoundException: org.elasticsearch.index.analysis.ik.IkAnalyzerProvider


在google上找到方法,需要自己编译ik包,原因如下:
在ik项目主页 https://github.com/medcl/elasticsearch-analysis-ik上有个
版本列表
Version
-—————
master | 1.4.0 → master
1.2.9 | 1.4.0
1.2.8 | 1.3.2
1.2.7 | 1.2.1
1.2.6 | 1.0.0
1.2.5 | 0.90.2
1.2.3 | 0.90.2
1.2.0 | 0.90.0
1.1.3 | 0.20.2
1.1.2 | 0.19.x
1.0.0 | 0.16.2 → 0.19.0

新下载的ES是1.4.2版本的,所以会出现问题。

2. 用plugin -i medcl/elasticsearch-analysis-ik 无法安装成功,应该也是版本的问题

3. 编译安装elasticsearch-analysis-ik
用需要用到maven,第一次用maven编译时间需要很长,大部分时间都是在下载依赖包,依赖包可在~/.m2中找到
在源码目录下执行 mvn package
编译完成后在target/releases目录下有个elasticsearch-analysis-ik-1.2.9.zip文件,将其拷贝到plugins/analysis-ik中解压缩即可

词库将源码包中的config/ik拷贝到ES目录下就可以了,不用作其它配置,方法参考项目主页的方法。

4. 配置,在config/elasticsearch.yml中添加下行
index.analysis.analyzer.ik.type : "ik"
直接运行,看到无错误的话,说明ik装成功



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [elasticsearch 中文分词 ik] 推荐:

ElasticSearch中文分词ik安装

- - ITeye博客
下载编译好的安装包,解压缩就可以直接使用. 自己编译的版本在安装插件时可能会出现一些问题. 上面这一步很简单,没有出现任何问题就通过了,然而在安装ik时走了很多弯路,为防止今后出现类似情况将此次安装过程中出现的问题记录下来. 从elasticsearch-rtf中下载的elasticsearch-analysis-ik-1.2.6.jar直接拷贝到.

Elasticsearch搜索中文分词优化 - 简书

- -
Elasticsearch 中文搜索时遇到几个问题:. 当搜索关键词如:“人民币”时,如果分词将“人民币”分成“人”,“民”,“币”三个单字,那么搜索该关键词会匹配到很多包含该单字的无关内容,但是如果将该词分词成一个整词“人民币”,搜索单字如“人”字又不会匹配到包含“人民币”关键词的内容,怎么解决这个问题,既保证覆盖度又保证准确度?.

热更新 IK 分词使用方法

- - zzm
1、到github网站下载源代码,网站地址为:https://github.com/medcl/elasticsearch-analysis-ik . 注意,下载对应的版本: . 右侧下方有一个按钮“Download ZIP",点击下载源代码elasticsearch-analysis-ik-master.zip.

Jcseg java中文分词器

- - 企业架构 - ITeye博客
Jcseg[dʒɛ'​ke'sɛ]完整版本(源码, 词库, 帮助文档, 词库管理工具, jar文件)下载:  http://sourceforge.net/projects/jcseg . jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口..

细说中文分词

- - 标点符
完整的中文自然语言处理过程一般包括以下五种中文处理核心技术:分词、词性标注、命名实体识别、依存句法分析、语义分析. 其中,分词是中文自然语言处理的基础, 搜素引擎、文本挖掘、机器翻译、关键词提取、 自动摘要生成等等技术都会用到中文分词,包括最近在学习的 聊天机器人、 文本相似性等. 可以说分词是自然语言大厦的地基,下面就让我们从它开始谈起.

[译]elasticsearch mapping

- - an74520的专栏
es的mapping设置很关键,mapping设置不到位可能导致索引重建. 请看下面各个类型介绍^_^. 每一个JSON字段可以被映射到一个特定的核心类型. JSON本身已经为我们提供了一些输入,支持 string,  integer/ long,  float/ double,  boolean, and  null..

Elasticsearch as Database - taowen - SegmentFault

- -
【北京上地】滴滴出行基础平台部招聘 Elasticsearch 与 Mysql binlog databus 开发工程师. 内推简历投递给: [email protected]. 推销Elasticsearch. 时间序列数据库的秘密(1)—— 介绍. 时间序列数据库的秘密(2)——索引.

漫话中文分词算法

- dumin - Matrix67: My Blog
    记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法. 最近在詹卫东老师的《中文信息处理导论》课上再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲. 在没有建立统计语言模型时,人们还在语言学的角度对自动分词进行研究,期间诞生了很多有意思的理论.

中文分词算法代码大全

- - 鲁塔弗的博客
做中文搜索,关键词提取,文档分类都离不开中文分词,能用的代码包有如下. 单字切分 sphinx只要把min_word_len设置为1,并配置charset_table,默认就是单字切分,lucene用StandardAnalyzer. CJKAnalyzer lucene自带,两两分词,就是把 ABCD 分成 AB,BC,CD 3段.

再说中文分词技术

- - 标点符
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思. 例如,英文句子I am a student,用中文则为:“我是一个学生”. 计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词.