lucene字典实现原理 - zhanlijun

标签： lucene 字典原理 | 发表时间：2014-11-24 22:51 | 作者：zhanlijun

出处：

1 lucene字典

使用lucene进行查询不可避免都会使用到其提供的字典功能，即根据给定的term找到该term所对应的倒排文档id列表等信息。实际上lucene索引文件后缀名为tim和tip的文件实现的就是lucene的字典功能。

怎么实现一个字典呢？我们马上想到排序数组，即term字典是一个已经按字母顺序排序好的数组，数组每一项存放着term和对应的倒排文档id列表。每次载入索引的时候只要将term数组载入内存，通过二分查找即可。这种方法查询时间复杂度为Log(N)，N指的是term数目，占用的空间大小是O(N*str(term))。排序数组的缺点是消耗内存，即需要完整存储每一个term，当term数目多达上千万时，占用的内存将不可接受。

2 常用字典数据结构

很多数据结构均能完成字典功能，总结如下。

数据结构优缺点

排序列表Array/List 使用二分法查找，不平衡

HashMap/TreeMap 性能高，内存消耗大，几乎是原始数据的三倍

Skip List 跳跃表，可快速查找词语，在lucene、redis、Hbase等均有实现。相对于TreeMap等结构，特别适合高并发场景（ Skip List介绍）

Trie 适合英文词典，如果系统中存在大量字符串且这些字符串基本没有公共前缀，则相应的trie树将非常消耗内存（数据结构之trie树）

Double Array Trie 适合做中文词典，内存占用小，很多分词工具均采用此种算法（深入双数组Trie）

Ternary Search Tree 三叉树，每一个node有3个节点，兼具省空间和查询快的优点（ Ternary Search Tree）

Finite State Transducers (FST) 一种有限状态转移机，Lucene 4有开源实现，并大量使用

3 FST原理简析

lucene从4开始大量使用的数据结构是FST（Finite State Transducer）。FST有两个优点：1）空间占用小。通过对词典中单词前缀和后缀的重复利用，压缩了存储空间；2）查询速度快。O(len(str))的查询时间复杂度。

下面简单描述下FST的构造过程（工具演示： http://examples.mikemccandless.com/fst.py?terms=&cmd=Build+it%21）。我们对“cat”、 “deep”、 “do”、 “dog” 、“dogs”这5个单词进行插入构建FST（注：必须已排序）。

1）插入“cat”

插入cat，每个字母形成一条边，其中t边指向终点。

2）插入“deep”

与前一个单词“cat”进行最大前缀匹配，发现没有匹配则直接插入，P边指向终点。

3）插入“do”

与前一个单词“deep”进行最大前缀匹配，发现是d，则在d边后增加新边o，o边指向终点。

4）插入“dog”

与前一个单词“do”进行最大前缀匹配，发现是do，则在o边后增加新边g，g边指向终点。

5）插入“dogs”

与前一个单词“dog”进行最大前缀匹配，发现是dog，则在g后增加新边s，s边指向终点。

最终我们得到了如上一个有向无环图。利用该结构可以很方便的进行查询，如给定一个term “dog”，我们可以通过上述结构很方便的查询存不存在，甚至我们在构建过程中可以将单词与某一数字、单词进行关联，从而实现key-value的映射。

4 FST使用与性能评测

我们可以将FST当做Key-Value数据结构来进行使用，特别在对内存开销要求少的应用场景。Lucene已经为我们提供了开源的FST工具，下面的代码是使用说明。

1 public static void main(String[] args) {
2 try {
3 String inputValues[] = {"cat", "deep", "do", "dog", "dogs"};
4 long outputValues[] = {5, 7, 17, 18, 21};
5 PositiveIntOutputs outputs = PositiveIntOutputs.getSingleton(true);
6 Builder<Long> builder = new Builder<Long>(FST.INPUT_TYPE.BYTE1, outputs);
7 BytesRef scratchBytes = new BytesRef();
8 IntsRef scratchInts = new IntsRef();
9 for (int i = 0; i < inputValues.length; i++) {
10 scratchBytes.copyChars(inputValues[i]);
11 builder.add(Util.toIntsRef(scratchBytes, scratchInts), outputValues[i]);
12 }
13 FST<Long> fst = builder.finish();
14 Long value = Util.get(fst, new BytesRef("dog"));
15 System.out.println(value); // 18
16 } catch (Exception e) {
17 ;
18 }
19 }

FST压缩率一般在3倍~20倍之间，相对于TreeMap/HashMap的膨胀3倍，内存节省就有9倍到60倍！（摘自：把自动机用作 Key-Value 存储），那FST在性能方面真的能满足要求吗？下面是在苹果笔记本（i7处理器）进行的简单测试，性能虽不如TreeMap和HashMap，但也算良好，能够满足大部分应用的需求。

参考文献

http://sbp810050504.blog.51cto.com/2799422/1361551

http://blog.sina.com.cn/s/blog_4bec92980101hvdd.html

http://blog.mikemccandless.com/2013/06/build-your-own-finite-state-transducer.html

http://examples.mikemccandless.com/fst.py?terms=mop%2F0%0D%0Amoth%2F1%0D%0Apop%2F2%0D%0Astar%2F3%0D%0Astop%2F4%0D%0Atop%2F5%0D%0Atqqq%2F6&cmd=Build+it%21

本文链接： lucene字典实现原理，转载请注明。

lucene字典实现原理 - zhanlijun

- - 博客园_首页

使用lucene进行查询不可避免都会使用到其提供的字典功能，即根据给定的term找到该term所对应的倒排文档id列表等信息. 实际上lucene索引文件后缀名为tim和tip的文件实现的就是lucene的字典功能. 怎么实现一个字典呢. 我们马上想到排序数组，即term字典是一个已经按字母顺序排序好的数组，数组每一项存放着term和对应的倒排文档id列表.

Lucene实践：全文检索的基本原理

- - 开源软件 - ITeye博客

http://lucene.apache.org/java/docs/index.html 定义：. 是一个高效的，基于Java. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 我们生活中的数据总体分为两种：. 结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等. 非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等.

lucene排序

- - 开源软件 - ITeye博客

排序是对于全文检索来言是一个必不可少的功能，在实际运用中，排序功能能在某些时候给我们带来很大的方便，比如在淘宝，京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品，或者通过排序来找到评论数最高或卖的最好的商品，再比如在Iteye里的博客栏里，每天都会以降序的方式，来显示出最新发出的几篇博客，有了排序，我们就能在某些时候很方便快速的得到某些有效信息，所以说排序功能，无处不在 ^_^.

[原]Lucene系列-facet

- - 文武天下

facet：面、切面、方面. 个人理解就是维度，在满足query的前提下，观察结果在各维度上的分布（一个维度下各子类的数目）. 如jd上搜“手机”，得到4009个商品. 其中品牌、网络、价格就是商品的维度(facet)，点击某个品牌或者网络，获取更细分的结果. 点击品牌小米，获得小米手机的结果，显示27个.

[原]Lucene系列-FieldCache

- - 文武天下

域缓存，加载所有文档中某个特定域的值到内存，便于随机存取该域值. 当用户需要访问各文档中某个域的值时，IndexSearcher.doc(docId)获得Document的所有域值，但访问速度比较慢，而且只能获得Stored域的值. FieldCache能获得域值数组，根据docId random access域值.

Lucene 使用教程

- - 行业应用 - ITeye博客

1 lucene简介 . 1.1 什么是lucene . Lucene是一个全文搜索框架，而不是应用产品. 因此它并不像 http://www.baidu.com/ 或者google Desktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品. 1.2 lucene能做什么 . 要回答这个问题，先要了解lucene的本质.

Lucene 4.x 之 IndexReader

- - zzm

在Lucene 3.x时代，《Lucene In Action》是一本相当不错的参考书，书中详细介绍了Lucene各种高级使用技术，对于开发者来说非常实用. 但是近期Lucene升级到了4.x版本，在性能等各方面有了很大的提高，值得在新项目中使用. 然而Lucene 4.x中的API相比3.x来说有了很大的改变，《Lucene In Action》中的很多内容都已经过时了，并且由于4.x推出的时间不长，还没有比较好的文档来对用法进行说明，这个系列文章就是想记录下自己使用Lucene 4.x的经验体会，供大家参考使用.

文章：集成Lucene和HBase

- - InfoQ cn

在所有先进的应用程序中，不管是购物站点还是社交网络乃至风景名胜站点，搜索都扮演着关键的角色. Lucene搜索程序库事实上已经成为实现搜索引擎的标准. 苹果、IBM、Attlassian（Jira）、Wolfram以及很多大家喜欢的公司【1】都使用了这种技术. 因此，大家对任何能够提升Lucene的可伸缩性和性能的实现都很感兴趣.

Solr\Lucene优劣势分析

- - 淘宝网综合业务平台团队博客

最早lucene2.4以及以前，追溯到2008年前后，lucene刚刚引起大家的关注，到后来Nutch. 、solr的出现，lucene变得更加热. Nutch、Solr的发展，极大推动了lucene的升级. 对于一些接触过搜索，使用过lucene、solr的人来说，一般都会感觉lucene、solr很牛逼.

lucene字典实现原理 - zhanlijun

相关 [lucene 字典原理] 推荐：

lucene字典实现原理 - zhanlijun

Lucene实践：全文检索的基本原理

lucene排序

[原]Lucene系列-facet

[原]Lucene系列-FieldCache

Lucene 使用教程

Lucene 4.x 之 IndexReader

文章：集成Lucene和HBase

Solr\Lucene优劣势分析

相关文章

订阅

数据结构	优缺点
排序列表Array/List	使用二分法查找，不平衡
HashMap/TreeMap	性能高，内存消耗大，几乎是原始数据的三倍
Skip List	跳跃表，可快速查找词语，在lucene、redis、Hbase等均有实现。相对于TreeMap等结构，特别适合高并发场景（ Skip List介绍）
Trie	适合英文词典，如果系统中存在大量字符串且这些字符串基本没有公共前缀，则相应的trie树将非常消耗内存（数据结构之trie树）
Double Array Trie	适合做中文词典，内存占用小，很多分词工具均采用此种算法（深入双数组Trie）
Ternary Search Tree	三叉树，每一个node有3个节点，兼具省空间和查询快的优点（ Ternary Search Tree）
Finite State Transducers (FST)	一种有限状态转移机，Lucene 4有开源实现，并大量使用

lucene字典实现原理 - zhanlijun

相关 [lucene 字典 原理] 推荐：

相关文章

订阅

相关 [lucene 字典原理] 推荐：