[原]Lucene 4.8.0 发布了,变化一如既往的大,新特性一一解读

标签: | 发表时间:2014-04-30 06:25 | 作者:accesine960
出处:http://blog.csdn.net/accesine960

Lucene 4.8.0 发布了,变化一如既往的大,新特性一一解读



    10年之前, 你是1.0; 10年之后,你是4.8 。放在10年这个时间跨度上看,也许变化就没那么大了。


    看看这次发布有哪些变化吧:


    1、Apache Lucene 现在要求Java的最低版本为:Java 7 , update 55 ;推荐使用 Oracle Java 7 或 OpenJDK 7 ,之前版本的JVM bug 会影响到lucene。


    2、Apache Lucene全面兼容 Java 8。


    3、所有的索引文件开始存储checksums,在索引合并和读取的时候进行有效性检查。减少出现某个索引文件(物理)损坏带来的问题,主要是针对硬件或者JVM bug 引起的索引损坏。


    4、提供了针对第一次搜索结果集合的重打分(权重调整)API;相当于对搜索结果的二次自定义排序。

    5、AnalyzingInfixSuggester 类提供了支持NRT的自动建议功能。

    6、把基于批量处理的打分过程 bulk scoring 和基于迭代的打分过程分离了,这对于批量打分的过程更高效一些。

    7、在建立索引的时候针对Hash term 使用了 MurmurHash3 的hash方法,很高效的方法。

          http://zh.wikipedia.org/wiki/Murmur%E5%93%88%E5%B8%8C

    8、 IndexWriter现在支持更新二进制类型的字段了。


    9、优化了 HunspellStemFilter  占用内存的大小(10至100倍的减少)
          Hunspell 是一种检查拼写spellcheck流行的方法, OpenOffice中就用了它来进行拼写检查。
          HunspellStemFilter  是TokenFilter的扩展,可以用这个算法来过滤词的不同变形(时态,语气等)。
          中文的Token应该享受不到这个特性。
          http://en.wikipedia.org/wiki/Hunspell


     10、Lucene现在使用Java 7中的文件系统函数,比如即使在索引打开的时候,也可以删除索引文件。

     11、修复了NativeFSLockFactory 中的一个严重的bug :允许多个IndexWriter获得一个lock。
             所以强烈建议升级到 lucene 4.8 。

            

    参考:

            1、 http://lucene.apache.org/core/4_8_0/changes/Changes.html#v4.8.0.new_features

             2、 Lucene 4.0 正式版发布,亮点特性中文解读

             3、欢迎订阅作者 微博

作者:accesine960 发表于2014-4-29 22:25:02 原文链接
阅读:147 评论:0 查看评论

相关 [lucene 变化 一如] 推荐:

[原]Lucene 4.8.0 发布了,变化一如既往的大,新特性一一解读

- - 我要去桂林
Lucene 4.8.0 发布了,变化一如既往的大,新特性一一解读.     10年之前, 你是1.0; 10年之后,你是4.8. 放在10年这个时间跨度上看,也许变化就没那么大了.     看看这次发布有哪些变化吧:.     1、Apache Lucene 现在要求Java的最低版本为:Java 7 , update 55 ;推荐使用 Oracle Java 7 或 OpenJDK 7 ,之前版本的JVM bug 会影响到lucene.

lucene排序

- - 开源软件 - ITeye博客
排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博客,有了排序,我们就能在某些时候很方便快速的得到某些有效信息,所以说排序功能,无处不在 ^_^.

[原]Lucene系列-facet

- - 文武天下
facet:面、切面、方面. 个人理解就是维度,在满足query的前提下,观察结果在各维度上的分布(一个维度下各子类的数目). 如jd上搜“手机”,得到4009个商品. 其中品牌、网络、价格就是商品的维度(facet),点击某个品牌或者网络,获取更细分的结果. 点击品牌小米,获得小米手机的结果,显示27个.

[原]Lucene系列-FieldCache

- - 文武天下
域缓存,加载所有文档中某个特定域的值到内存,便于随机存取该域值. 当用户需要访问各文档中某个域的值时,IndexSearcher.doc(docId)获得Document的所有域值,但访问速度比较慢,而且只能获得Stored域的值. FieldCache能获得域值数组,根据docId random access域值.

Lucene 使用教程

- - 行业应用 - ITeye博客
1 lucene简介 . 1.1 什么是lucene . Lucene是一个全文搜索框架,而不是应用产品. 因此它并不像 http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品. 1.2 lucene能做什么 . 要回答这个问题,先要了解lucene的本质.

Lucene 4.x 之 IndexReader

- - zzm
在Lucene 3.x时代,《Lucene In Action》是一本相当不错的参考书,书中详细介绍了Lucene各种高级使用技术,对于开发者来说非常实用. 但是近期Lucene升级到了4.x版本,在性能等各方面有了很大的提高,值得在新项目中使用. 然而Lucene 4.x中的API相比3.x来说有了很大的改变,《Lucene In Action》中的很多内容都已经过时了,并且由于4.x推出的时间不长,还没有比较好的文档来对用法进行说明,这个系列文章就是想记录下自己使用Lucene 4.x的经验体会,供大家参考使用.

文章: 集成Lucene和HBase

- - InfoQ cn
在所有先进的应用程序中,不管是购物站点还是社交网络乃至风景名胜站点,搜索都扮演着关键的角色. Lucene搜索程序库事实上已经成为实现搜索引擎的标准. 苹果、IBM、Attlassian(Jira)、Wolfram以及很多大家喜欢的公司【1】都使用了这种技术. 因此,大家对任何能够提升Lucene的可伸缩性和性能的实现都很感兴趣.

Solr\Lucene优劣势分析

- - 淘宝网综合业务平台团队博客
最早lucene2.4以及以前,追溯到2008年前后,lucene刚刚引起大家的关注,到后来Nutch. 、solr的出现,lucene变得更加热. Nutch、Solr的发展,极大推动了lucene的升级. 对于一些接触过搜索,使用过lucene、solr的人来说,一般都会感觉lucene、solr很牛逼.