影响lucene的评分的几种方法

标签: lucene 方法 | 发表时间:2014-02-26 15:32 | 作者:ddlgyq
出处:http://www.iteye.com

评分功能,在全文检索中也算是一个非常重要的模块,因为评分的好坏,直接决定着用户搜索匹配的相关性,试想一下假如用户输入了一个搜索词,搜索引擎返回了一大堆不相关的信息,或者没有层次性,重点性的结果,那么看起来将是一件多么糟糕的事情。

lucene默认的评分机制,用的VSM(Vector  Space Model)空间向量模型,基于TF-IDF的评选方式,TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性 随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询 之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。

TF-IDF模型,作为一种加权策略,在信息检索,搜索引擎,数据挖掘方面被广泛应用,这种模型在lucene中也得到了很好的实现。


我们先来看下,一般常用的方法加权,在索引时给某个
Field加权

<pre name="code" class="java"> Field field=   new Field("title", "过程", type);
   field.setBoost(10.0f);</pre>
这种方式在lucene4.x之前可以给文档和域分别进行加权,但是在4.x之后,只能给域加权,废弃了文档加权的方式,如果想给文档加权,就需要对每个域分别加权,来提升这个文档的权重。

对比索引时的加权,我们在检索时也可以设置加权boost,代码示例如下:

<pre name="code" class="java">Query q=parser.parse(term);
q.setBoost(8f);//检索时加权

</pre>
或者也可以用,queryparse的解析表达式表示:
<pre name="code" class="java">Query q=parser.parse("lucene^10 solr^5");</pre>

除了,上面的几种方式外,我们还可以自定义评分在源码级别改变一些打分策略:

1,coord(int overlap, int maxOverlap),协调因子,这个因素起什么作用呢,

举个例子现在我索引里面有2条数据:

(1)中国一个多民族国家
(2)中国是世界人口大国

当我们检索“中国”的时候,会发现这两个文档的评分一样,因为他们的长度也相等,
而当我们检索“中国   民族”的时候会发现第一个文档会排在前面而且得分要高,为什么呢?

overlap的个数,代表我们在文档中命中的个数
maxOverlap的个数,代表着检索条件里面的个数==&gt;“中国   民族”2个

由此我们假设其他的条件一样的情况下可以推算出1的得分=2/2=1
而第二个的评分是=1/2=0.5
所以文档1的评分会更好,因为它命中了更多的term。

在源码里方法如下:

<pre name="code" class="java"> public float coord(int overlap, int maxOverlap) {
    return overlap / (float)maxOverlap;
  }</pre>

2,影响评分的第二个因素queryNorm,这个因素,影响评分,但不影响排序的结果,举个例子,如果我们想要把lucene的所有的记录得分的结果,给整体变大,或变小一些,那么我们就可以调整个参数,来控制整体的得分比率。
在lucene的源码里表示如下方法:

<pre name="code" class="java"> public float queryNorm(float sumOfSquaredWeights) {
    return (float)(1.0 / Math.sqrt(sumOfSquaredWeights));
  }</pre>

3,影响评分的第三个因素,TF,这个因素代表着一个term在某一篇文档中,如果它出现的频次越大,那么对应的评分就越高,我们假设,其他的评分因子都一样,有如下2篇文档:

(1)中国人的一天是怎么度过的呀?
(2)我们是中国人,他们也是中国人


我们检索“中国人”,会发现文档2的得分会比文档1的高,因为中国人的这个term,在文档2中出现了2次,在文档1中,只出现了一次。由此计算评分得:

假设基数都一样是10,那么文档1的得分=10*1=10
而文档二的得分则是=10*2=20,假设其他因子都一样,那么此时
文档2的总体评分就会高于文档1,在显示结果时,会优先排在命中结果集的上方。
lucene源码里的方法如下:

<pre name="code" class="java"> public float tf(float freq) {
    return (float)Math.sqrt(freq);
  }</pre>

4,影响评分的第四个因素IDF,这个参数代表的含义是,在所有的文档中,如果某个term频繁出现,那么这个term就被认为是普遍词,所以它的得分就要被减免。

举例如下3个文档:
(1)狗是一种聪明的动物。
(2)猫和狗你更喜欢那个。
(3)狗的种类也有许多种。

现在我们检索“狗  猫”,结果呢,我们会发现文档2排在结果集的首位,为什么呢?
这其实就是IDF的思想,因为狗这个term在所有的文档中出现的次数大于猫,所以在IDF进行评分时,会降低其的评分。

在lucene源码里,idf的方法如下:
注意加1的二个作用第一个是为了避免除数的为0的情况,第二个是为了这个文档在整个文档中不存在的时候,避免其的评分为0的情况存在。

<pre name="code" class="java"> public float idf(long docFreq, long numDocs) {
    return (float)(Math.log(numDocs/(double)(docFreq+1)) + 1.0);
  }</pre>
5,影响评分的第五个因素lengthNorm,这个因素是基于文档内容的长度计算的。举例如下:

有2个文档:
(1)中国
(2)中国人

这个时候我们在检索“中国”的时候,文档1就会排在文档2的前面,为什么会这样呢,明明中国一词在他们中间都出现了一次,造成这样情况出现,恰恰是由于lucene在计算评分,会将文档的长度计算在里面,因为根据常识,较短文本里,出现命中的词,说明这个词更加重要。

lucene源码里的代码如下:

<pre name="code" class="java">public float lengthNorm(FieldInvertState state) {
    final int numTerms;
    if (discountOverlaps)//代表对同义词不出理
      numTerms = state.getLength() - state.getNumOverlap();
    else
      numTerms = state.getLength();
   return state.getBoost() * ((float) (1.0 / Math.sqrt(numTerms)));
  }</pre>


6,lucene里影响评分的第六个因素,载荷Payload,这个功能是一个高级的功能,可以存储时,存储额外的信息,从而在检索时,达到从某种类型的数据动态加权。

举个例子,我们可能希望某个XML里面被如果含 有&lt;keyword&gt;&lt;/keywrod&gt;标记的词从而拥有更高的加权,这时候我们就可以利用 载荷实现了,在索引的时候,我们判断term里的标签标记,如果出现了这个特定标签的标记的term,我们就额外存储它的加权载荷信息,从而再检索时,来 达到一个良好的检索结果。这时候使用载荷,是一个再好不过的选择了。

lucene的源码里对载荷的方法描述如下:

<pre name="code" class="java">  public float scorePayload(int doc, int start, int end, BytesRef payload) {
    return 1;
  }
</pre>

\上文介绍的6种因素外,加上散仙在文章开始部位介绍的boost放权,目前已经介绍了7种影响打分的因素,当然到这里,并不意味着,这些就是全部 的影响评分的方法了,事实上除了这些,还有一些其他的自定义评分的方式,这个散仙会在后续的文章里介绍,大部分的时候,我们了解,利用这些信息,就能解决 狠多业务上的需求了,所以我们可以在我们需要的任何时候,都可以继承DefaultSimilarity类,来重写和我们业务相关的最好的打分策略。

 

 

转载



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [lucene 方法] 推荐:

影响lucene的评分的几种方法

- - 开源软件 - ITeye博客
评分功能,在全文检索中也算是一个非常重要的模块,因为评分的好坏,直接决定着用户搜索匹配的相关性,试想一下假如用户输入了一个搜索词,搜索引擎返回了一大堆不相关的信息,或者没有层次性,重点性的结果,那么看起来将是一件多么糟糕的事情. lucene默认的评分机制,用的VSM(Vector  Space Model)空间向量模型,基于TF-IDF的评选方式,TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术.

lucene排序

- - 开源软件 - ITeye博客
排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博客,有了排序,我们就能在某些时候很方便快速的得到某些有效信息,所以说排序功能,无处不在 ^_^.

[原]Lucene系列-facet

- - 文武天下
facet:面、切面、方面. 个人理解就是维度,在满足query的前提下,观察结果在各维度上的分布(一个维度下各子类的数目). 如jd上搜“手机”,得到4009个商品. 其中品牌、网络、价格就是商品的维度(facet),点击某个品牌或者网络,获取更细分的结果. 点击品牌小米,获得小米手机的结果,显示27个.

[原]Lucene系列-FieldCache

- - 文武天下
域缓存,加载所有文档中某个特定域的值到内存,便于随机存取该域值. 当用户需要访问各文档中某个域的值时,IndexSearcher.doc(docId)获得Document的所有域值,但访问速度比较慢,而且只能获得Stored域的值. FieldCache能获得域值数组,根据docId random access域值.

Lucene 使用教程

- - 行业应用 - ITeye博客
1 lucene简介 . 1.1 什么是lucene . Lucene是一个全文搜索框架,而不是应用产品. 因此它并不像 http://www.baidu.com/ 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品. 1.2 lucene能做什么 . 要回答这个问题,先要了解lucene的本质.

Lucene 4.x 之 IndexReader

- - zzm
在Lucene 3.x时代,《Lucene In Action》是一本相当不错的参考书,书中详细介绍了Lucene各种高级使用技术,对于开发者来说非常实用. 但是近期Lucene升级到了4.x版本,在性能等各方面有了很大的提高,值得在新项目中使用. 然而Lucene 4.x中的API相比3.x来说有了很大的改变,《Lucene In Action》中的很多内容都已经过时了,并且由于4.x推出的时间不长,还没有比较好的文档来对用法进行说明,这个系列文章就是想记录下自己使用Lucene 4.x的经验体会,供大家参考使用.

文章: 集成Lucene和HBase

- - InfoQ cn
在所有先进的应用程序中,不管是购物站点还是社交网络乃至风景名胜站点,搜索都扮演着关键的角色. Lucene搜索程序库事实上已经成为实现搜索引擎的标准. 苹果、IBM、Attlassian(Jira)、Wolfram以及很多大家喜欢的公司【1】都使用了这种技术. 因此,大家对任何能够提升Lucene的可伸缩性和性能的实现都很感兴趣.

Solr\Lucene优劣势分析

- - 淘宝网综合业务平台团队博客
最早lucene2.4以及以前,追溯到2008年前后,lucene刚刚引起大家的关注,到后来Nutch. 、solr的出现,lucene变得更加热. Nutch、Solr的发展,极大推动了lucene的升级. 对于一些接触过搜索,使用过lucene、solr的人来说,一般都会感觉lucene、solr很牛逼.