首页

搜索结果

"tag:"lucene""

1 2 下篇>>

标题及摘要 日期/时间
1
[ lucene扩展 ] spellChecker原理分析 - MR-fox - 博客园
spellChecker是用来对用户输入的“检索内容”进行校正,例如百度上搜索“麻辣将”,他的提示如下图所示: 我们首先借用lucene简单实现该功能。 本文内容如下(简单实现、原理简介、现有问题) lucene中spellchecker简述 lucene 的扩展包中包含了spellchecker,利用它我们可以方便的实现拼写检查的功能,但是检查的效果(推荐的准确程度)需要开发者进行调整、优化。 lucene实现“拼写检查”...
2015-11-26
0:42:00
2
基于Solr的空间搜索 - 阿凡卢 - 博客园
Solr已经提供了3种filedType来进行空间搜索: 1) LatLonType(用于平面坐标,而不是大地坐标) 2) SpatialRecursivePrefixTreeFieldType(缩写为RPT) 3) BBoxField(用于边界索引查询) 本文重点介绍使用SpatialRecursivePrefixTreeFieldType,不仅可以用点,也可以用于多边形的查询。 1、配置Solr 首先看下数据: Solr的schema.xml配置: field name="station...
2015-10-30
0:20:00
3
solr搜索打分规制排序 - 白强 - ITeye技术网站
Solr内改变打分规则有几种形式: 1.配置solr的solrconfig.xml中edismax,来改变Boost打分规则 2.在solr的schema中增加一个字段,该字段专门用于排序 3.自写一个solr的评分规则。 一般简单的应用1和2就能满足。 举一个例子,电商类网站(比如淘宝)的商品搜索: 1.在商品名称上出现搜索关键字排序靠前,而内容的次之 2.对多皇冠的买家排序靠前等 3.对近期发布的商品排序靠前 4.对最近销售多商品靠前 综上获得一个综合排名 在solrconfig.xml的Search...
2015-10-29
22:37:00
4
potential memory leak when using RAMDirectory ,CloseableThreadLocal and a thread pool .
Lucene的文档缓存数据会绑定线程,随着线程退出而清除。 On Thu, Jan 3, 2013 at 12:16 PM, Alon Muchnick alon [at] datonics wrote: hi Mike , at the peak there are 500 live threads going through Lucune (not all of them at the same time , tomcat thread pool uses round robin ) ,reg...
2015-9-10
23:54:00
5
How to make searching faster ImproveSearchingSpeed - Lucene-java Wiki
How to make searching faster Here are some things to try to speed up the seaching speed of your Lucene application. Please seeImproveIndexingSpeedfor how to speed up indexing. Be sure you really need to speed things up.Many of the ideas here are ...
2015-7-24
17:10:00
6
拼写纠错设计 - quweiprotoss的日志 - 网易博客
一.计划解决的问题 1.繁简转换 2.拼音转汉字 3.同音词拼写错误 4.英文拼写错误 5.形近词错误 6.方言纠错 二.核心思路 1.繁体转简体是可以独立出来,最先处理。 2.其它的4步从查询日志中找出纠错的候选查询词,全部在线下计算。 多数拼写纠错算法基于2个基本原则(Introduction to IR 3.3.1节): 1.在多个拼写纠错的可选结果中,选择与原term最相似的一个,当然这就要求有一个相似的标准。 2.当两个候选term与要纠错的term一样相似时,选择最常见的那个term,比如,g...
2015-7-6
22:35:00
7
Lucene权限实现 - 简单之美 - 企业应用与站点完美解决方案
1、权限过滤 Lucene的基于关键字的评分机制,适用于基于相关度的过滤和排序。它是基于矢量模型,其中给文档分配一个相应的分数,分数越高相关的文档也越多。然而,应用系统有时因为用户级权限仅需返回相关文档的子集。 过滤的权限问题实际上是查询时将一个布尔过滤器作用于文档的普遍问题的子问题。我们将探讨这种过滤的实现方法。 2、查询改写 上述权限过滤明显的实现方法,就是改写搜索查询为要求某字段包含特定的值。 例如,如果有一个“类别(category)”字段(Field),并假设仅显示历史(...
2015-5-8
21:54:00
8
[ lucene扩展 ] spellChecker原理分析 - MR-fox - 博客园
lucene中spellchecker简述 lucene 的扩展包中包含了spellchecker,利用它我们可以方便的实现拼写检查的功能,但是检查的效果(推荐的准确程度)需要开发者进行调整、优化。 lucene实现“拼写检查”的步骤 步骤1:建立spellchecker所需的索引文件 spellchecker也需要借助lucene的索引实现的,只不过其采用了特殊的分词方式和相关度计算方式。 建立spellchecker所需的索引文件可以用文本文件提供内容,一行一个词组,类似于字...
2015-5-4
23:01:00
9
使用Lucene的MoreLikeThisQuery实现相关内容推荐
在分析MoreLikeThisQuery之前,首先介绍一下MoreLikeThis。 在实现搜索应用的时候,时常会遇到"更多相似文章","更多相关问题"之类的需求,也即根据当前文档的文本内容,在索引库中查询相类似的文章。 我们可以使用MoreLikeThis实现此功能: IndexReader reader = IndexReader.open(……); ...
2015-4-19
23:58:00
10
Lucene过滤器 - baobeituping - ITeye技术网站
有的应用有些要求,对于某类型的内容即使满足条件了,但是也不能被搜索出来,lucene中提供了过滤器的功能,通过自定义的过滤器继承Filter,从而实现特定的过滤功能。 Filter是一种过滤行为BitSet是一种位集合队列,这个队列中只有两种取值,TRUE或FALSE,LUCENE以这两种取值代表文档是否被过滤,也就是说,LUCENE返回结果时,会首先遍历BITSET,仅将那些对应值为TRUE的文档返回。 过滤器: package com.filter; import java.io.IOExcepti...
2015-4-15
0:51:00
11
App Store排名算法和Google Play排名算法
App Store: 有下面这样一张图: 图片的意思是: 今天的排名=今天的下载量x8 + 昨天的下载量x5 + 前天的下载量x5 + 大前天的下载量x2。 很明显,前3天的下载量是最重要的核心排名因素。 下载量永远都会是APP store算法的核心 想想sotre最容易得到的,最直观体现用户对APP喜爱程度的因素是什么——下载量。也许今天很多人认为几次算法更新后,下载量所占算法权重越来越低,但这个核心数据在算法中的比重绝对会是第一位的。 哪些因素可能被app store排名算法因...
2015-3-16
10:43:00
12
lucene实现自定义的评分 - 学习笔记 - 博客频道 - CSDN.NET
Lucene按一个或多个字段进行排序是基本的功能,但可能需要更高级的自定义排序功能,并通过调整得分。Lucene自定义排序调整打分方法,有下面几种: 1、在索引阶段设置Document Boost和Field Boost,提升文档或字段的排名,例如: Document doc1 = new Document(); Field f1 = new Field("contents", "common hello hello", Field.Store.NO, Field...
2015-3-11
13:34:00
13
Lucene索引阶段设置Document Boost和Field Boost 实现合理打分 - 漫步天涯-IT - 博客频道 - CSDN.NET
在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。 如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的boost值。 这些值是在索引阶段就写入索引文件的,存储在标准化因子(.nrm)文件中,一旦设定,除非删除此文档,否则无法改变。 如果不进行设定,则Document Boost和Field Boost默认为1。 Document Boost及FieldBoost的设定方式如下: ...
2015-3-10
15:48:00
14
lucene FieldCache 实现分组统计 - 记录我的点点滴滴 - 51CTO技术博客
所谓分组统计,就是类似sql里group by的功能。在solr里,这个功能称为faceting。lucene本身不支持分组统计,不过可以使用fieldCache来实现分组统计功能,而且也有很好的性能。solr根据不同的情况,还提供了其他方法(filterCache和UnInvertedField)来实现,这个以后再说。 fieldCache是lucene用来排序的缓存。对要用来排序的字段,lucene会从索引中将每篇文档该字段的值都读出来,放到一个大小为maxDoc的数组中。maxDoc是lucene内...
2015-3-10
15:15:00
15
Lucene 搜索性能优化
搜索优化: 1、设置boost 有些时候在搜索时某个字段的权重需要大一些,例如你可能认为标题中出现关键词的文章比正文中出现关键词的文章更有价值,你可以把标题的boost设置的更大,那么搜索结果会优先显示标题中出现关键词的文章(没有使用排序的前题下)。使用方法: Field. setBoost(float boost);默认值是1.0,也就是说要增加权重的需要设置得比1大。 2、将不需要使用范围查询的数字字段设置precisionstep为Intger.max,这样数字写入倒排仅存一个term,能极大降低...
2015-3-6
16:17:00
16
Lucene-与索引库的交互 - 球球之家 - 博客频道 - CSDN.NET
内存索引库:数据是临时的、访问速度比文件索引库要快、索引库中的数据不能存放太多、内存索引库和文件索引库能结合在一起 两个或者两个以上的索引库的合并: 如果是内存索引库,直接调用构造函数进行合并就可以了 内存索引库中。也可以调用addIndexesNoOptimize进行合并 如果是文件索引库,调用addIndexesNoOptimize进行合并,该方法可以接受多个索引库 /** *文件索引库和内存索引库的结合 */ @Test publicvoidtest...
2015-3-6
16:07:00
17
ElasticSearch: Java API | Javalobby
ElasticSearch Java API 官方文档: http://www.elasticsearch.org/guide/en/elasticsearch/client/java-api/current/index.html ElasticSearch提供了Java API,因此可通过使用Client对象异步执行所有操作。Client对象可以批量执行操作,累计。 Java的API可以在内部使用,以执行所有的API在ElasticSearch。 在本教程中,我们将考虑如何开展将Java API一些操作...
2015-1-5
18:19:00
18
Lucene 4.4 以后近实时NRT检索
Lucene4.4之后,NRTManager及NRTManagerReopenThread已经都没有了,如果做近实时搜索的话,就要这么做, 初始化: Directory directory = new RAMDirectory(); IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_48, new StandardAnalyzer(ver)); IndexWriter indexWriter = new IndexWriter(d...
2014-12-30
17:15:00
19
分布式搜索ElasticSearch构建集群与简单搜索实例应用 - 苏若年 - 博客园
分布式ElasticSearch集群构建的方法. 1.通过在程序中创建一个嵌入es节点(Node),使之成为es集群的一部分,然后通过这个节点来与es集群通信. 复制代码 /**在运行该测试实例时,已经在本地建立了对应的索引库datum*/ public static void main(String[] args) { //当你启动一个节点,它会自动加入同网段的es集群,一个前提就是es的集群名(cluster.name)这个参数要设置一致。 String cluster...
2014-12-30
1:32:00
20
Code Samples - Zoie - Confluence
Zoie is a real-time search and indexing system built onApache Lucene. Donated byLinkedIn.comon July 19, 2008, and has been deployed in a real-time large-scale consumer website: LinkedIn.com handling millions of searches as well as millions of updates dail...
2014-12-28
19:43:00

1 2 下篇>>