Lucene4.3开发之插曲之斗转星移

标签: lucene4 开发 插曲 | 发表时间:2013-08-26 18:08 | 作者:
出处:http://www.iteye.com


允许转载,转载请注明原创地址:
http://qindongliang1922.iteye.com/blog/1931191
谢谢配合

散仙在上篇文章中,总结了几个Lucene的特殊的分词需求,以及怎么定制我们自己的Tokenizer和Analyzer用来处理他们,那么本篇我们依旧是分析用户需求(哈哈,也不算是用户需求,群里面(324714439)朋友们提问的问题),然后找到最合适的解决方法。

我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页技术。


在介绍分页之前,我们先来看看上面的那个需求,不用分页的解决办法,
其实在lucene里面,每一个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum一样,恰恰正是由于这个docid的存在,所以让lucene在海量数据检索时从而拥有更好的性能,我们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么我的lucene也是一样,既然有一个docid的存在,那么上面的需求就很简单了。


方法一:依次根据每个docid获取文档然后写入txt中,这样的以来,就避免了内存不足的缺点,但是这样单条读取的话,速度上可能会慢一点,但能满足需求无可厚非。伪代码如下

	try{
		directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
		IndexReader  reader=DirectoryReader.open(directory);//读取目录
		IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
		for(int i=0;i<reader.numDocs();i++){//numDocs可能很大
		 Document doc=search.doc(i);//依次获取每个docid对应的Document
		//可以在此部,做个批量操作,加快写入速度
		}  
		
		 reader.close();//关闭资源
		 directory.close();//关闭连接
		
		}catch(Exception e){
			e.printStackTrace();
		}


Lucene的分页,总的来说有两种形式,散仙总结如下图表格。(如果存在不合适之处,欢迎指正!)

编号 方式 优点 缺点
1 在ScoresDocs里进行分页 无需再次查询索引,速度很快 在海量数据时,会内存溢出
2 利用SearchAfter,再次查询分页 适合大批量数据的分页 再次查询,速度相对慢一点,但可以利用缓存弥补


从上图我们可以分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,所以,我们要根据自己的业务需求,合理的选出适合自己的分页方式。

在我们了解这2中分页技术的优缺点之后,我们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,当然如果你内存足够大的话,可以尝试下,通用分页分批读取的方式,可以提升我们的写入效率,效果是比单条单条读取的速度是要快很多的。虽然ScoresDocs的分页方式在本需求上不适合,但是作为示例,下面散仙给出使用ScoreDocs进行分页的代码:
	try{
		directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
		IndexReader  reader=DirectoryReader.open(directory);//读取目录
		IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
		
 
	     TopDocs all=search.search(new MatchAllDocsQuery(), 50000);
	     int offset=0;//起始位置
	     int pageSize=30;//分页的条数
	     int total=30;//结束条数
	     int z=0;
	     while(z<=50){//总分页数
	     System.out.println("==============================");
	     pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印
	     offset=(z*pageSize+pageSize);//下一页的位置增量
	     z++;//分页数+1;
	  	   total=offset+pageSize;//下一次的结束分页量
	     }
		 reader.close();//关闭资源
		 directory.close();//关闭连接
		
		}catch(Exception e){
			e.printStackTrace();
		}


public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{
		//System.out.println("offset:"+offset+"===>"+total);
		for(int i=offset;i<total;i++){
			//System.out.println("i"+i+"==>"+doc.length);
		    if(i>doc.length-1){//当分页的长度数大于总数就停止
		    	
		    	break;
		    }else{
		
		       Document dosc=searcher.doc(doc[i].doc);
			   System.out.println(dosc.get("name"));
		   
		    }
		}


最后我们来看下使用SearcherAfter进行分页的方式,代码如下:

	try{
		directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
		IndexReader  reader=DirectoryReader.open(directory);//读取目录
		IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
	    
		 int pageStart=0;
		 ScoreDoc lastBottom=null;//相当于pageSize
		 while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操作
			 TopDocs paged=null;
			 paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条
			 if(paged.scoreDocs.length==0){
				 break;//如果下一页的命中数为0的情况下,循环自动结束
			 }
			 page(search,paged);//分页操作,此步是传到方法里对数据做处理的
			 
			 pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上
			 lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1,成为下一次的lastBottom
		 }
		 reader.close();//关闭资源
		 directory.close();//关闭连接
		
		}catch(Exception e){
			e.printStackTrace();
		}
		


至此,我们已经了解了lucene中的分页技术,至于,我们在项目中该如何使用,都要根据我们的实际情况处理,因为分页技术常常会跟其他的,排序,过滤,评分等一些技术结合使用。


允许转载,转载请注明原创地址:
http://qindongliang1922.iteye.com/blog/1931191
谢谢配合




已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [lucene4 开发 插曲] 推荐:

Lucene4.3开发之插曲之斗转星移

- - ITeye博客
允许转载,转载请注明原创地址:. 散仙在上篇文章中,总结了几个Lucene的特殊的分词需求,以及怎么定制我们自己的Tokenizer和Analyzer用来处理他们,那么本篇我们依旧是分析用户需求(哈哈,也不算是用户需求,群里面(324714439)朋友们提问的问题),然后找到最合适的解决方法. 我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写入txt文本里,对于这么一个量级的数据,显然是不可能一下子全部读取完的,那得要多大的内存才能够支持下来,是一个很恐怖的内存量,所以就引入散仙今天要给大家介绍的一个功能,Lucene的分页技术.

Linux 2.6.39-rc3的一个插曲

- Ant - 酷壳 - CoolShell.cn
2011年4月12日,Linux 2.6.39-rc3发布了,Linus Torvalds写了一个发布邮件,其中包含了一个长长的为这个版本做过贡献的人员名单,这个名单中有很多看上去应该是中国人的名字,我挺为他们感到骄傲的(不知道你是否还记得以前本站的”Linux是由谁写的“). 不过,没过一会,发现了一个bug,经过大家的调查(2.6.38版没有发现这个问题),很快,找到了原因,是因为一个内存地址的问题,一个叫Yinghai Lu的人(看其名字应该是中国人,其邮件是@kernel.org)找到了原因—— radeon card使用了一个不正确的内存地址[0xa0000000 - 0xc000000].

那些我曾经惊艳过的电影插曲。一段旋律,一段云淡风轻的画面(二)

- - 虾米音乐每日精选
一直有个梦想,做一个DJ只播有关电影的歌. 不过精力有限,所以还是就这样用文字写下来吧. 每一首歌  每一段旋律都曾是影像的美丽记忆. 而每一段影像 都是一段梦的旅程. 『有了何宝生,顺便再贴黎耀辉吧. 电影偷偷爱你的插曲,梁朝伟、邱淑贞主演,两个都是大爱,当年看着电影,花痴的七荤八素. 还记得是梁朝伟坐马车去邱淑贞家路上唱的这首歌,这样美.

Android开发Tips

- - CSDN博客推荐文章
欢迎Follow我的 GitHub, 关注我的 CSDN.. 介绍一些, 在Android开发中, 会经常使用的小知识点.. submodule与git可以保持实时同步. 导入, 路径多于一个, 前面不添加冒号(:).. 使用PackageManager.. // 检查App是否安装 private boolean appInstalledOrNot(String uri) {.

WPS for Linux 开发中

- Quantum - Wow! Ubuntu
据消息称,WPS for Linux 办公套件目前正在开发中,如图:. # 本文采用CC协议进行授权,转载本文请注明本文链接. - Twitter / 微博 / 问答 / 投稿 / 加入我们 wow0slx6bcs721xo1udcc. - 高性价比 Ubuntu VPS / 本站架设于 PhotonVPS / 定制 Ubuntu T-Shirt.

iOS开发资源

- - Starming星光社最新更新
iOS App UI 欣赏、分享精美的App界面设计. iOS代码实例搜索、iOS特效示例、iOS代码例子下载. 以web的形式提供iOS UI设计的素材,你可以在web上拖动一些控件做出简单的ios 应用效果,并且生成一个URL,能分享给其他人. 一款 Photoshop 插件,由 UI Parade 推出的一款针对iOS UI 的设计工具,设计师动动鼠标即可制作精美的 iOS 应用原型.

开发笔记(1)

- liuce.cn - 云风的 BLOG
折腾了好久,终于可以开始正式项目开发了. 之前的这段日子,我们陷落在公司的股权分配问题中,纠结于到底需要几个人到位才启动;更是反复讨论,到底应该做个怎样的游戏. 林林总总,终于,在已经到位的几位同学的摩拳擦掌中,叮当决定自己挂帅开始干了. 就这么不到十个人,空旷的办公室,跟我们起先想像的情况不太一样.

Jenkins的plugin开发

- - CSDN博客研发管理推荐文章
       Jenkins强大的功能主要靠其丰富的plugin体现,之前的一篇博客《 Jenkins安装plugin》中介绍了如何找到并安装需要的plugin. 虽然目前已经有大量非常优秀的plugin可供使用,但是有时候仍需要自己开发一些满足项目特殊要求的plugin. 下面通过一个简单实例,介绍Jenkins的plugin的整个开发过程.

kettle 开发总结

- - CSDN博客推荐文章
2.在用file exists 控件的时候,当用到“文本文件输入”时,文本文件中需要一定的格式,类似下图:. ;当然也可以已经创建了相应的表,然后直接按“确定”按钮就行,如果相应的表和输入的列数及列属性不一样时,也可以在sql按钮的语句中取修改. 在使用file exists时,输入也可以用表输入.

kafka开发实例

- - 互联网 - ITeye博客
//启动zookeeper server (用&是为了能退出命令行):. //启动kafka server: . 已有 0 人发表留言,猛击->> 这里<<-参与讨论. —软件人才免语言低担保 赴美带薪读研.