调研:开源搜索引擎

标签: 开源 搜索引擎 | 发表时间:2013-03-30 06:44 | 作者:xum2008
分享到:
出处:http://blog.csdn.net

本文档是对现有的开源的搜索引擎的一个简单介绍

1.    Lucene

Lucene的开发语言是java, 也是java家族中最为出名的一个开源搜索引擎, 在java世界中已经是标准的全文检索程序, 它提供了完整的查询引擎和索引引擎, 没有中文分词引擎, 需要自己去实现, 因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索, 但linkedin和twitter有分别对Lucene改进的实时搜素. 其中Lucene有一个C++移植版本叫CLucene, CLucene因为使用C++编写, 所以理论上要比lucene快.

官方主页: http://lucene.apache.org/

CLucene官方主页: http://sourceforge.net/projects/clucene/

2.    Sphinx

Sphinx是一个用C++语言写的开源搜索引擎,也是现在比较主流的搜索引擎之一, 在建立索引的事件方面比Lucene快50%, 但是索引文件比Lucene要大一倍, 因此Sphinx在索引的建立方面是空间换取事件的策略, 在检索速度上, 和lucene相差不大, 但检索精准度方面Lucene要优于Sphinx,另外在加入中文分词引擎难度方面, Lucene要优于Sphinx.其中Sphinx支持实时搜索, 使用起来比较简单方便.

官方主页: http://sphinxsearch.com/about/sphinx/

3.    Xapian

Xapian是一个用C++编写的全文检索程序,它的api和检索原理和lucene在很多方面都很相似, 算是填补了lucene在C++中的一个空缺.

官方主页: http://xapian.org/

4.    Nutch

Nutch是一个用java实现的开源的web搜索引擎, 包括爬虫crawler, 索引引擎,查询引擎. 其中Nutch是基于Lucene的, Lucene为Nutch提供了文本索引和搜索的API.

对于应该使用Lucene还是使用Nutch,应该是如果你不需要抓取数据的话, 应该使用Lucene, 最常见的应用是: 你有数据源, 需要为这些数据提供一个搜索页面, 在这种情况下, 最好的方式是直接从数据库中取出数据, 并用Lucene API建立索引.

官方主页: http://nutch.apache.org/

5.    DataparkSearch

DataparkSearch是一个用C语言实现的开源的搜索引擎. 其中网页排序是采用神经网络模型.  其中支持HTTP, HTTPS, FTP,NNTP等下载网页.包括索引引擎, 检索引擎和中文分词引擎(这个也是唯一的一个开源的搜索引擎里有中文分词引擎).能个性化定制搜索结果, 拥有完整的日志记录.

官方主页: http://www.dataparksearch.org/

6.    Zettair

Zettair是根据Justin Zobel的研究成果为基础的全文检索实验系统.它是用C语言实现的. 其中Justin Zobel在全文检索领域很有名气, 是业界第一个系统提出倒排序索引差分压缩算法的人, 倒排列表的压缩大大提高了检索和加载的性能, 同时空间膨胀率也缩小到相当优秀的水平. 由于Zettair是源于学术界, 代码是由RMIT University的搜索引擎组织写的, 因此它的代码简洁精炼, 算法高效, 是学习倒排索引经典算法的非常好的实例. 其中支持linux, windows, mac os等系统.

官方主页: http://www.seg.rmit.edu.au/zettair/about.html

7.    Indri

Indri是一个用C语言和C++语言写的全文检索引擎系统, 是由University of Massachusetts和Carnegie Mellon University合作推出的一个开源项目. 特点是跨平台, API接口支持Java, PHP, C++.

官方主页: http://www.lemurproject.org/indri/

8.    Terrier

Terrier是由School of Computing Science, Universityof Glasgow用java开发的一个全文检索系统.

官方主页: http://terrier.org/

9.    Galago

Galago是一个用java语言写的关于文本搜索的工具集. 其中包括索引引擎和查询引擎, 还包括一个叫TupleFlow的分布式计算框架(和google的MapReduce很像).这个检索系统支持很多Indri查询语言.

官方主页: http://www.galagosearch.org/

10.  Zebra

Zebra是一个用C语言实现的检索程序, 特点是对大数据的支持, 支持EMAIL, XML, MARC等格式的数据.

官方主页: https://www.indexdata.com/zebra

11.  Solr

Solr是一个用java开发的独立的企业级搜索应用服务器, 它提供了类似于Web-service的API接口, 它是基于Lucene的全文检索服务器, 也算是Lucene的一个变种, 很多一线互联网公司都在使用Solr, 也算是一种成熟的解决方案.

官方主页: http://lucene.apache.org/solr/

12.  Elasticsearch

Elasticsearch是一个采用java语言开发的, 基于Lucene构造的开源, 分布式的搜索引擎. 设计用于云计算中, 能够达到实时搜索,稳定可靠. Elasticsearch的数据模型是JSON.

官方主页: http://www.elasticsearch.org/

13.  Whoosh

Whoosh是一个用纯python写的开源搜索引擎.

官方主页: https://bitbucket.org/mchaput/whoosh/wiki/Home

作者:xum2008 发表于2013-3-30 14:44:20 原文链接
阅读:97 评论:0 查看评论

相关 [开源 搜索引擎] 推荐:

调研:开源搜索引擎

- - CSDN博客互联网推荐文章
本文档是对现有的开源的搜索引擎的一个简单介绍. Lucene的开发语言是java, 也是java家族中最为出名的一个开源搜索引擎, 在java世界中已经是标准的全文检索程序, 它提供了完整的查询引擎和索引引擎, 没有中文分词引擎, 需要自己去实现, 因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索, 但linkedin和twitter有分别对Lucene改进的实时搜素.

叫板Google,YaCy发布开源搜索引擎

- 洋白菜 - 36氪
一个名叫YaCy的项目要在搜索市场上向Google叫板,放出了一个开源搜索引擎,在互联网和内联网皆可使用. YaCy引擎基于点对点连接,而不是通过中央服务器进行搜索查询. 用户下载该软件后就可以进行搜索,保证内容不被审查、搜索结果不会被中央服务器记录和分析. “我们在网络上的大多数行为都和搜索有关,这是我们和所要信息的关键一环.

LinkedIn开源IndexTank,包括搜索引擎和服务

- - ITeye资讯频道
IndexTank是一家在今年10月份被LinkedIn收购的公司,它有三个主要产品:. IndexEngine:一个实时的全文搜索和索引系统. API:一个RESTful界面来处理授权、验证以及与IndexEngine(s)的通讯. Nebulizer:一个多重任务执行框架(multitenant framework),用来托管和管理无限数量的运行在IaaS层的索引.

开源搜索引擎评估:lucene sphinx elasticsearch

- - 鲁塔弗的博客
lucene系,java开发,包括 solr和 elasticsearch. sphinx,c++开发,简单高性能. 搜索引擎程序这个名称不妥当,严格说来应该叫做 索引程序(indexing program),早期主要用来做中文全文搜索,但是随着互联网的深入普及,各家网站规模越来越大,索引程序在 优化网站架构上发挥了更大的作用: 替代mysql数据库 内置的索引.

手撕包菜磁力搜索引擎的开源说明

- - Xiaoxia[PG]
已经一年半载没有写博客了,搞得上来不知道写些什么. 博客上的内容还时不时有人评论,大部分我还是会一一回复的. 有些人会关注我的博客用什么主机,我的博客现在是用Linode的主机,因为现在很便宜,而且配置不差. 另外比较多的是问手撕包菜的源代码能否提供,能否出售. 今天我写这个文章就是把手撕包菜的网站开源了,包括网站页面,DHT爬虫和搜索引擎相关部分.

人眼启发视觉搜索引擎

- feng823 - Solidot
Google上周宣布将支持声音和图片进行搜索,但一家创业公司在图像搜索方面走在了Google前面. 源自伦敦帝国学院研究项目的创业公司Cortexica,开发出视觉搜索工具,通过手机拍摄产品照片,它会自动呈现价格信息. Cortexica已经发布了一个用于比较酒价格的工具WINEfindr. Cortexica的视觉搜索技术是受到了人眼视觉系统的启发,它能识别出一个目标的关键特征,不受方位、大小、光线亮暗的影响.

比较好的学术搜索引擎

- hfut_chen - C++博客-首页原创精华区
     摘要: 1、http://scholar.google.com/. Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数. 略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章.

uSniff:BT种子搜索引擎

- leqoqo - 软件志
一、uSniff相关信息: 1、官方主页:http://www.usniff.com/ 2、简介:uSniff是一个BT种子搜索引擎,简单、易用、实时是其最大的优点,其搜索引擎数据库包含了17个知名种子站点的种子信息,目的是想发展成为世界上最大的BT种子搜索引擎,而且对于每个种子,该搜索引擎都会进行安全认证,以保证用户的正常使用.

Mr.Icons:图标icon搜索引擎

- 壮壮爱 - 够趣堂
之前Anliu在如何更换更好的icon文章里面推荐了4个icon搜索引擎,目前部分已经不复存在. 不过Mr.Icons倒是又一个不错的选择,可以搜索图标icon进行下载,有PNG、ico格式以及不同大小提供下载. Mr.Icons还提供图标icon集打包下载,比如动物图标等. 和之前的介绍几款搜索引擎一样,依然不支持中文.

Blekko 对搜索引擎的新探索

- thinkingit - 知乎的博客
Blekko 这款搜索产品做的如何. 从目前我的使用过程来看,Blekko还是很让人激动的. 在谈Blekko之前就要先问:为何在搜索这个看似已经垄断的行业还会有人想去分一杯羹,这些小团队能与Google或微软这样的巨头抗衡吗. 比如之前的Powerset,后来的Cuil,和现在的Blekko. 在Google之前Yahoo是靠人工收录网页,Google的算法和蜘蛛革了搜索的命,一直垄断搜索业十余年,而现在随着WEB 2.0的发展,让人又看到了搜索业革命的火种,可以说Blekko就是这样的一个产品.