【技术贴】9个基于Java的搜索引擎框架

标签: 技术 java 搜索引擎 | 发表时间:2016-09-21 11:18 | 作者:aoyouzi
出处:http://www.iteye.com

9个基于Java的搜索引擎框架

 

1.Java全文搜索引擎框架Lucene

 

毫 无疑问,Lucene是目前最受欢迎的Java全文搜索框架,准确地说,它是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引 擎。Lucene为开发人员提供了相当完整的工具包,可以非常方便地实现强大的全文检索功能。下面有几款搜索引擎框架也是基于Lucene实现的。

官方网站: http://lucene.apache.org/

 

2.开源Java搜索引擎Nutch

 

Nutch 是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

利用Nutch,你可以做到以下这些功能:

  • 每个月取几十亿网页

  • 为这些网页维护一个索引

  • 对索引文件进行每秒上千次的搜索

  • 提供高质量的搜索结果

  • 以最小的成本运作

官方网站: http://nutch.apache.org/

 

3.分布式搜索引擎ElasticSearch

 

ElasticSearch就是一款基于Lucene框架的分布式搜索引擎,并且也是一款为数不多的基于JSON进行索引的搜索引擎。ElasticSearch特别适合在云计算平台上使用。

官方网站: http://www.elasticsearch.org/

 

4.实时分布式搜索引擎Solandra

 

Solandra 是一个实时的分布式搜索引擎,基于 Apache Solr 和 Apache Cassandra 构建。

其特性如下:

  • 支持Solr的大多数默认特性 (search, faceting, highlights)

  • 数据复制,分片,缓存及压缩这些都由Cassandra来进行

  • Multi-master (任意结点都可供读写)

  • 实时性高,写操作完成即可读到

  • Easily add new SolrCores w/o restart across the cluster 轻松添加及重启结点

官方网站: https://github.com/tjake/Solandra

 

5.IndexTank

 

IndexTank是一套基于Java的索引-实时全文搜索引擎实现,IndexTank有以下几个特点:

  • 索引更新实时生效

  • 地理位置搜索

  • 支持多种客户端语言
    Ruby, Rails, Python, Java, PHP, .NET & more!

  • 支持灵活的排序与评分控制

  • 支持自动完成

  • 支持面搜索(facet search)

  • 支持匹配高亮

  • 支持海量数据扩展(Scalable from a personal blog to hundreds of millions of documents! )

  • 支持动态数据

官方网站: https://github.com/linkedin/indextank-engine

 

6.搜索引擎Compass

 

Compass是一个强大的,事务的,高性能的对象/搜索引擎映射(OSEM:object/search engine mapping)与一个Java持久层框架.Compass包括:

  • 搜索引擎抽象层(使用Lucene搜索引荐)

  • OSEM (Object/Search Engine Mapping) 支持

  • 事务管理

  • 类似于Google的简单关键字查询语言

  • 可扩展与模块化的框架

  • 简单的API

官方网站: http://www.compass-project.org/

 

7.Java全文搜索服务器Solr

 

Solr也是基于Java实现的,并且是基于Lucene实现的,Solr的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果。值得注意的是,Solr还提供一款很棒的Web界面来管理索引的数据。

官方网站: http://lucene.apache.org/solr/

 

8.Lucene图片搜素LIRE

 

LIRE是一款基于Java的图片搜索框架,其核心也是基于Lucene的,利用该索引就能够构建一个基于内容的图像检索(content- based image retrieval,CBIR)系统,来搜索相似的图像。

官方网站: http://www.Semanticmetadata.net/lire/

 

9.全文搜索引擎Egothor

 

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。

官方网站:http://www.egothor.org/cms/

 

 



已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [技术 java 搜索引擎] 推荐:

【技术贴】9个基于Java的搜索引擎框架

- - 行业应用 - ITeye博客
9个基于Java的搜索引擎框架. 1.Java全文搜索引擎框架Lucene. 毫 无疑问,Lucene是目前最受欢迎的Java全文搜索框架,准确地说,它是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引 擎. Lucene为开发人员提供了相当完整的工具包,可以非常方便地实现强大的全文检索功能.

elasticsearch RESTful搜索引擎-(java jest 使用[入门])

- - zzm
elasticsearch简称ES. 好吧下面我介绍下jest(第三方工具),个人认为还是非常不错的...想对ES用来更好,多多研究源代码吧...迟点,会写一些关于ES的源代码研究文章,现在暂时还是入门的阶段.哈..(不敢,不敢). 它是ES的java客户端,基于http restful.... jest是开源的....其他就不清楚了,看源代码吧..哈..

搜索引擎的认识误区与技术展望

- - 互联网的那点事
搜索结果越多越好,技术差距决定优劣,SEO可以提高搜索排名……,媒体和公众对搜索引擎的这些普遍认知,其实都是严重的认识误区. 聚合规则,排序方法,展现方式,将成为未来搜索引擎竞争的关键,而竞价排名,将随着竞争的展开逐步退出历史舞台. 随着360搜索的上线以及3B大战的展开,网络爱好者们对搜索引擎技术及市场的讨论成为近期的互联网小热点.

IBM收购搜索引擎初创企业Blekko技术及团队

- - 36氪
蓝色巨人今天在博客 宣布已收购了搜索引擎初创企业Blekko的技术,后者的团队已经加盟IBM Watson. 打开Blekko网站我们看到先是弹出如下的页面,然后网站被跳转到Watson的博客上. Blekko原本是一家做垂直搜索引擎的初创企业,由全球首个病毒制造者Rich Skrenta与人联合成立于2007年.

将搜索引擎的机器学习技术用于风控,氪信希望指数级提高金融模型的训练效率

- - 36氪
氪信的创始人朱明杰之前是搜索引擎的数据工程师,现在他把技术应用在了金融风控上,近期获得了真格基金700万人民币的天使投资. 氪信的产品包括非或然引擎(下文简称“引擎”)和XCloud两部分,“引擎”是一套数据模型处理系统,解决的是不同场景下的风控模型校正问题. 以物流行业为例,通过输入企业ERP数据、位置信息数据等场景内数据,以机器学习的技术调整各数据维度的权重,从而建立针对场景的风控模型.

Java JIT编译技术

- - 小彰
        JIT是just in time,即时编译技术. 使用该技术,能够加速java程序的执行速度. 下面,就对该技术做个简单的讲解.         首先,我们大家都知道,通常javac将程序源代码编译,转换成java字节码,JVM通过解释字节码将其翻译成对应的机器指令,逐条读入,逐条解释翻译.

人眼启发视觉搜索引擎

- feng823 - Solidot
Google上周宣布将支持声音和图片进行搜索,但一家创业公司在图像搜索方面走在了Google前面. 源自伦敦帝国学院研究项目的创业公司Cortexica,开发出视觉搜索工具,通过手机拍摄产品照片,它会自动呈现价格信息. Cortexica已经发布了一个用于比较酒价格的工具WINEfindr. Cortexica的视觉搜索技术是受到了人眼视觉系统的启发,它能识别出一个目标的关键特征,不受方位、大小、光线亮暗的影响.

比较好的学术搜索引擎

- hfut_chen - C++博客-首页原创精华区
     摘要: 1、http://scholar.google.com/. Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数. 略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章.

uSniff:BT种子搜索引擎

- leqoqo - 软件志
一、uSniff相关信息: 1、官方主页:http://www.usniff.com/ 2、简介:uSniff是一个BT种子搜索引擎,简单、易用、实时是其最大的优点,其搜索引擎数据库包含了17个知名种子站点的种子信息,目的是想发展成为世界上最大的BT种子搜索引擎,而且对于每个种子,该搜索引擎都会进行安全认证,以保证用户的正常使用.

Mr.Icons:图标icon搜索引擎

- 壮壮爱 - 够趣堂
之前Anliu在如何更换更好的icon文章里面推荐了4个icon搜索引擎,目前部分已经不复存在. 不过Mr.Icons倒是又一个不错的选择,可以搜索图标icon进行下载,有PNG、ico格式以及不同大小提供下载. Mr.Icons还提供图标icon集打包下载,比如动物图标等. 和之前的介绍几款搜索引擎一样,依然不支持中文.