Cloudera Search: 轻松实现Hadoop全文检索

标签: Hadoop | 发表时间:2013-06-11 15:10 | 作者:HadoopChina
出处:http://blog.sina.com.cn/chinadoop

近期Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的消息。想想看,有了集一整套解决方案在手的Cloudera Search在手,现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了!


Cloudera Search核心部件包括Hadoop和Solr,后者建立在Lucene之上;而Hadoop也正是在06年正式成为Lucene的一个子项目而发展起来的。现在,我们喜见这两个技术再度联手,为更多的用户提供了轻松利用存储在Hadoop里面的海量数据来获取信息和价值的利器,可以预见,包括企业内部及外部在内的,更多的企业应用将可以围绕Hadoop来展开。


下面是一个简单的Cloudera Search组件示意图。



通过Tika, Cloudera Search支持大量的被广泛使用的文件格式;除此之外,Cloudera Search还支持很多其他在Hadoop应用中常用的数据,譬如Avro, SequenceFile, 日志文件等。


用来建立索引和全文检索的数据可以是来自于HDFS,譬如日志文件,Hive或者HBase的表等等(通过集成NGData的Lily项目,对HBasae的支持工作也在进行中)。或者通过结合使用Flume采集于外部数据源,通过一个新支持的Flume Sink直接写到索引库里;同时还可以充分利用Flume来对要建立索引的数据进行各种预处理,譬如转换,提取创建元数据等。

 

建立的索引存储于HDFS。这给搜索带来了易于扩展,冗余和容错的好处。


此外,我们还可以运行MapReduce来对我们所需要检索的数据进行索引,提供给Solr。


大多数情况下, Zookeeper被用来协调各种数据的分布(参考 http://wiki.apache.org/solr/SolrCloud),并提供在系统出错的情况下自动切换,提高可靠性。


在系统安装和部署方面,Cloudera Manager可以被用来简化繁琐枯燥的工作,并提供了管理和监控搜索服务的功能。


用户接口上,搜索用户可以使用HUE的搜索界面进行查找操作。或者可以使用命令行工具或者Solr的GUI界面。


目前Cloudera Search还处于测试阶段,性能方面,一个服务器可以支持多达几亿个文档和接近TB的索引,搜索结果通常会在1至2秒之间返回。我们期待稳定版本的早日发布。

http://training.cloudera.com/elearning/SearchOverview/
  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [cloudera search hadoop] 推荐:

Cloudera Search: 轻松实现Hadoop全文检索

- - Hadoop中国
近期Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的消息. 想想看,有了集一整套解决方案在手的Cloudera Search在手,现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了.

手动安装Hadoop Cloudera CDH4.2版本

- - 开源软件 - ITeye博客
手动安装Hadoop Cloudera CDH4.2版本. 此文由本人调试整理通过,转载请注明出处,谢谢. 1.1 Hadoop是什么?4. 1.2 为什么选择CDH版本?4. 第2章 安装hadoop环境6. 2.2 默认用户组root:root6. 2.4 安装和配置jdk环境6. 2.5 配置/etc/hosts6.

英特尔放弃发行 Hadoop 版本,转而支持 Cloudera

- - 开源中国社区最新新闻
据Marketwatch 报道,英特尔昨天作出了一个震惊整个大数据市场的决定——停止发行英特尔自己的Hadoop版本,转而支持Hadoop发行商Cloudera. 消息人士透露英特尔资本还将向Cloudera追加超过9000万美元投资并成为Cloudera最大的股东. Cloudera上周刚刚完成1.6亿美元融资,而本周二 Hortonworks也紧随其后完成了第四轮1亿美元融资.

Oracle大数据机和连接器产品支持与Hadoop和Cloudera Manager集成

- - InfoQ cn
Oracle大数据机和大数据连接器软件支持与Hadoop、Cloudera Manager以及Oracle NoSQL数据库的集成. 上月Oracle 宣布携手Cloudera进军大数据机和连接器软件领域. 大数据机融合了Cloudera公司的 Apache Hadoop(CDH)和 Cloudera Manager管理应用,以及一个开源统计性编程语言 R.

Cloudera Impala 初体验

- - CSDN博客推荐文章
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据. 已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性. 相比之下,Impala的最大特点也是最大卖点就是它的快速.

Cloudera impala简介及安装详解

- - CSDN博客云计算推荐文章
一、Impala简介 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL. 除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax).

MySQL Fulltext Search 使用方式

- - Tsung's Blog
使用 MySQL 來達到 Fulltext 的效果, MySQL 對於 英文會自己依照空格去斷開, 中文就得要自行斷詞囉~. MySQL Fulltext Search 使用方式 與 注意事項. MySQL Fulltext 不支援 InnoDB, 需要使用 MyISAM.. 建立 Table 時, 需要設定 FULLTEXT(Col-name)..

Steve Souders: In Search of Speed 学习笔记

- arbeitandy - 知道分子
原雅虎首席性能官、现任 Google Web 性能专家 Steve Souders,近期在 LA 隆重举行的 SpeedGeeks 会议上发表重要讲话:In Search of Speed(slides, video),以下为学习笔记:. 以 iGoogle 为例,前端页面组件渲染的时间占了整个页面打开时间的 91%,前端优化的重要性不言而喻.

Google、「Buzz」や「Code Search」も終了へ

- GOT4416 - ITmedia News 速報 最新記事一覧
製品担当副社長のホロビッツ氏は、「Google Buzz」で学んだ多くのことを「Google+」に反映させていくと語った.

Google Code Search 終了のお知らせ

- 三十不归 - スラッシュドット・ジャパン
ある Anonymous Coward 曰く、. SourceForge.JP Magazine の記事によると、Google はソースコード検索サービスである「Google Code Search」を 2012 年 1 月 15 日に終了するとのことだ. 主要サービスにいっそう集中していくための再編の一環で、「Google Buzz」や「Jaiku」など 5 つのプロジェクトが対象となっている.