Hadoop，开发者纠结的十件事

标签： hadoop 开发 | 发表时间：2014-10-27 23:15 | 作者：

出处：http://news.cnblogs.com/

开源数据处理平台 Hadoop 在大数据时代的今天有着非常广泛的应用。著名的大象图标遍布各行各业，从医疗记录到银行交易，从车票预定到房屋租赁，乃至很多科学数据处理，都可以见到 Hadoop 的身影。

在 Hadoop 生态繁荣的背后，是开发者们夜以继日的开发与支持。而在用户得益甚至赞赏这些应用的时候，开发者们却不得不面对 Hadoop 平台中一些可用性较差的地方。本文列举了网络上一些关于 Hadoop 的缺点，供大家探讨，部分观点来自 InfoWorld 及开发者博客。

1、平台尚未成熟

虽然用途广泛，但不得不承认的是，Hadoop 目前仍在开发阶段。很多数据结构都不全，比如 Hadoop 一直不支持原生 datatime 数据类型，最近才在时间序列数据开发者的强烈建议下下引入此数据类型。其次，技术支持并不到位，无论是 Google 还是 Stack Overflow 上寻找的答案，都不足以解决开发者遇到的问题。

2、数据模式模糊不清

Hadoop 目前对模式（Schema）的描述并不清晰，很多开发者在撰写 Pig 脚本的过程中，会花费超过 50% 的时间在调试对 Schema 的支持上。

3、 Pig 和 Hive 无法互通

Hive 和 Pig 用起来完全是两个东西。熟悉 SQL 的开发者可以在 Hive 中使用类似的脚本，但是在 Pig 中却不得不重新学习其语法。在 Pig 中无法使用 Hive 的 UDFS，也无法使用 HCatalog 访问 Pig 的 Hive 表。反过来，无法在 Hive 中使用 Pig 的 UDFS。这让开发者在两者切换使用的过程中颇为纠结，需要耗费精力重新撰写脚本来完成已有的工作。

4、 HDFS 存储共享函数库

鉴于 Hadoop 的复用机制，一旦开发者将 Pig 脚本保存于 HDFS，那么 Hadoop 将自动认为所有的 JAR 包的存储方式都应如此。通常情况下，这样的做法并无问题，但是有时候，当一个项目需要维护大量共享库的时候，这就变得非常复杂。而且，大部分时间 JAR 包通常都在安装客户端的时候一并安装过，Hadoop 这种存储方式使得 JAR 包多次存储。据悉，脚本存储的问题 Pig 新版本已修正，但是共享函数库存储的问题却仍然存在。

5、报错信息不完整

这几乎是 Hadoop 系列工具的通病，经常在出了问题的时候，返回一个“运行失败，无更多错误信息”这样的报错提示，使得开发者无法进行更进一步的错误调试。还有，Hadoop 经常会抛出一些无法找到指针的异常（NPE），而这些问题则是由文件解析之类的操作造成，并不能属于 NPE 范畴。另外，由于采用 UDFS，导致很多报错最终以 udf 执行错误的样子呈现给开发者，而它们可能仅仅是语法错误或者类型错误。

6、不兼容的安全机制

开发者经常会听到这样的说法：“已经有足够多的案例证明，想要保证 Hadoop 的安全性，建议使用 Kerberos，LDAP 直白易用。”但是现状就是，Hadoop 平台并未对此有友好的集成：没有 SAML、没有 OAuth，也没有很好的安全验证机制（开发者只能时不时的无奈面对再一次出现的登录窗口）。更有意思的是，Hadoop 平台中很多组件都自己支持 LDAP，且彼此不考虑兼容性。

7、难以开发的 LDAP 连接器

对开发者来讲，用 Java 成功完成一个能用的 LDAP 连接器，至少需要修改上百次代码。而反过来看看完成的代码，连接器的功能还不完善。实际上，开发者们能感觉出 Knox 有点像一时冲动的产物。毕竟用 Apache 配置 mod_rewrite 模块就能完成的事情，非要用 Java 再写一遍，的确是让开发者头痛的事情。

8、难以扩展的 Hive 表管理

如果开发者使用 Hive 进行表管理的话，在 Hive 执行了 drop 表命令后，会自动将表删除。但是如果这个表是外部的话，则不会自动删除。为什么 Hive 不能将这两个表同样对待呢？此外，既然 Hive 现在有向 RDBMS 发展的趋势，为什么不增加 Update 和 Delete？

9、不兼容的 Namenode

Hadoop 的很多组件，如 Oozie、Knox 等，都不遵循新的 Namenode HA。开发者可以做一个 HA Hadoop，前提是他完全不想使用其他组件。

10、出错的文档

Hadoop 的文档存在很多问题，开发者经常会发现文档的示例代码中有问题，有一些文档本身都没有遵循 Hadoop 的模式设计。鉴于这些文档在互联网上流传广泛，应该有相当一批人学习并尝试，因此都会遇到并纠结于这些错误。实际上，有些错误是完全可以避免的，只要文档的撰写人在完成文档的同时，自己动手运行一下示例代码。比如 Oozie 文档中充斥着大量过去版本的样例代码，开发者遇到错误的时候，很可能不是自己程序写错了，而是由于 Oozie 版本更替而导致之前教程中的函数不兼容造成，比如协议问题、模式有效性问题等等。有人形容 Oozie，称其类似 Ant 和 Maven，只是没有任何调试手段，而且代码非常善变。

此外，在 Hadoop 平台的适用范围方面，它对实时数据访问支持并不好，也无法高效存储大量小文件，而且目前尚不支持多用户。

本文链接

Hadoop，开发者纠结的十件事

- - 博客园_新闻

开源数据处理平台 Hadoop 在大数据时代的今天有着非常广泛的应用. 著名的大象图标遍布各行各业，从医疗记录到银行交易，从车票预定到房屋租赁，乃至很多科学数据处理，都可以见到 Hadoop 的身影. 在 Hadoop 生态繁荣的背后，是开发者们夜以继日的开发与支持. 而在用户得益甚至赞赏这些应用的时候，开发者们却不得不面对 Hadoop 平台中一些可用性较差的地方.

基于Eclipse的Hadoop开发环境配置方法

- - CSDN博客推荐文章

（1）启动hadoop守护进程. 在Terminal中输入如下命令：. （2）在Eclipse上安装Hadoop插件. 找到hadoop的安装路径，我的是hadoop-0.20.2，将/home/wenqisun/hadoop-0.20.2/contrib/eclipse-plugin/下的hadoop-0.20.2- eclipse-plugin.jar拷贝到eclipse安装目录下的plugins里，我的是在/home/wenqisun/eclipse /plugins/下.

文章： Hadoop MapReduce开发最佳实践（上篇）

- - InfoQ cn

本文是Hadoop最佳实践系列第二篇，上一篇为《 Hadoop管理员的十个最佳实践》. 百度技术沙龙第三十四期：机器学习之多媒体方向的思考（2013年1月12日周六）. 百度技术沙龙特约观察员火热招募中，2013，因为有你更精彩. GitHub运维专家Jesse Newland QCon分享Github ChatOps机器人与GitHub架构演进.

windows 7 with eclipse 下hadoop应用开发环境搭建

- - CSDN博客云计算推荐文章

最近开始着手高校云平台的搭建，前些天做了hadoop集群测试环境的安装与配置的经验分享，这篇文章主要介绍win7 64位下 eclipse4.2 连接远程Redhat Linux 5下hadoop-1.2.0集群开发环境搭建. 1、window 7 64位. 三、安装配置hadoop集群. 四、在Eclipse下安装配置hadoop插件.

eclipse远程连接hadoop进行开发测试

- - 开源软件 - ITeye博客

eclipse远程连接hadoop进行开发测试. 马克飞象由于搭建hadoop环境在仿真系统，在本地远程连接hdfs和提交mapreduce的job任务精力了曲折，现整理如下：. hadoop环境：hadoop2.5.2 jdk1.7 eclipse_luno hadoop_eclipse插件2.6； .

基于Hadoop datajoin包开发Reduce join及针对MRV2优化

- - 开源软件 - ITeye博客

编写不易，转载请注明（http://shihlei.iteye.com/blog/2263757）. 最近项目，需要对两个文件进行连接查询，从文件2中提取在文件1中选线id的记录. 主要问题：两个文件都很大【文件1：1亿记录；文件2：8亿记录】 . 方案1：Map启动将文件1表示读取bloomfilter，map处理文件2，发现存在即输出.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上

Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：. 采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer）. 本文安排如下，第二节介绍Hadoop Streaming的原理，第三节介绍Hadoop Streaming的使用方法，第四节介绍Hadoop Streaming的程序编写方法，在这一节中，用C++、C、shell脚本和python实现了WordCount作业，第五节总结了常见的问题.

Hadoop，开发者纠结的十件事

相关 [hadoop 开发] 推荐：

Hadoop，开发者纠结的十件事

基于Eclipse的Hadoop开发环境配置方法

文章： Hadoop MapReduce开发最佳实践（上篇）

windows 7 with eclipse 下hadoop应用开发环境搭建

eclipse远程连接hadoop进行开发测试

基于Hadoop datajoin包开发Reduce join及针对MRV2优化

Hadoop Streaming 编程

Hadoop使用（一）

Hadoop MapReduce技巧

Hadoop TaskScheduler浅析

相关文章

订阅