运行Hadoop作业时一处常见错误以及解决方法 job 引入第三方jar包

标签: Hadoop | 发表时间:2012-04-25 16:53 | 作者:jrckkyy
出处:http://hi.baidu.com/jrckkyy

提交job端引入了 第三方jar包,自动传上去的参数 -D libjars=myjob.jar,third-party.jar

会上传到 hdfs-site.xml 文件中 :

<property>
  <name>hadoop.tmp.dir</name>
  <value>/tmp/</value>
  <description>
  </description>
</property>

指定的路径,该路径是hdfs上的路径,mapred运行时会在该目录下建立自己的文件夹里面放入 上传的第三方jar包,所有的mapred程序都去这个hdfs目录读取jar包到本地运行java程序。

 

 

p

运行Hadoop作业时一处常见错误以及解决方法 | 董的博客

-0229

运行Hadoop作业时一处常见错误以及解决方法

 

 

Category: Hadoop-MapReduce

View: 172 阅
Author: Dong

 

【写在前面】THU的Jie Fu同学遇到了该问题,通过我们的邮件交流解决了该问题。 个人感觉该问题比较普遍,于是整理此文。

1. 问题描述

当用户编写完Hadoop程序时,准备运行时,经常会抛出以下异常:

[15:10:41,949][ INFO][main][org.apache.hadoop.mapred.JobClient:1330] � Task Id : attempt_201202281244_0003_m_000000_1, Status : FAILED

Error: java.lang.ClassNotFoundException: com.sca.commons.ScaException

at java.net.URLClassLoader$1.run(URLClassLoader.java:202)

at java.security.AccessController.doPrivileged(Native Method)

at java.net.URLClassLoader.findClass(URLClassLoader.java:190)

at java.lang.ClassLoader.loadClass(ClassLoader.java:306)

at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)

at java.lang.ClassLoader.loadClass(ClassLoader.java:247)

at java.lang.Class.forName0(Native Method)

at java.lang.Class.forName(Class.java:247)

at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:819)

at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:864)

at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.getMapperClass(MultithreadedMapper.java:95)

at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.run(MultithreadedMapper.java:127)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)

at org.apache.hadoop.mapred.Child$4.run(Child.java:255)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:396)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)

at org.apache.hadoop.mapred.Child.main(Child.java:249)

大家一看异常“java.lang.ClassNotFoundException”就会知道原因是找不到java类。

经个人总结,这通常是由于以下几种原因造成的:

(1)你编写了一个java lib,封装成了jar,然后再写了一个Hadoop程序,调用这个jar完成mapper和reducer的编写

(2)你编写了一个Hadoop程序,期间调用了一个第三方java lib。

之后,你将自己的jar包或者第三方java包分发到各个TaskTracker的HADOOP_HOME目录下,运行你的JAVA程序,报了以上错误。

2. 解决方法

(1) 在运行脚本中添加classpath.

在$HADOOP_HOME/conf/hadoop_env.sh 或者$HADOOP_HOME/bin/hadoop-config.sh中添加:

export HADOOP_CLASSPATH=$HADOOP_HOME/my_jars

然后将你自己的jar包和第三方jar包分发到各个TaskTracker的HADOOP_CLASSPATH目录下(别忘了所有TaskTracker上的hadoop_env.sh和hadoop-config.sh均按以上方法添加HADOOP_CLASSPATH环境变量)

【注】hadoop_env.sh和hadoop-config.sh是所有hadoop运行脚本(start-all.sh, start-dfs.sh等)一定会引用的配置脚本,可以将一些最基本的环境变量或者配置参数加到这两个文件中。

(2) 使用“-D libjars“参数

这种方式是本人推荐的方法,但是支持这个功能,需要按照如下方式编写Hadoop程序:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
public class MyHadoopJob extends Configured implements Tool {
 
   publicstaticclass  MapClass
 
      extendsMapper<LongWritable, Text, IntPair, IntWritable> {
 
      //your mapper
 
   }
 
   publicstaticclass  Reduce
 
      extends  Reducer<IntPair, IntWritable, Text, IntWritable> {
 
      //your reducer
 
   }
 
//设定并读取应用程序相关的,自己定义的一些参数
 
   publicintrun(String[] args)  throwsException {
 
      if(args.length < 2) {
 
         printUsage();
 
        return2;
 
    }
 
   Job job = newJob(getConf());
 
   …......
 
   }
 
   //真正的main函数
 
   publicstaticvoidmain(String[] args) throws  Exception{
 
      int  res = ToolRunner.run(newConfiguration(), newSleepJob(), args);
 
      System.exit(res);
 
   }
 
}

运行作业:

#run_myjob.sh

bin/hadoop jar myjob.jar MyHadoopJob \

-D mapred.job.name=MyHadoopJob \-D mapred.map.tasks=24 \-D mapred.mreduce.tasks=12 \-D mapred.input.dir=/test/input1,test/input2 \-D mapred.output.dir=/test/output \-D libjars=myjob.jar,third-party.jar-my1 5 \-my2 china

运行./run_myjob.sh

其中 “-D libjars“指定本地两个jar文件,Hadoop自动会把这两个文件分发到各个TaskTracker的临时工作目录下,用完后自动删除。

3. 解决方案比较

第一种方法过于笨拙,每次都要人工地将jar包分发到各个TaskTracker上,如果集群很大,非常耗时;第二种方法利用了Hadoop内部机制进行jar包分发,非常方便。实际上,在Hadoop example中,除了WordCount例子外,其他所有例子均采用了方案2的设计方法。

运行Hadoop作业时一处常见错误以及解决方法 | 董的博客

-0229

【写在前面】THU的Jie Fu同学遇到了该问题,通过我们的邮件交流解决了该问题。 个人感觉该问题比较普遍,于是整理此文。

1. 问题描述

当用户编写完Hadoop程序时,准备运行时,经常会抛出以下异常:

[15:10:41,949][ INFO][main][org.apache.hadoop.mapred.JobClient:1330] � Task Id : attempt_201202281244_0003_m_000000_1, Status : FAILED

Error: java.lang.ClassNotFoundException: com.sca.commons.ScaException

at java.net.URLClassLoader$1.run(URLClassLoader.java:202)

at java.security.AccessController.doPrivileged(Native Method)

at java.net.URLClassLoader.findClass(URLClassLoader.java:190)

at java.lang.ClassLoader.loadClass(ClassLoader.java:306)

at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)

at java.lang.ClassLoader.loadClass(ClassLoader.java:247)

at java.lang.Class.forName0(Native Method)

at java.lang.Class.forName(Class.java:247)

at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:819)

at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:864)

at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.getMapperClass(MultithreadedMapper.java:95)

at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.run(MultithreadedMapper.java:127)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)

at org.apache.hadoop.mapred.Child$4.run(Child.java:255)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:396)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)

at org.apache.hadoop.mapred.Child.main(Child.java:249)

大家一看异常“java.lang.ClassNotFoundException”就会知道原因是找不到java类。

经个人总结,这通常是由于以下几种原因造成的:

(1)你编写了一个java lib,封装成了jar,然后再写了一个Hadoop程序,调用这个jar完成mapper和reducer的编写

(2)你编写了一个Hadoop程序,期间调用了一个第三方java lib。

之后,你将自己的jar包或者第三方java包分发到各个TaskTracker的HADOOP_HOME目录下,运行你的JAVA程序,报了以上错误。

2. 解决方法

(1) 在运行脚本中添加classpath.

在$HADOOP_HOME/conf/hadoop_env.sh 或者$HADOOP_HOME/bin/hadoop-config.sh中添加:

export HADOOP_CLASSPATH=$HADOOP_HOME/my_jars

然后将你自己的jar包和第三方jar包分发到各个TaskTracker的HADOOP_CLASSPATH目录下(别忘了所有TaskTracker上的hadoop_env.sh和hadoop-config.sh均按以上方法添加HADOOP_CLASSPATH环境变量)

【注】hadoop_env.sh和hadoop-config.sh是所有hadoop运行脚本(start-all.sh, start-dfs.sh等)一定会引用的配置脚本,可以将一些最基本的环境变量或者配置参数加到这两个文件中。

(2) 使用“-D libjars“参数

这种方式是本人推荐的方法,但是支持这个功能,需要按照如下方式编写Hadoop程序:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
public class MyHadoopJob extends Configured implements Tool {
 
   publicstaticclass  MapClass
 
      extendsMapper<LongWritable, Text, IntPair, IntWritable> {
 
      //your mapper
 
   }
 
   publicstaticclass  Reduce
 
      extends  Reducer<IntPair, IntWritable, Text, IntWritable> {
 
      //your reducer
 
   }
 
//设定并读取应用程序相关的,自己定义的一些参数
 
   publicintrun(String[] args)  throwsException {
 
      if(args.length < 2) {
 
         printUsage();
 
        return2;
 
    }
 
   Job job = newJob(getConf());
 
   …......
 
   }
 
   //真正的main函数
 
   publicstaticvoidmain(String[] args) throws  Exception{
 
      int  res = ToolRunner.run(newConfiguration(), newSleepJob(), args);
 
      System.exit(res);
 
   }
 
}

运行作业:

#run_myjob.sh

bin/hadoop jar myjob.jar MyHadoopJob \

-D mapred.job.name=MyHadoopJob \-D mapred.map.tasks=24 \-D mapred.mreduce.tasks=12 \-D mapred.input.dir=/test/input1,test/input2 \-D mapred.output.dir=/test/output \-D libjars=myjob.jar,third-party.jar-my1 5 \-my2 china

运行./run_myjob.sh

其中 “-D libjars“指定本地两个jar文件,Hadoop自动会把这两个文件分发到各个TaskTracker的临时工作目录下,用完后自动删除。

3. 解决方案比较

第一种方法过于笨拙,每次都要人工地将jar包分发到各个TaskTracker上,如果集群很大,非常耗时;第二种方法利用了Hadoop内部机制进行jar包分发,非常方便。实际上,在Hadoop example中,除了WordCount例子外,其他所有例子均采用了方案2的设计方法。

阅读全文
类别: Hadoop  查看评论

相关 [hadoop 作业 常见] 推荐:

hadoop配置常见问题

- - 企业架构 - ITeye博客
收集记录一些Hadoop配置部署过程中遇到的问题. 这种方法解决了运行中的hadoop的safe mode问题,但是下次重启hadoop,还会出现这个问题. 其实这个问题,我猜测可能是由于目录/app/hadoop/tmp/mapred/system被破坏造成. 永久解决,可以删除掉/app/hadoop/tmp/,重新创建,重新format,重启hadoop——如果条件允许的话.

运行Hadoop作业时一处常见错误以及解决方法 job 引入第三方jar包

- - 学着站在巨人的肩膀上
提交job端引入了 第三方jar包,自动传上去的参数 -D libjars=myjob.jar,third-party.jar. 会上传到 hdfs-site.xml 文件中 :. 指定的路径,该路径是hdfs上的路径,mapred运行时会在该目录下建立自己的文件夹里面放入 上传的第三方jar包,所有的mapred程序都去这个hdfs目录读取jar包到本地运行java程序.

hadoop常见错误及解决办法!

- - 企业架构 - ITeye博客
转: http://p-x1984.iteye.com/blog/989577 1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了.

Hadoop YARN常见问题以及解决方案

- - 董的博客
Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-problems-vs-solutions/. 本博客的文章集合: http://dongxicheng.org/recommend/.

hadoop作业reduce过程调优使用到的参数笔记

- - 编程语言 - ITeye博客
reduce的运行是分成三个阶段的. 分别为copy->sort->reduce. 由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition,. 所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的. 所以,为了优化reduce的执行时间,hadoop中是等job的第一个map结束后,.

分布式系统Hadoop源码阅读与分析(一):作业调度器实现机制

- otter - 博客园-首页原创精华区
上一篇博文对Hadoop的作业调度器进行了介绍,我们知道,JobTracker和TaskTracker是Hadoop作业调度过程中最核心的两个部分,前者负责map/reduce作业的调度与分派,后者负责map/reduce作业的实际执行,它们之间通过RPC机制进行通讯. 下面将对Hadoop 0.20.2版本中作业调度相关源码进行分析,至于JobTracker和TaskTracker中与作业调度无关的源码部分,并未进行详细介绍.

Hadoop Streaming 编程

- - 学着站在巨人的肩膀上
Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:. 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer). 本文安排如下,第二节介绍Hadoop Streaming的原理,第三节介绍Hadoop Streaming的使用方法,第四节介绍Hadoop Streaming的程序编写方法,在这一节中,用C++、C、shell脚本 和python实现了WordCount作业,第五节总结了常见的问题.

Hadoop使用(一)

- Pei - 博客园-首页原创精华区
Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成. 其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上.

Hadoop MapReduce技巧

- - 简单文本
我在使用Hadoop编写MapReduce程序时,遇到了一些问题,通过在Google上查询资料,并结合自己对Hadoop的理解,逐一解决了这些问题. Hadoop对MapReduce中Key与Value的类型是有要求的,简单说来,这些类型必须支持Hadoop的序列化. 为了提高序列化的性能,Hadoop还为Java中常见的基本类型提供了相应地支持序列化的类型,如IntWritable,LongWritable,并为String类型提供了Text类型.

Hadoop TaskScheduler浅析

- - kouu&#39;s home
TaskScheduler,顾名思义,就是MapReduce中的任务调度器. 在MapReduce中,JobTracker接收JobClient提交的Job,将它们按InputFormat的划分以及其他相关配置,生成若干个Map和Reduce任务. 然后,当一个TaskTracker通过心跳告知JobTracker自己还有空闲的任务Slot时,JobTracker就会向其分派任务.