运行Hadoop作业时一处常见错误以及解决方法 job 引入第三方jar包
提交job端引入了 第三方jar包,自动传上去的参数 -D libjars=myjob.jar,third-party.jar
会上传到 hdfs-site.xml 文件中 :
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/</value>
<description>
</description>
</property>
指定的路径,该路径是hdfs上的路径,mapred运行时会在该目录下建立自己的文件夹里面放入 上传的第三方jar包,所有的mapred程序都去这个hdfs目录读取jar包到本地运行java程序。
p
运行Hadoop作业时一处常见错误以及解决方法 | 董的博客
【写在前面】THU的Jie Fu同学遇到了该问题,通过我们的邮件交流解决了该问题。 个人感觉该问题比较普遍,于是整理此文。
1. 问题描述
当用户编写完Hadoop程序时,准备运行时,经常会抛出以下异常:
[15:10:41,949][ INFO][main][org.apache.hadoop.mapred.JobClient:1330] � Task Id : attempt_201202281244_0003_m_000000_1, Status : FAILED
Error: java.lang.ClassNotFoundException: com.sca.commons.ScaException
at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:247)
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:819)
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:864)
at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.getMapperClass(MultithreadedMapper.java:95)
at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.run(MultithreadedMapper.java:127)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
大家一看异常“java.lang.ClassNotFoundException”就会知道原因是找不到java类。
经个人总结,这通常是由于以下几种原因造成的:
(1)你编写了一个java lib,封装成了jar,然后再写了一个Hadoop程序,调用这个jar完成mapper和reducer的编写
(2)你编写了一个Hadoop程序,期间调用了一个第三方java lib。
之后,你将自己的jar包或者第三方java包分发到各个TaskTracker的HADOOP_HOME目录下,运行你的JAVA程序,报了以上错误。
2. 解决方法
(1) 在运行脚本中添加classpath.
在$HADOOP_HOME/conf/hadoop_env.sh 或者$HADOOP_HOME/bin/hadoop-config.sh中添加:
export HADOOP_CLASSPATH=$HADOOP_HOME/my_jars
然后将你自己的jar包和第三方jar包分发到各个TaskTracker的HADOOP_CLASSPATH目录下(别忘了所有TaskTracker上的hadoop_env.sh和hadoop-config.sh均按以上方法添加HADOOP_CLASSPATH环境变量)
【注】hadoop_env.sh和hadoop-config.sh是所有hadoop运行脚本(start-all.sh, start-dfs.sh等)一定会引用的配置脚本,可以将一些最基本的环境变量或者配置参数加到这两个文件中。
(2) 使用“-D libjars“参数
这种方式是本人推荐的方法,但是支持这个功能,需要按照如下方式编写Hadoop程序:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 | public class MyHadoopJob extends Configured implements Tool { publicstaticclass MapClass extendsMapper<LongWritable, Text, IntPair, IntWritable> { //your mapper } publicstaticclass Reduce extends Reducer<IntPair, IntWritable, Text, IntWritable> { //your reducer } //设定并读取应用程序相关的,自己定义的一些参数 publicintrun(String[] args) throwsException { if(args.length < 2) { printUsage(); return2; } Job job = newJob(getConf()); …...... } //真正的main函数 publicstaticvoidmain(String[] args) throws Exception{ int res = ToolRunner.run(newConfiguration(), newSleepJob(), args); System.exit(res); } } |
运行作业:
#run_myjob.sh
bin/hadoop jar myjob.jar MyHadoopJob \
-D mapred.job.name=MyHadoopJob \-D mapred.map.tasks=24 \-D mapred.mreduce.tasks=12 \-D mapred.input.dir=/test/input1,test/input2 \-D mapred.output.dir=/test/output \-D libjars=myjob.jar,third-party.jar-my1 5 \-my2 china
运行./run_myjob.sh
其中 “-D libjars“指定本地两个jar文件,Hadoop自动会把这两个文件分发到各个TaskTracker的临时工作目录下,用完后自动删除。
3. 解决方案比较
第一种方法过于笨拙,每次都要人工地将jar包分发到各个TaskTracker上,如果集群很大,非常耗时;第二种方法利用了Hadoop内部机制进行jar包分发,非常方便。实际上,在Hadoop example中,除了WordCount例子外,其他所有例子均采用了方案2的设计方法。
运行Hadoop作业时一处常见错误以及解决方法 | 董的博客
【写在前面】THU的Jie Fu同学遇到了该问题,通过我们的邮件交流解决了该问题。 个人感觉该问题比较普遍,于是整理此文。
1. 问题描述
当用户编写完Hadoop程序时,准备运行时,经常会抛出以下异常:
[15:10:41,949][ INFO][main][org.apache.hadoop.mapred.JobClient:1330] � Task Id : attempt_201202281244_0003_m_000000_1, Status : FAILED
Error: java.lang.ClassNotFoundException: com.sca.commons.ScaException
at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:247)
at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:819)
at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:864)
at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.getMapperClass(MultithreadedMapper.java:95)
at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.run(MultithreadedMapper.java:127)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
大家一看异常“java.lang.ClassNotFoundException”就会知道原因是找不到java类。
经个人总结,这通常是由于以下几种原因造成的:
(1)你编写了一个java lib,封装成了jar,然后再写了一个Hadoop程序,调用这个jar完成mapper和reducer的编写
(2)你编写了一个Hadoop程序,期间调用了一个第三方java lib。
之后,你将自己的jar包或者第三方java包分发到各个TaskTracker的HADOOP_HOME目录下,运行你的JAVA程序,报了以上错误。
2. 解决方法
(1) 在运行脚本中添加classpath.
在$HADOOP_HOME/conf/hadoop_env.sh 或者$HADOOP_HOME/bin/hadoop-config.sh中添加:
export HADOOP_CLASSPATH=$HADOOP_HOME/my_jars
然后将你自己的jar包和第三方jar包分发到各个TaskTracker的HADOOP_CLASSPATH目录下(别忘了所有TaskTracker上的hadoop_env.sh和hadoop-config.sh均按以上方法添加HADOOP_CLASSPATH环境变量)
【注】hadoop_env.sh和hadoop-config.sh是所有hadoop运行脚本(start-all.sh, start-dfs.sh等)一定会引用的配置脚本,可以将一些最基本的环境变量或者配置参数加到这两个文件中。
(2) 使用“-D libjars“参数
这种方式是本人推荐的方法,但是支持这个功能,需要按照如下方式编写Hadoop程序:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 | public class MyHadoopJob extends Configured implements Tool { publicstaticclass MapClass extendsMapper<LongWritable, Text, IntPair, IntWritable> { //your mapper } publicstaticclass Reduce extends Reducer<IntPair, IntWritable, Text, IntWritable> { //your reducer } //设定并读取应用程序相关的,自己定义的一些参数 publicintrun(String[] args) throwsException { if(args.length < 2) { printUsage(); return2; } Job job = newJob(getConf()); …...... } //真正的main函数 publicstaticvoidmain(String[] args) throws Exception{ int res = ToolRunner.run(newConfiguration(), newSleepJob(), args); System.exit(res); } } |
运行作业:
#run_myjob.sh
bin/hadoop jar myjob.jar MyHadoopJob \
-D mapred.job.name=MyHadoopJob \-D mapred.map.tasks=24 \-D mapred.mreduce.tasks=12 \-D mapred.input.dir=/test/input1,test/input2 \-D mapred.output.dir=/test/output \-D libjars=myjob.jar,third-party.jar-my1 5 \-my2 china
运行./run_myjob.sh
其中 “-D libjars“指定本地两个jar文件,Hadoop自动会把这两个文件分发到各个TaskTracker的临时工作目录下,用完后自动删除。
3. 解决方案比较
第一种方法过于笨拙,每次都要人工地将jar包分发到各个TaskTracker上,如果集群很大,非常耗时;第二种方法利用了Hadoop内部机制进行jar包分发,非常方便。实际上,在Hadoop example中,除了WordCount例子外,其他所有例子均采用了方案2的设计方法。
类别: Hadoop 查看评论