Eclipse执行Hadoop WordCount

标签: eclipse hadoop wordcount | 发表时间:2014-09-12 22:53 | 作者:qiyuexuel
出处:http://blog.csdn.net

Eclipse执行Hadoop WordCount

前期工作

  我的Eclipse是安装在windows下的,通过Eclipse执行程序连接Hadoop,需要让虚拟机的访问地址和本机的访问地址保持在同一域内,虚拟机的地址更改前面的文章介绍过了,如果想改windows本机ip地址,打开“网络和共享中心“,点击左侧菜单”更改适配器设置“,选择相应连接网络进行IpV4属性地址修改即可。我虚拟机地址为192.168.3.137


准备工作

  地址配置好之后,在Eclipse上要安装Hadoop的插件(你可以参考源码自行修改)。

打开Eclipse安装路径---\eclipse\plugins,把hadoop-eclipse-plugin-1.1.2.jar放到这个目录下。

windows本机新建目录(本人在E:\hadoopMapReduceDir),从Linux的Hadoop安装包内复制所有jar放到这个目录下备用。

 

配置工作

  打开Eclipse,在菜单栏点击Window,showView选择Other打开选择显示的窗口,如下

  在MapReduceTools 目录下找到这只大象,将它拖到Eclipse底部显示(和Console放一块)

  点击大象,在下边空白区右击 选择New Hadooplocation(见下图)

  打开新建配置窗口,设置连接信息,下图是本机的连接配置名称自己填写,两个端口和username 按图填写(Hadoop默认的端口)

  点击Eclipse菜单栏Window ---》Preference,找到HadoopMap/Reduce,点击之后在右侧选择导入Hadoop jar的路径,这样以后新建Hadoop项目,jar包会自动从该路径加载,路径上面已设,添加进来如图:

创建项目

  点击File---》other,打开新建对话框,创建Map/ReduceProject项目NewHadoopTest

  创建完成后你会看到jar包自动加载到项目之中

  拷贝Linux下Hadoop的src目录下的example java项目 到刚刚创建的工程下src下,

里面就有WordCount.java

  Linux下启动Hadoop(用JPS检查是否已启动),在Eclipse连接,连接成功后Hadoop目录就会显示如下

修改代码

  现在设置方面基本完成,接下来就是针对WordCount.java所做的修改和HDFS路径配置

打开WordCount.java(可能会报错),

   将main方法更改如下:

  如果 GenericOptionsParser报错,将Hadoop-core-1.1.2.jar加到项目中(或放到jar配置路径)。

新建a.txt文件,输入下面内容,保存

  在hadoopname下user—》hadoop目录创建input文件夹,将文件a.txt上传到HDFS input上,过程如下(不要创建output目录,不然执行会报错,)

如果HDFS已有,可Linux使用命令hadoop fs -rmr /output删除)

在选择Wordcount.java,右击run as ---》run configurations,打开Arguments填写input out路径(注意:input和output路径中间是有空格的),这里我设置查询input下所有文件的单词出现次数。

 

右击WordCount.java,run as -àrun on hadoop 执行

执行结束后,刷新DFS Locations/ use/hadoop

自动生成output文件夹,点击可以看到执行结果。最终结果存放在part-r-00000中,双击查看即可

 

作者:qiyuexuel 发表于2014-9-12 14:53:10 原文链接
阅读:55 评论:0 查看评论

相关 [eclipse hadoop wordcount] 推荐:

Eclipse执行Hadoop WordCount

- - CSDN博客云计算推荐文章
Eclipse执行Hadoop WordCount.   我的Eclipse是安装在windows下的,通过Eclipse执行程序连接Hadoop,需要让虚拟机的访问地址和本机的访问地址保持在同一域内,虚拟机的地址更改前面的文章介绍过了,如果想改windows本机ip地址,打开“网络和共享中心“,点击左侧菜单”更改适配器设置“,选择相应连接网络进行IpV4属性地址修改即可.

hadoop学习(七)WordCount+Block+Split+Shuffle+Map+Reduce技术详解

- - CSDN博客数据库推荐文章
纯干活:通过WourdCount程序示例:详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程.        Shuffle过程是MapReduce的核心,集中了MR过程最关键的部分. 要想了解MR,Shuffle是必须要理解的. 了解Shuffle的过程,更有利于我们在对MapReduce job性能调优的工作,以及对MR内部机理有更深一步的了解.

Hadoop学习笔记之在Eclipse中远程调试Hadoop

- - BlogJava-首页技术区
话说Hadoop 1.0.2/src/contrib/eclipse-plugin只有插件的源代码,这里给出一个我打包好的对应的Eclipse插件:. 下载后扔到eclipse/dropins目录下即可,当然eclipse/plugins也是可以的,前者更为轻便,推荐;重启Eclipse,即可在透视图(Perspective)中看到Map/Reduce.

基于Eclipse的Hadoop开发环境配置方法

- - CSDN博客推荐文章
(1)启动hadoop守护进程. 在Terminal中输入如下命令:. (2)在Eclipse上安装Hadoop插件. 找到hadoop的安装路径,我的是hadoop-0.20.2,将/home/wenqisun/hadoop-0.20.2/contrib/eclipse-plugin/下的hadoop-0.20.2- eclipse-plugin.jar拷贝到eclipse安装目录下的plugins里,我的是在/home/wenqisun/eclipse /plugins/下.

windows 7 with eclipse 下hadoop应用开发环境搭建

- - CSDN博客云计算推荐文章
最近开始着手高校云平台的搭建,前些天做了hadoop集群测试环境的安装与配置的经验分享, 这篇文章主要介绍win7 64位下 eclipse4.2 连接远程Redhat Linux 5下hadoop-1.2.0集群开发环境搭建. 1、window 7 64位. 三、安装配置hadoop集群. 四、在Eclipse下安装配置hadoop插件.

eclipse远程连接hadoop进行开发测试

- - 开源软件 - ITeye博客
eclipse远程连接hadoop进行开发测试. 马克飞象 由于搭建hadoop环境在仿真系统,在本地远程连接hdfs和提交mapreduce的job任务精力了曲折,现整理如下:. hadoop环境 :hadoop2.5.2 jdk1.7 eclipse_luno hadoop_eclipse插件2.6; .

wordcount详解(借鉴)

- - CSDN博客云计算推荐文章
1、MapReduce理论简介. 1.1 MapReduce编程模型.   MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果. 简单地说,MapReduce就是"任务的分解与结果的汇总".   在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的.

Storm实战之WordCount

- - 编程语言 - ITeye博客
 在全面介绍Storm之前,我们先通过一个简单的Demo让大家整体感受一下什么是Storm. 本地模式(Local Mode): 即Topology(相当于一个任务,后续会详细讲解)  运行在本地机器的单一JVM上,这个模式主要用来开发、调试. 远程模式(Remote Mode):在这个模式,我们把我们的Topology提交到集群,在这个模式中,Storm的所有组件都是线程安全的,因为它们都会运行在不同的Jvm或物理机器上,这个模式就是正式的生产模式.

Eclipse 3.7发布

- Power - Solidot
Eclipse基金会宣布发布开源集成开发环境Eclipse 3.7,代号Indigo.

Google宣布Eclipse Labs

- 旺旺 - Solidot
Google和众多开源社区的开发者都使用Eclipse IDE,Google开发者用Eclipse开发了Android、App Engine、Google Chrome,以及大量Web应用程序. 现在Google宣布与Eclipse基金会合作,促进Eclipse生态系统,他们的合作结晶是Eclipse Labs.