Task运行过程分析

标签: task 分析 | 发表时间:2013-12-03 17:34 | 作者:szjian
出处:http://www.iteye.com
2 Task运行过程分析
Map Task分解成Read、Map、Collect、Spill、Combine五个阶段,Reduce Task分解成Shuffle、Merge、Sort、Reduce、Write五个阶段。
2.1 Map Task整体流程
1) Read阶段:Map Task通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value;
2) Map:将解析出的key/value交给用户编写的map()函数处理,并产生一系列新的key/value;
3) Collect:当Map处理完数据后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分片(通过调用Partitioner),并写入一个环形内存缓冲区中;
4) Spill:即“溢写”,当环形内存缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作;
5) Combine:当所有数据处理完成后,Map Task对所有临时文件进行一次合并,以确保最终只会生成一个数据文件;
2.2 Reduce Task整体流程
1) Shuffle阶段:也称为copy阶段,Reduce Task从各个Map Task上远程拷贝一片数据,对针对某一片数据,如果其大小超过一定的阈值,则写到磁盘上,否则直接放到内存中;
2) Merge:在远程拷贝数据的同时,Reduce Task启动了两个后台线程对内存和磁盘上的文件进行合并,以防止内存使用过多或磁盘上文件过多;
3) Sort:为了将key相同的数据聚在一起,采用了基于排序的策略。由于各个Map Task已经实现对自己的处理结果进行了局部排序,因此,Reduce Task只需对所有数据进行一次归并排序即可;
4) Reduce:将每组数据依次交给用户编写的reduce()函数处理;
5) Write:将计算结果写到hdfs上;


已有 0 人发表留言,猛击->> 这里<<-参与讨论


ITeye推荐



相关 [task 分析] 推荐:

Task运行过程分析

- - 互联网 - ITeye博客
Map Task分解成Read、Map、Collect、Spill、Combine五个阶段,Reduce Task分解成Shuffle、Merge、Sort、Reduce、Write五个阶段. Read阶段:Map Task通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value;.

Hadoop中Speculative Task调度策略

- - 董的博客
Dong | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及 版权声明. 网址: http://dongxicheng.org/mapreduce/hadoop-speculative-task/. Speculative Task思路是以空间换时间的,同时启动多个相同task,哪个完成的早,则采用哪个task的结果,这样明显可以提高任务计算速度,但是,这样却会占用更多的资源,在集群资源紧缺的情况下,合理的控制Speculative Task,可在多用少量资源情况下,减少大作业的计算时间.

backlogs自定义task的状态

- - CSDN博客研发管理推荐文章
这点完胜IceScrum,在多人协作的时候,不同的角色需要围绕着一个task协作. 这时候,默认的状态可能不够用或者. 一些人提出要可以定制两个状态,比如QA verified. 其实熟悉Redmine的人可以直接定制. 我已经回答了该issue,下面是测试样例的截屏:. 作者:sheismylife 发表于2014-2-11 21:16:30 原文链接.

强大、简洁、优雅、免费——iPhone应用Task This

- king - 葡挞生活
iPhone上的To-do软件看过试过不少,最好的那几款都是收费的,免费版本都有诸多限制;纯免费的软件经常缺这少那,设计也很多不合理之处. 然而这一切终于改变了——因为有了Task This.. 功能强大和界面简洁似乎常常水火不容. 每当整理收集箱的任务时,看着一长串需要填写的选项,总不禁有几分烦闷.

Task Coach:个人事务(待办事项)管理工具

- - 软件志
三、Task Coach相关下载信息: Windows  ||  Mac OS X ||  Linux ||  BSD  iPhone and iPod Touch ||  官方主页.

JBPM具体应用之task节点的使用

- - CSDN博客综合推荐文章
task节点是最常用的节点之一,也因为执行任务的情况有很多种,所以他的用法也是多种多样的,本文主要讲解task的三种用法分别如下:. 1.candidate属性. 该熟属性在于task节点中,他的作用类似于组内工作分配,假如一个组内有两个人a1和a2,将该属性所在任务分配给两人中的一个后,则只有该任务被分配人才能看到任务,其他人都看不到.

LTS 轻量级分布式任务调度框架(Light Task Schedule)

- - Java - 编程语言 - ITeye博客
LTS是一个轻量级分布式任务调度框架,参考hadoop的部分思想. 有三种角色, JobClient, JobTracker, TaskTracker. 各个节点都是无状态的,可以部署多个,来实现负载均衡,实现更大的负载量, 并且框架具有很好的容错能力. 采用Zookeeper暴露节点信息,master选举.

hadoop输入分片计算(Map Task个数的确定) - 有无之中

- - 博客园_首页
  作业从JobClient端的submitJobInternal()方法提交作业的同时,调用InputFormat接口的getSplits()方法来创建split. 默认是使用InputFormat的子类FileInputFormat来计算分片,而split的默认实现为FileSplit(其父接口为InputSplit).

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neural Networks | 邹进屹的博客

- -
第三个网络叫ONet,对第二个CNN获得的人脸区域进行再次训练获得是否是人脸,人脸坐标以及五个特征点. 以下项目时MTCNN的具体代码实现. 项目地址:https://github.com/pangyupo/mxnet_mtcnn_face_detection. // MTCNN_VS2015.cpp : 定义控制台应用程序的入口点.

竞品分析

- 章明 - 互联网的那点事
关于竞品分析,之前天行(@天行Aeros)有篇文章《设计公式:简单有效的竞品分析》已经进行了介绍,本文在该文章的基础之上再进行一些分享,希望对大家有用. 竞品分析(Competitive Analysis)一词最早源于经济学领域. 市场营销和战略管理方面的竞品分析是指对现有的或潜在的竞争产品的优势和劣势进行评价.