Spark 任务调度
- - IT瘾-dev Spark的核心是基于RDD来实现的,Spark任务调度就是如何组织任务去处理RDD中每个分区的数据,根据RDD的依赖关系构建DAG,基于DAG划分Stage,然后将每个Stage中的任务(Task)分发到指定的节点去运行得到最终的结果. Application:用户编写的Spark应用程序,由一个或多个Job组成.
今天,和大家介绍一个轻量级分布式任务调度平台,开发迅速、学习简单、轻量级、易扩展,290家公司都在用,它就是XXL-JOB,包括比较知名的大众点评,京东,优信二手车,北京尚德,360金融 (360),联想集团 (联想),易信 (网易)等等....
目前,xxl-job已经在Github上已经标星12.1K,Fork有5.2K(Github地址:https://github.com/xuxueli/xxl-job)
主要功能特性一共有35条,如下图所示:
xxl-job将调度行为抽象形成“调度中心”公共平台,而平台自身并不承担业务逻辑,“调度中心”负责发起调度请求。
将任务抽象成分散的JobHandler,交由“执行器”统一管理,“执行器”负责接收调度请求并执行对应的JobHandler中业务逻辑。
因此,“调度”和“任务”两部分可以相互解耦,提高系统整体稳定性和扩展性;系统组成如下:
负责管理调度信息,按照调度配置发出调度请求,自身不承担业务代码。调度系统与任务解耦,提高了系统可用性和稳定性,同时调度系统性能不再受限于任务模块;支持可视化、简单且动态的管理调度信息,包括任务新建,更新,删除,GLUE开发和任务报警等,所有上述操作都会实时生效,同时支持监控调度结果以及执行日志,支持执行器Failover。
负责接收调度请求并执行任务逻辑。任务模块专注于任务的执行等操作,开发和维护更加简单和高效;接收“调度中心”的执行请求、终止请求和日志请求等。
XXL开源社区已经发布一系列开源软件产品,涉及分布式、基础中间件、效率工具等多个领域。
包含项目有:任务调度、配置中心、注册中心、消息队列、RPC通讯、API管理、SSO、爬虫、Excel工具、代码生成……等等。