Elastic-Job - 分布式定时任务框架

- - 企业架构 - ITeye博客

摘要: Elastic-Job是ddframe中dd-job的作业模块中分离出来的分布式弹性作业框架. 去掉了和dd-job中的监控和ddframe接入规范部分. 该项目基于成熟的开源产品Quartz和Zookeeper及其客户端Curator进行二次开发. ddframe其他模块也有可独立开源的部分，之前当当曾开源过dd-soa的基石模块DubboX.

GitHub - ihaolin/antares: 分布式任务调度平台(Distributed Job Schedule Platform)

- -

分布式任务调度平台(Distributed Job Schedule Platform). 基于Quartz的分布式调度. 一个任务仅会被服务器集群中的某个节点调度，调度机制基于成熟的 Quartz，antares内部会重写执行逻辑；. 用户可通过对任务预分片，有效提升任务执行效率；. 客户端实效转移：当某个客户端实例在执行任务中宕机时，其正在执行的分片将重新由其他客户端实例执行；.

kettle执行job

- - 互联网 - ITeye博客

ETL高级教程kettle. 1，Kettle跨平台使用. 例如：在AIX下（AIX是IBM商用UNIX操作系统，此处在LINUX/UNIX同样适用），运行Kettle的相关步骤如下：. 1）进入到Kettle部署的路径. 2）执行 chmod *.sh，将所有shell文件添加可执行权限.

如何正确设置job的interval？

- - ITeye博客

首先，先了解interval的定义. 即在job开始执行时根据date function估算job下次执行的时间（NEXT_DATE）. 通常，我们采用两种方式来设置job的interval：. 由date function估算出的时间是固定的. 由date function估算出的时间是非固定的.

提高hadoop的mapreduce job效率

- - 数据库 - ITeye博客

hadoop 的mapreduce 的作业在运行过程中常常碰到一些这样的情况：. 每一个map或者reduce只有30-40秒钟就结束. 超大规模的job 时，通常会需要大量的map和reduce的slots 支持，但是job运行起来后，running的map和reduce并没有沾满集群的可用slots.

主流全文索引工具的比较（ Lucene, Sphinx, solr, elastic search)

- - 企业架构 - ITeye博客

前几天的调研（ Rails3下的 full text search (全文本搜索，全文匹配. ）），我发现了两个不错的候选： . lucene (solr, elasticsearch 都是基于它） . 把看到的有价值的文章记录在这里： . 回答1. Result relevance ranking is the default.

如何在 Elasticsearch 中查找并移除重复文档 | Elastic Blog

- -

将数据导入 Elasticsearch 的很多系统都将利用. Elasticsearch 为新插入的文档自动生成 ID 值. 但是，如果数据源将同一文档多次意外发送到 Elasticsearch，并且对于 Elasticsearch 插入的每个文档都使用了这种自动生成的. _id值，那么这个文档就会使用不同的.

ES事务日志的持久化变更 | Elasticsearch: 权威指南 | Elastic

- -

translog 也被用来提供实时 CRUD. 当你试着通过ID查询、更新、删除一个文档，它会在尝试从相应的段中检索之前，首先检查 translog 任何最近的变更. 这意味着它总是能够实时地获取到文档的最新版本. 如果没有用 fsync 把数据从文件系统缓存刷（flush）到硬盘，我们不能保证数据在断电甚至是程序正常退出之后依然存在.

Hive中跑MapReduce Job出现OOM问题分析及解决

- - CSDN博客云计算推荐文章

今天在跑一段很复杂而且涉及数据量10多年的N个表join的长SQL时，发生了OOM的异常. 由于一个map通常配置只有64MB或者128MB，则在Map阶段出现OOM的情况很少见. 所以一般发生在reduce阶段. 但是今天这个异常详细的看后，会发现既不是map阶段，也不是reduce阶段，发现不是执行过程，而是driver提交job阶段就OOM了.

ETL工具Pentaho Kettle的transformation和job集成

- - CSDN博客推荐文章

Kettle是一款国外开源的etl工具，纯java编写，数据抽取高效稳定（数据迁移工具）. Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制. 2.1. transformation实现解析.

Elastic-Job - 分布式定时任务框架

Elastic-Job主要功能

目录结构说明

引入maven依赖

代码开发

作业配置

使用限制

实现原理

运维平台

相关 [elastic job 分布] 推荐：