storm集群部署和配置过程详解

标签: storm 集群 | 发表时间:2014-12-06 00:36 | 作者:suifeng3051
出处:http://blog.csdn.net

  先整体介绍一下搭建storm集群的步骤:
  1. 设置zookeeper集群
  2. 安装依赖到所有nimbus和worker节点
  3. 下载并解压storm发布版本到所有nimbus和worker节点
  4. 配置storm.yaml
  5. 启动相关后台进程

1 首先配置zookeeper集群

     我们知道storm通过zookeeper来协调整个集群。zookeeper不是用来做消息传递,因此storm不会给zookeeper带来很大的压力。单节点的zookeeper在大多情形下是可以胜任的,但是如果你想得到更好的可靠性或者部署大集群的话,你可能就需要一个大的zookeeper集群。关于zookeeper的部署在这里就不多做介绍,具体请参考: here
     关于zookeeper的部署这里再补充两点:
  1. 把zookeeper运行在一个监督进程之下是非常关键的,因为zookeeper是一个fail-fast的进程,当它遇到任何错误的时候都会自动退出,具体请参考:   here
  2. 定时的去压缩和转移zookeeper数据也是非常关键的,因为zookeeper不具备压缩和清楚数据机制,如果我们不设置一个cron管理这些数据,zookeeper产生的数据会很快的占满磁盘,具体请参考:  here
     ps:如果zookeeper启动失败,查看一下它bin目录下的zookeeper.out文件,配置一下它的myid试试。

2 安装依赖到nimbus和worker节点

    storm需要依赖的是:
  1. Java 6
  2. Python 2.6.6     
     需要注意,storm对大多数版本的依赖都做了测试,但是storm并不保证对任何版本的依赖都能正常工作。

3 下载解压storm发布版本到nimbus和worker节点

     下一步就是下载解压storm压缩文件到每一台机器,storm发布版本可以从这里下载 from here

4 配置storm.yaml文件

     storm里面有一个文件conf/storm.yaml,它就是storm的配置文件。关于这个文件的所有默认值可以从这里得到 here。storm.yaml中的配置会覆盖掉default.yaml中的配置。下面配置一个集群必须修改的配置:

     1) storm.zookeeper.servers:配置zookeeper集群的列表
 storm.zookeeper.servers:
       - "111.222.333.444"
       - "555.666.777.888"
     如果你的zookeeper集群使用的端口不是默认端口,那么你还得配置storm.zookeeper.port。
     2) storm.local.dir :storm的nimbus和work进程需要一个目录来存放一小部分状态数据,比如jars、confs等等。我们需要在每台机器上创建这个目录并且赋予其相应的权限。
 storm.local.dir: "/mnt/storm"
     3) nimbus.host:worker节点需要知道哪个机器是master节点,以便自己从maser节点下载jars和confs。
 nimbus.host: "111.222.333.44"
     4) supervisor.slots.ports:对于每一台worker机器,它决定了这台机器一共可以运行多少个worker进程。每个worker进程会独占一个端口来接收消息,这个参数就是配置了哪些端口会分配给worker进程。如果你在这配置了5个端口,那么storm将能分配5个worker进程给这台机器,如果配置3个端口,那么storm也只能分配3个worker进程。storm默认分配4个worker进程到6700,6701,6702,6703端口。比如:
 supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
    - 6703

5 通过storm命令运行storm相关的守护进程

     最后一步就是启动所有storm相关守护进程。当然,把这些进程都纳入到监督进程管理之下是很有必要的。storm也是一个fail-fast系统,这就意味着这些进程一但遇到异常就会终止。storm之所以会这么设计,是为了它可以在任何时候安全的终止和在进程重启的时候恢复。这就是storm为不在进程中保存相关状态的原因,如果nimbus或supervisor节点重启,运行着的topoloies不会受到任何影响。下面就是启动storm相关进程的命令:
  1. Nimbus:在master节点运行“bin/storm nimbus”
  2. Supervisor:在每一台worker节点运行“bin/storm supervisor”,supervisor进程负责在worker节点上启动和停止相应的worker进程
  3. UI:运行“bin/storm ui” ,一个通过页面管理和展示storm集群运行状态的工具,可以通过“http://nimbus host:8080”来访问。     
    我们可以看到启动storm服务进程相当简单直接,storm产生的log会保存在各台机器的storm/logs目录中,storm通过logback管理它的日志,我们可以通过修改其logback.xml文件来改变其log的目录及内容。




作者:suifeng3051 发表于2014-12-5 16:36:10 原文链接
阅读:113 评论:0 查看评论

相关 [storm 集群] 推荐:

storm集群部署和配置过程详解

- - CSDN博客云计算推荐文章
  先整体介绍一下搭建storm集群的步骤:. 安装依赖到所有nimbus和worker节点. 下载并解压storm发布版本到所有nimbus和worker节点. 配置storm.yaml. 1 首先配置zookeeper集群.      我们知道storm通过zookeeper来协调整个集群. zookeeper不是用来做消息传递,因此storm不会给zookeeper带来很大的压力.

实时收集Storm日志到ELK集群

- - 编程语言 - ITeye博客
我们的storm实时流计算项目已经上线几个月了,由于各种原因迟迟没有进行监控,每次出现问题都要登录好几台机器,然后使用sed,shell,awk,vi等各种命令来查询原因,效率非常低下,而且有些统计是没法做的,所以很有必要对storm本身相关的日志以及我们运行在storm上面的任务的日志做一个统一的日志收集,分析,查询,统计平台.

storm简介

- - 搜索技术博客-淘宝
伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高. 举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了.

Storm Trident 学习

- - 小火箭
Storm支持的三种语义:. 至少一次语义的Topology写法. 参考资料: Storm消息的可靠性保障 Storm提供了Acker的机制来保证数据至少被处理一次,是由编程人员决定是否使用这一特性,要使用这一特性需要:. 在Spout emit时添加一个MsgID,那么ack和fail方法将会被调用当Tuple被正确地处理了或发生了错误.

Storm实战之WordCount

- - 编程语言 - ITeye博客
 在全面介绍Storm之前,我们先通过一个简单的Demo让大家整体感受一下什么是Storm. 本地模式(Local Mode): 即Topology(相当于一个任务,后续会详细讲解)  运行在本地机器的单一JVM上,这个模式主要用来开发、调试. 远程模式(Remote Mode):在这个模式,我们把我们的Topology提交到集群,在这个模式中,Storm的所有组件都是线程安全的,因为它们都会运行在不同的Jvm或物理机器上,这个模式就是正式的生产模式.

storm常见问题解答

- - BlogJava-庄周梦蝶
    最近有朋友给我邮件问一些storm的问题,集中解答在这里. 一、我有一个数据文件,或者我有一个系统里面有数据,怎么导入storm做计算. 你需要实现一个Spout,Spout负责将数据emit到storm系统里,交给bolts计算. 怎么实现spout可以参考官方的kestrel spout实现:.

Storm 实时性分析

- - CSDN博客架构设计推荐文章
都说Storm是一个实时流处理系统,但Storm的实时性体现在什么方面呢. 首先有一个前提:这里的实时性和我们通常所说的实时系统(芯片+汇编或C编写的实时处理软件)的实时性肯定是没法比的,也不是同一个概念. 这里的实时性应该是一个相对的实时性(相对于Hadoop之类 ). 总结一下,Storm的实时性可能主要体现在:.

那些storm的坑坑

- - 开源软件 - ITeye博客
转载请声明出处:http://blackwing.iteye.com/blog/2147633. 在使用storm的过程中,感觉它还是不如hadoop那么成熟. 当然,它的流式处理能力挺让人眼前一亮,以前做的个性化推荐都是离线计算,现在总算把实时部分也加上了. 总结一下storm使用的些心得:. 1.尽量把大量数据处理行为分拆成多个处理component.

storm准实时应用

- - CSDN博客推荐文章
1 应用背景: 需要实时统计用户的登陆数,在线人数,活跃时间,下载等指标的数据,或者清洗后移到hdfs上.         1) 客户端产生数据---.         2) kafka-生产者实时采集数据(保留7天)-----.         3) storm实时消费数据,处理数据.         4)把实时数据统计结果缓存到memcached 中.

Storm核心概念剖析

- - 互联网 - ITeye博客
最近团队中有分析的场景,用到了JStorm来做数据的实时分析,于是花时间对于一些概念做了了解. 这个的话出来应该有几年时间了,阿里巴巴也重写了一套JStorm,核心的类名都是服用的Storm的,他是一套实时数据处理系统,容错行好,然后足够稳定,目前很多数据实时分析的场景,选择Storm的越来越多了.