公有云运维福利:开源监控小工具 Open-Falcon 插件 cloud-mon

标签: dev | 发表时间:2019-04-04 00:00 | 作者:
出处:http://itindex.net/relian


本文介绍了一款基于Open-Falcon的公有云运维监控工具及使用说明。

上篇文章回顾: 使用python实现简单的共享锁和排他锁


背景

当你成为公有云的一名管理员,权限和安全之间的权衡便成为了始终萦绕在我们身边的一个话题。每天在我们专心解决问题,或者code的时候,一会儿有人来找你:能不能帮我们看看××× 机器所在的NAT网关带宽多大呀?目前使用量是什么情况呀?一会儿有人问:我们在做业务升级,帮我们关注下LB的流量情况呀?我们现在S3的增长趋势是什么样子的呀?

方案调研

崩溃一秒钟,这种没有“含金量”的事情,怎么能浪费我们的时间呢?毕竟程序员的使命是要拯救地球的,再不济也得做一个优秀的产品。可是,问题来了。机器的监控好做,可以装Agent、Zabbix、Open-Falcon等。这些东西怎么监控呢?而且公有云有很多:什么AWS、Azure 、阿里云、金山云等,自己重新开发一个监控系统么?

额,这个工作量有点大。干活当然得选最简单,高效,又合理的方案啦,哈哈。

小米内部都是用Open-Falcon做监控。Open-Falcon的GitHub地址:

https://github.com/open-falcon

Open-Falcon是基于Go开发的一款快速上手、高可用的监控系统,支持自定义Dashboard报警,可以用来监控机器各方面指标,还可以自定义插件,上报数据,获取自己想要的信息。

Open-Falcon是小米早期的开源工具,星星多,社区活跃,还支持插件。恩,显示、存储、画图表、保持数据有序,都交给TA了。方案已定,写个Open-Falcon插件。

架构设计

说了这么久,先上架构图:

需要支持的云:

(1)AWS

(2)阿里云

(3)金山云

监控的资源范围:

(1)ELB

(2)EIP

(3)NAT网关

(4)专线

每个资源都取哪些监控指标呢?当然全部取啦!控制台有啥就取啥。

具体指标信息和含义请自行参照官网:

金山云:

https://docs.ksyun.com/documents/42

阿里云:

https://help.aliyun.com/product/28572.html?spm=a2c4g.750001.list.212.49707b13EZbdDR

AWS:

https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html

代码思路:

  • 通过读取配置文件,获取资源类型、监控指标、地区信息和账号信息;

  • 获取相应资源的所有列表;

  • 获取列表的相关监控信息;

  • 生成Open-Falcon识别的格式数据,推送到Open-Falcon。

使用指北

该工具已经作为Open-Falcon的插件开源,开源地址:

https://github.com/open-falcon/cloud-mon

具体实现代码以及参考文档可以去github查看。

首先把代码clone下来,按照你们的实际情况配置文件,就可以使用啦。

配置文件实例:

cloud下面是一个list,可以写的很长很长,想配什么配什么。下面是各项参数说明:

至此,小工具分享完啦,希望帮助大家提高效率。


这么好用的工具,在看一下呗~

相关 [运维 福利 开源] 推荐:

公有云运维福利:开源监控小工具 Open-Falcon 插件 cloud-mon

- - IT瘾-dev
本文介绍了一款基于Open-Falcon的公有云运维监控工具及使用说明. 上篇文章回顾: 使用python实现简单的共享锁和排他锁. 背景 当你成为公有云的一名管理员,权限和安全之间的权衡便成为了始终萦绕在我们身边的一个话题. 每天在我们专心解决问题,或者code的时候,一会儿有人来找你:能不能帮我们看看××× 机器所在的NAT网关带宽多大呀.

Linux运维领域的开源工具体系汇总

- - 运维派
dd, fio(IOPS测试),iozone(磁盘测试). rpm,yum(设计rpm包定制及yum仓库构建). 原文出处:http://oldboy.blog.51cto.com/2561410/775056/.

[开源软件] 首个智能运维项目开源!腾讯织云 Metis,用算法替代人为指定规则

- - V2EX
10 月 20 日,腾讯织云 Metis 智能运维学件平台在 OSCAR 开源先锋日上宣布,正式对外开源. Metis 是 AIOps ( Algorithmic IT Operations ),即智能运维领域的首个开源产品. 智能运维主张通过算法从海量运维数据中学习摸索规则,逐步降低对人指定规则的依赖,进而减少人为失误.

福利来了

- - Starming星光社最新更新
今天很多朋友在微博和群里晒这个:. 这里很有意思,如果按照“想当然”的心理:人们一看自己在支付宝上花了这么多钱,难道不会变得更小心,以后就更少来支付宝了吗. 用户的心理是很微妙的,支付宝推出这个功能,满足了用户“晒”的心里需求,也许还带点小炫耀和攀比. 同时页面风格幽默温馨,大打感情牌. 用户转发的越多,引起的话题性越明显.

Java应用运维

- - BlueDavy之技术blog
对于互联网产品或长期运行的产品而言,运维工作非常重要,尤其是在产品复杂了以后,在这篇blog中就来说下Java应用的运维工作(ps:虽然看起来各种语言做的系统的运维工作都差不多,但细节上还是会有很多不同,so本文还是只讲Java的). 苦逼的码农按照需求开发好了一个全新的Java Web应用,该发布上线给用户用了,要把一个Java Web应用发布上线,首先需要搭建运行的环境,运行的环境需要有JDK、APPServer,在已经装好了os的机器上装上JDK和APPServer,开发好的Java Web应用可以用maven直接打成war或ear,将这个打好的包scp或其他方式到目标机器上,准备妥当,就差启动了.

ZooKeeper运维经验

- - Juven Xu
ZooKeeper 是分布式环境下非常重要的一个中间件,可以完成动态配置推送、分布式 Leader 选举、分布式锁等功能. 在运维 AliExpress ZooKeeper 服务的一年多来,积累如下经验:. 3台起,如果是虚拟机,必须分散在不同的宿主机上,以实现容灾的目的. 如果长远来看(如2-3年)需求会持续增长,可以直接部署5台.

hadoop运维笔记1

- - 企业架构 - ITeye博客
hadoop使用中的几个小细节(二). 1 某次正常运行mapreduce实例时,抛出错误. 经查明,问题原因是linux机器打开了过多的文件导致. 用命令ulimit -n可以发现linux默认的文件打开数目为1024,修改/ect/security/limit.conf,增加hadoop soft 65535.

运维工具体系

- - SegmentFault 最新的文章
发布变更流程管理工具:做为系统接口与其他角色的工作衔接. 并提供审批环节控制发布变更的风险. 流程管理工具并不负责具体的业务操作的执行,只是作为单据系统跟踪流程和确保闭环. 告警和突发管理工具:体现业务受损的告警自动建单管理. 通过建单管理告警和突发确保流程的闭环,以及每次故障都能够总结出经验,并未度量业务的可用性提供KPI.

周末gif福利08.27

- Leo - 热豆腐
欢迎光临热豆腐的小店,每月图片合集只要1块钱. 猛击查看原文:http://www.redoufu.com/2011/08/27/weekly-gifs-2/. 热豆腐Copyright © 2009-2010 每天的视觉盛宴. 严重期待趣图爱好者加入热豆腐交流群: 120026949 ,欢迎来搞,分享欢乐.

周末gif福利08.28

- Leo - 热豆腐
欢迎光临热豆腐的小店,每月图片合集只要1块钱. 猛击查看原文:http://www.redoufu.com/2011/08/28/weekly-gifs-3/. 热豆腐Copyright © 2009-2010 每天的视觉盛宴. 严重期待趣图爱好者加入热豆腐交流群: 120026949 ,欢迎来搞,分享欢乐.