未来监控系统发展方向:互操作架构

标签: 未来 监控 系统 | 发表时间:2012-10-31 16:25 | 作者:
出处:http://pipes.yahoo.com/pipes/pipe.info?_id=10560380f804c7341f042a2b8a03e117

来自Github的Jason Dixon在罗马召开的 DevOps Days上,发表了关于“ 当前及未来监控系统发展”的演讲。他认为,未来监控系统应当由可替换组件构成,每个组件应当只专注于一种功能。

按照Jason的设想,这样的系统架构有以下特点:

  • 模块组合 (明确定义各组件功能、接口以及协议)
  • 富有弹性 (监控系统在架构层面能够应对中断的发生)
  • 完全自助 (不需要运维人员的干预,用户可以自助进行操作)
  • 自动化 (提供自动化功能)
  • 智能关联 (自动建立服务间的关联关系)
  • 界面友好(用户乐于使用这个系统)

这样一套系统中,各组件通讯方式如下图所示:

  • 传感模块:由无状态代理组成,负责收集指标数据,并以日志流格式通过 HTTP、 JSON或直连的方式上传。
  • 汇聚模块:负责进行数据转换、处理、汇总,或者进行指标数据的中转。
  • 状态引擎:负责跟踪事件流的变化,能够自动根据相关信息分析问题根源并进行预测。
  • 存储引擎:支持对数据进行转换和聚合,并能够接近实时的性能进行查询或以JSON、XML或SVG等标准格式输出。
  • 计划任务模块:提供计划任务的管理接口对任务进行管理,并提供扩展接口。
  • 通知模块:负责根据状态引擎提供的数据发送报警消息,并对状态进行跟踪以用于其他目的。
  • 可视化模块:通过仪表板以及其他的用户接口用于展示各种指标和警报信息。

Jason 强调,为实现细粒度指标的收集,必须进行数据收集规划和必要的架构调整。这样就使得系统通过对历史数据的分析来预测未来变化趋势以及阈值违例成为可能。

InfoQ谈到Jason最近在这个领域的项目,他介绍到:

在可视化方面,我在一些如 TasseoDescartes等这样的工具上进行研究,以提升在中断时运维人员的响应能力。最近,我们实现了对各类指标进行实时的关联分析功能,我认为这是相当重要的。但是,我们发现引起中断的问题往往是由连锁故障造成,导致他们无法在一张图像上展示出来。

另外,我所看好的 Graphite项目,但是它缺少对指标命名空间的访问控制。我计划在Backstop这个项目中加入令牌访问验证。这样监控系统的管理员可以授权特定程序或开发人员访问指定的指标命名空间。

本演讲以及其它在罗马 DevOps Days上发表的演讲,请在 这里观看。

查看英文原文The Future of Monitoring: an Interoperable Architecture


感谢 崔康对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至 [email protected]。也欢迎大家通过新浪微博( @InfoQ)或者腾讯微博( @InfoQ)关注我们,并与我们的编辑和其他读者朋友交流。

您可能也会喜欢

相关 [未来 监控 系统] 推荐:

未来监控系统发展方向:互操作架构

- - InfoQ cn
来自Github的Jason Dixon在罗马召开的 DevOps Days上,发表了关于“ 当前及未来监控系统发展”的演讲. 他认为,未来监控系统应当由可替换组件构成,每个组件应当只专注于一种功能. 按照Jason的设想,这样的系统架构有以下特点:. 模块组合 (明确定义各组件功能、接口以及协议).

Linux系统监控

- - CSDN博客系统运维推荐文章
查看所有的进程和端口使用情况:. 查看nginx并发(连接数)进程数:. 查看当网络连接状态中,已建立连接的数量:. 查看系统tcp连接中各个状态的连接数. 输出每个ip的连接数,以及总的各个状态的连接数. df -hl 查看磁盘使用情况 . df -hl 查看磁盘剩余空间. df -h 查看每个根路径的分区大小.

开源监控系统 Shinken

- Le - 开源中国社区最新软件
Shinken是一款类似于Nagios的开源监控工具,由scratch重新设计和重写. 它的主要目的是迎合当前系统监控的需要同时具备Nagios一样的能力.

常用的linux系统监控命令

- Mountain - agapple
记录一下自己常用的linux系统命令,方便以后查阅,发觉记忆越来越不行了. 找到最耗CPU的java线程. 命令:ps -mp pid -o THREAD,tid,time   或者  ps -Lfp pid. 这个命令的作用,主要是可以获取到对应一个进程下的线程的一些信息. 比如你想分析一下一个java进程的一些运行瓶颈点,可以通过该命令找到所有当前Thread的占用CPU的时间,也就是这里的最后一列.

ZoneMinder 1.25 发布,视频监控系统

- 迎客松 - LinuxEden开源社区-Linux伊甸园
ZoneMinder的作者是因為家中的車庫被竊,因而產生設計監控保全的念頭. ZoneMinder使用了Linux Server,PHP,MySQL加上幾支攝影機,就可以使用web介面監控重要場所. 當異常事件發生時,你就可以收到e-mail或簡訊通知. 阅读全文 | 邮件推荐 | 评论回复.

搭建完美的监控系统

- - DCCMX
对于任何一个互联网公司来说,监控系统都是不可或缺的. 监控系统的完善程度,直接影响到系统的稳定程度,性能等各个方面. 关于监控系统的搭建,网上已经有了很多方案,在规划公司的监控体系的时候,我也参考了很多解决方案. 比较常见的有:nagios,cacti,icinga,zabbix,ganglia,还有收费的监控服务有如newrelic等.

前端性能监控系统ShowSlow

- - CSDN博客Web前端推荐文章
作者:zhanhailiang 日期:2014-11-14. ShowSlow是开源的前端性能监控系统,提供了以下功能:. 前端性能指标数据收集功能:ShowSlow原生提供了数据收集工具. DOM Monster!,但也支持通过YSlow,PageSpeed等第三方工具将性能数据上报给服务端完成收集(其服务器端提供了针对多达8种不同工具上报的数据收集器dommonster,dynatrace,events,har,metric,pagespeed,webpagetest,yslow);.

Linux系统和性能监控

- - zzm
CPU性能表现如何一般从三个方面来衡量:运行队列、利用率和上下文切换. 正如前文所提及的,性能表现的好坏和基线数据(或预期)是密不可分的. 对大部分系统而言,一些基本的性能预期如下:. 运行队列——每个处理器运行队列中不应该超过1-3个线程. 例如,一个双核的系统中,运行队列长度不应该超过6. (译注:即一个系统的load average值不应该大于核数的4倍.

Nagios 监控系统架设全攻略

- - IBM developerWorks 中国 : 文档库
Nagios 全名为(Nagios Ain’t Goona Insist on Saintood),最初项目名字是 NetSaint. 它是一款免费的开源 IT 基础设施监控系统,其功能强大,灵活性强,能有效监控 Windows 、Linux、VMware 和 Unix 主机状态,交换机、路由器等网络设置等.

Ganglia:分布式监控系统

- - CSDN博客移动开发推荐文章
1         环境安装配置. 1.1      依赖软件下载. Ganglia是伯克利开发的一个集群监控软件. 可以监视和显示集群中的节点的各种状态信息,比如如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,同时可以将历史数据以曲线方式通过php页面呈现. 而ganglia又依赖于一个web服务器用来显示集群状态,用rrdtool来存储数据和生成曲线图,需要xml解析因此需要expat,配置文件解析需要libconfuse.