深度剖析分布式监控CAT

- - 美团点评技术团队

CAT系统原型和理念来源于eBay的CAL的系统，CAT系统第一代设计者吴其敏在eBay工作长达十几年，对CAL系统有深刻的理解. CAT不仅增强了CAL系统核心模型，还添加了更丰富的报表. 自2014年开源以来，CAT在携程、陆金所、猎聘网、找钢网等多家互联网公司生产环境应用，开源地址 http://github.com/dianping/cat.

1 环境安装配置. 1.1 依赖软件下载. Ganglia是伯克利开发的一个集群监控软件. 可以监视和显示集群中的节点的各种状态信息，比如如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，同时可以将历史数据以曲线方式通过php页面呈现. 而ganglia又依赖于一个web服务器用来显示集群状态，用rrdtool来存储数据和生成曲线图，需要xml解析因此需要expat，配置文件解析需要libconfuse.

分布式系统调用链监控

- - IT瘾-geek

应用架构由集中式向分布式演进后，整个调用关系变得复杂. 分布式架构由复杂且较大规模集群构成，各个应用之间相当独立，可能由不同团队、不同语言实现. 系统一个完整的调用过程可能横跨多个服务及数据中心. 复杂的调用导致系统出问题后难以定位问题. 无法准确知道整体系统性能及运行情况. 一个请求完整的调用链可能如下图，经过多个系统服务，调用关系复杂.

两万字深度介绍分布式系统原理

- -

在具体的工程项目中，一个节点往往是一个操作系统上的进程. 在本文的模型中，认为节点是一个完整的、不可分的整体，如果某个程序进程实际上由若干相对独立部分构成，则在模型中可以将一个进程划分为多个节点. 机器宕机：机器宕机是最常见的异常之一. 在大型集群中每日宕机发生的概率为千分之一左右，在实践中，一台宕机的机器恢复的时间通常认为是24 小时，一般需要人工介入重启机器.

深度解析 Raft 分布式一致性协议

- - 掘金后端本月最热

注：本文原创，转载请先通过公众号或掘金联系作者申请. 定期发送干货，实践经验、系统总结、源码解读、技术原理. 笔者期望通过一篇权威靠谱、清晰易懂的系统性文章，帮助读者深入理解 Raft 算法，并能付诸于工程实践中，同时解读不易理解或容易误解的关键点. 本文是 Raft 实战系列理论内容的整合篇，我们结合 Raft 论文讲解 Raft 算法思路，并遵循 Raft 的模块化思想对难理解及容易误解的内容抽丝剥茧.

分布式系统部署、监控与进程管理的几重境界

- Allen - 博客园-首页原创精华区

陈硕 (giantchen_AT_gmail). 陈硕关于分布式系统的系列文章：http://blog.csdn.net/Solstice/category/802325.aspx. 本作品采用“Creative Commons 署名-非商业性使用-禁止演绎 3.0 Unported 许可协议(cc by-nc-nd)”进行许可.

雅虎BigML团队开源大数据分布式深度学习框架TensorFlowOnSpark

- - IT瘾-tuicool

雅虎 Big ML 团队今日宣布开源 TensorFlowOnSpark，用于在大数据集群上进行分布式深度学习. 下面是该团队官方发布的开源说明. 近几年，深度学习发展的非常迅速. 在雅虎，我们发现，为了从海量数据中获得洞察力，需要部署分布式深度学习. 现有的深度学习框架常常要求为深度学习单独设定集群，迫使我们要为一个机器学习流程（见下图 1）创建多个程序.

微博广告 Hubble 系统：秒级大规模分布式智能监控平台架构实践

- - IT瘾-dev

关键词：微博广告 Hubble 监控平台 D+ 大数据机器学习 LSTM Tensorflow. Hubble（哈勃，其含义是数据如浩瀚宇宙之大，Hubble 如太空望远镜，能窥见璀璨的星辰，发现数据的真正价值）平台定位为微博广告智能全景监控、数据透视和商业洞察. 计算广告系统是集智能流量分发、投放、结算、CTR 预估、客户关系管理等为一体的大型互联网业务系统.

ZooKeeper监控

- - 淘宝网通用产品团队博客

在公司内部，有不少应用已经强依赖zookeeper，比如meta和精卫系统，zookeeper的工作状态直接影响它们的正常工作. 目前开源世界中暂没有一个比较成熟的zk-monitor,公司内部的各个zookeeper运行也都是无监控，无报表状态. 目前zookeeper-monitor能做哪些事情，讲到这个，首先来看看哪些因素对zookeeper正常工作比较大的影响：.

深度剖析分布式监控CAT

CAT介绍

背景介绍

整体设计

客户端设计

设计架构

API设计

序列化和通信

客户端埋点

遇到的问题

服务端设计

架构设计

实时分析

报表建模

性能分析报表

故障发现报表

存储设计

消息ID的设计

存储数据的设计

服务端设计总结

总结感悟

相关 [深度分布监控] 推荐：