[开源软件] 首个智能运维项目开源!腾讯织云 Metis,用算法替代人为指定规则

标签: 开源软件 智能 运维 | 发表时间:2018-10-20 20:32 | 作者:tencentopen123
出处:https://www.v2ex.com/

10 月 20 日,腾讯织云 Metis 智能运维学件平台在 OSCAR 开源先锋日上宣布,正式对外开源。Metis 是 AIOps ( Algorithmic IT Operations ),即智能运维领域的首个开源产品。智能运维主张通过算法从海量运维数据中学习摸索规则,逐步降低对人指定规则的依赖,进而减少人为失误。

OSCAR 开源先锋日由中国信息通信研究院主办,中国信通院云大所所长何宝宏,中国信通院云大所云计算部副主任栗蔚,腾讯云副总裁赵建春,腾讯云运营部总经理肖世广共同参与 Metis 开源发布仪式。

腾讯云副总裁赵建春表示:“人工智能与运维的结合有了 AIOps 的新概念,如何在智能运维领域寻求到新的突破,从传统 API 转向运维学件,将腾讯海量数量训练出来的模型贡献开源社区和业内,我想这就是织云 Metis 智能运维学件开源的意义,和大家共建 AI 运维场景,让人工智能和运维紧密结合。”

在“腾讯织云 Metis 智能运维学件平台”这一命名中,“学件”的概念由南京大学周志华教授提出。学件 = 模型 + 规约,具有可重用、可演进、可了解的特性。在此基础上,腾讯云副总裁赵建春先生进一步提出“运维学件”的概念,亦称 AI 运维组件,强调其具备对运维场景智能化解决方案的记忆能力。

“织云”指的是腾讯智能一体化运维平台,而“ Metis ”取名自希腊神话中的智慧女神墨提斯。随着互联网业务的急剧膨胀和服务类型的多样化发展,人为指定规则的不足之处逐渐凸显,促使近两年来智能运维领域的高速发展。织云 Metis 是聚焦在智能运维的应用实践集合,旨在通过一系列基于机器学习的算法,对运维数据进行分析、决策,从而实现自动化运维的更高阶段。

由于社交类业务种类丰富、规模庞大的特点,腾讯搭建了充足的 IT 基础设施,为实现多维度、深层次地运维公司各类业务在发展交互过程中产生的海量运维数据,Metis 应运而生。

如今,Metis 在运维质量、效率、成本三个方面都落地了众多智能运维实践,逐步构建出成熟的智能化运维场景,具体表现为质量保障、效率提升、成本管理、智能检测、通用模型和规则学习 6 个方面。

质量保障: 利用机器学习技术,进行异常检测、故障定位、瓶颈分析等,可在无人工干预下,智能地保障业务稳定运行。如无阈值智能监控、DLP 生死指标监控、多维根因分析。

效率提升:基于自然语言处理、机器学习技术,进行智能问答、智能变更、智能决策,可显著提升运维效率。如 Metis 的智能咨询机器人、舆情监控、集群智能负载均衡、数据库参数调优、容量预测。

成本管理:基于大数据智能分析技术,进行资源(设备、带宽、存储)管理,可迅速分析资源使用的明细,并通过横向大数据对比识别可优化点。如硬盘生命周期预测。本次 Metis 率先开源的无阈值智能监控学件,是从无监督+有监督学习的角度来解决时序数据的智能检测问题。

智能检测:运维人员不需要再去设置监控阈值,模型能够对异常情况做智能判决,直观告知检测结果是正常还是异常。通常而言,阈值的监控包含最值、同比、环比等维度设置,此检测方案在检测初期效果较好,但是随着业务发展和规模壮大,就会需要付出较高的人力成本去维护合适的阈值范围,对于大规模发展性业务得不偿失。智能检测的方案是基于统计判决、无监督和有监督学习对时序数据进行联合检测,通过统计判决、无监督算法进行首层判决,输出疑似异常,其次进行有监督模型判决,得到最终检测结果。这个过程就摒弃了阈值方式带来的问题。

通用模型:智能检测的模型由腾讯织云多元化的海量业务样本训练而成,比较适合复用在互联网行业的时间序列检测中。有监督的检测效果取决于标注样本的准确性和种类丰富性,通过样本库管理功能积累了大量的正负样本、分为测试集和训练集,通用模型是经过海量训练集的样本数据训练而来,涵盖较全面的样本分类。可以帮助一些用户避免掉缺乏训练数据所带来的难点,用户可直接加载通用模型进行检测。

规则学习:实践过程中也会遇到较个性的业务场景,千人千面,不同的用户对异常的判断标准也不尽一致,因此支持标注反馈功能,用户可根据标注信息进行训练,生成新的检测模型,进而掌握新的业务规则。

Metis 无阈值智能监控学件在腾讯内部已承载了超过 240 万个业务指标的异常检测,它经过海量监控数据的打磨,在异常检测和运维监控领域具有广泛的应用性,可取代传统的阈值检测方式,达到智能检测时序数据的异常,还能结合业务策略对异常数据进行告警推送。

秉承腾讯开源的理念,Metis 将打造一个开放的学件平台,陆续开源时间序列指标预测、主机异常智能分析、MySQL 异常智能分析、硬盘生命周期预测等其它智能运维学件,集合广大用户在智能运维领域的建设经验和实践,丰富完善针对质量、效率、成本三个方面的 AI 学件,搭建完备的运维场景,并将在未来兼容其它监控领域的开源产品,如 Zabbix、Nagios、Open-Falcon 等。

近年来,腾讯在开源社区越发活跃,自 2010 年起,腾讯对内采取“开放、共享、合力开发”的研发模式;对外实现自主开源,并积极参与社区工作,相继加入 Hyperledger、LF Networking 和开放网络基金会,成为 LF 深度学习基金会首要创始成员及 Linux 基金会白金会员。本次 Metis 开源,于腾讯,是其开放战略在技术领域的又一实践;于行业,则将填补智能运维领域的开源空白,并汇聚众力,促进运维技术的突破与发展。

相关 [开源软件 智能 运维] 推荐:

[开源软件] 首个智能运维项目开源!腾讯织云 Metis,用算法替代人为指定规则

- - V2EX
10 月 20 日,腾讯织云 Metis 智能运维学件平台在 OSCAR 开源先锋日上宣布,正式对外开源. Metis 是 AIOps ( Algorithmic IT Operations ),即智能运维领域的首个开源产品. 智能运维主张通过算法从海量运维数据中学习摸索规则,逐步降低对人指定规则的依赖,进而减少人为失误.

盛大开源软件

- - kernelchina
盛大研究院在其网站 http://www.sndacode.com/projects开源了不少应用. 很多都是上层应用相关,我感兴趣的有如下几个:. 在手机上看code的人估计是个傻帽,但是在PAD上面还可能是一件爽快的事情. 作为google reader的中毒使用者,这个功能还是很有价值的,是盛大电子书的亮点.

数据库智能运维探索与实践

- - SegmentFault 最新的文章
从自动化到智能化运维过渡时,美团DBA团队进行了哪些思考、探索与实践. 本文根据赵应钢在“第九届中国数据库技术大会”上的演讲内容整理而成,部分内容有更新. 近些年,传统的数据库运维方式已经越来越难于满足业务方对数据库的稳定性、可用性、灵活性的要求. 随着数据库规模急速扩大,各种NewSQL系统上线使用,运维逐渐跟不上业务发展,各种矛盾暴露的更加明显.

狗日的开源软件许可证

- Michael - 酷壳 - CoolShell.cn
你知道这个世上有多少种开源软件的许可证吗. GNU上有个网页,上面记录了几乎所有的开源软件的许可证,真TMD的多,有开源的,有商用的,有软件的,有文档的,多得你都不想看了,天杀的,程序员们还真能鼓捣啊. 不过,主流的也就几种——GPL、BSD、MIT、Mozilla、Apache等等. 这里有一张比较复杂的图,在调侃这些纷繁的许可证(我不翻译了,这个图属于是发泄不满).

开源软件中的彩蛋们

- 加州旅客 - Wow! Ubuntu
嘿嘿,卖个关子.用DEB系的Linux同学自己看下吧. 还有aptitude help的超级牛力(Super Power),参考最后一行. 来看看apt-get能搞出来什马东西. Gentoo党:emerge moo. 来自:The Hitchhiker's Guide to the Galaxy.

2010年最佳开源软件

- 钊炜 - Solidot
InfoWorld公布了2010年的最佳开源软件名单,名单分为几大类别: 最佳企业开源应用程序:企业资源管理软件Openbravo ERP,SugarCRM,Pentaho BI Suite,Alfresco,Drupal,WordPress,LogicalDoc,Tiki Wiki CMS Groupware,Apache Solr.

开源软件发展史【信息图】

- bingo - 36氪
互联网倡导开放、平等、协作和分享的精神. 开源软件(英语:Open source software,英文缩写:OSS)是一种源代码可以任意获取的计算机软件,这种软件的版权持有人在软件协议的规定之下保留一部分权利并允许用户学习、修改、增进提高这款软件的质量. 开放源代码的定义由Bruce Perens(Debian的创始人之一)于1997年提出.

Android UI 组件开源软件

- - 移动开发 - ITeye博客
其实也算不上合集,只是将我经常用到的部分整理一下,如果您有好东西,也可以留言补充,. 可以参照应用Libraries for developers,ios的参照Libraries for developers Pro. https://github.com/JakeWharton/ActionBarSherlock (推荐).

开源软件正在吞食世界

- - Solidot
过去五年,开源软件公司得到投资十倍于五年前. 大大小小的公司正以创纪录的数量使用开源软件. Future of Open Source的调查发现,78%被调查者的公司内部运行开源软件,64%的人称他们的公司参与开源项目. 出现这种局面的原因是每一家公司都承受着巨大的压力,被要求更好更快更廉价的构建软件,于是处于开发核心的程序员将开源软件带到了公司.

这个金融级异常根因定位,智能运维界都直呼内行!

- -
作者介绍 孟庆江、田忠毅,中金财富证券股份有限公司信息技术部,本文选自《交易技术前沿》总第四十期文章(2020年9月). 证券行业是对连续性、稳定性要求最高的行业之一,客户交易体验永远是券商关注的话题. 当交易系统出现异常时,快速定位异常根因并实施恢复可减少异常对客户体验造成的影响. 但传统的根因定位方案目前存在一些困难:.