[开源软件] 首个智能运维项目开源!腾讯织云 Metis,用算法替代人为指定规则
10 月 20 日,腾讯织云 Metis 智能运维学件平台在 OSCAR 开源先锋日上宣布,正式对外开源。Metis 是 AIOps ( Algorithmic IT Operations ),即智能运维领域的首个开源产品。智能运维主张通过算法从海量运维数据中学习摸索规则,逐步降低对人指定规则的依赖,进而减少人为失误。
OSCAR 开源先锋日由中国信息通信研究院主办,中国信通院云大所所长何宝宏,中国信通院云大所云计算部副主任栗蔚,腾讯云副总裁赵建春,腾讯云运营部总经理肖世广共同参与 Metis 开源发布仪式。
腾讯云副总裁赵建春表示:“人工智能与运维的结合有了 AIOps 的新概念,如何在智能运维领域寻求到新的突破,从传统 API 转向运维学件,将腾讯海量数量训练出来的模型贡献开源社区和业内,我想这就是织云 Metis 智能运维学件开源的意义,和大家共建 AI 运维场景,让人工智能和运维紧密结合。”
在“腾讯织云 Metis 智能运维学件平台”这一命名中,“学件”的概念由南京大学周志华教授提出。学件 = 模型 + 规约,具有可重用、可演进、可了解的特性。在此基础上,腾讯云副总裁赵建春先生进一步提出“运维学件”的概念,亦称 AI 运维组件,强调其具备对运维场景智能化解决方案的记忆能力。
“织云”指的是腾讯智能一体化运维平台,而“ Metis ”取名自希腊神话中的智慧女神墨提斯。随着互联网业务的急剧膨胀和服务类型的多样化发展,人为指定规则的不足之处逐渐凸显,促使近两年来智能运维领域的高速发展。织云 Metis 是聚焦在智能运维的应用实践集合,旨在通过一系列基于机器学习的算法,对运维数据进行分析、决策,从而实现自动化运维的更高阶段。
由于社交类业务种类丰富、规模庞大的特点,腾讯搭建了充足的 IT 基础设施,为实现多维度、深层次地运维公司各类业务在发展交互过程中产生的海量运维数据,Metis 应运而生。
如今,Metis 在运维质量、效率、成本三个方面都落地了众多智能运维实践,逐步构建出成熟的智能化运维场景,具体表现为质量保障、效率提升、成本管理、智能检测、通用模型和规则学习 6 个方面。
质量保障: 利用机器学习技术,进行异常检测、故障定位、瓶颈分析等,可在无人工干预下,智能地保障业务稳定运行。如无阈值智能监控、DLP 生死指标监控、多维根因分析。
效率提升:基于自然语言处理、机器学习技术,进行智能问答、智能变更、智能决策,可显著提升运维效率。如 Metis 的智能咨询机器人、舆情监控、集群智能负载均衡、数据库参数调优、容量预测。
成本管理:基于大数据智能分析技术,进行资源(设备、带宽、存储)管理,可迅速分析资源使用的明细,并通过横向大数据对比识别可优化点。如硬盘生命周期预测。本次 Metis 率先开源的无阈值智能监控学件,是从无监督+有监督学习的角度来解决时序数据的智能检测问题。
智能检测:运维人员不需要再去设置监控阈值,模型能够对异常情况做智能判决,直观告知检测结果是正常还是异常。通常而言,阈值的监控包含最值、同比、环比等维度设置,此检测方案在检测初期效果较好,但是随着业务发展和规模壮大,就会需要付出较高的人力成本去维护合适的阈值范围,对于大规模发展性业务得不偿失。智能检测的方案是基于统计判决、无监督和有监督学习对时序数据进行联合检测,通过统计判决、无监督算法进行首层判决,输出疑似异常,其次进行有监督模型判决,得到最终检测结果。这个过程就摒弃了阈值方式带来的问题。
通用模型:智能检测的模型由腾讯织云多元化的海量业务样本训练而成,比较适合复用在互联网行业的时间序列检测中。有监督的检测效果取决于标注样本的准确性和种类丰富性,通过样本库管理功能积累了大量的正负样本、分为测试集和训练集,通用模型是经过海量训练集的样本数据训练而来,涵盖较全面的样本分类。可以帮助一些用户避免掉缺乏训练数据所带来的难点,用户可直接加载通用模型进行检测。
规则学习:实践过程中也会遇到较个性的业务场景,千人千面,不同的用户对异常的判断标准也不尽一致,因此支持标注反馈功能,用户可根据标注信息进行训练,生成新的检测模型,进而掌握新的业务规则。
Metis 无阈值智能监控学件在腾讯内部已承载了超过 240 万个业务指标的异常检测,它经过海量监控数据的打磨,在异常检测和运维监控领域具有广泛的应用性,可取代传统的阈值检测方式,达到智能检测时序数据的异常,还能结合业务策略对异常数据进行告警推送。
秉承腾讯开源的理念,Metis 将打造一个开放的学件平台,陆续开源时间序列指标预测、主机异常智能分析、MySQL 异常智能分析、硬盘生命周期预测等其它智能运维学件,集合广大用户在智能运维领域的建设经验和实践,丰富完善针对质量、效率、成本三个方面的 AI 学件,搭建完备的运维场景,并将在未来兼容其它监控领域的开源产品,如 Zabbix、Nagios、Open-Falcon 等。
近年来,腾讯在开源社区越发活跃,自 2010 年起,腾讯对内采取“开放、共享、合力开发”的研发模式;对外实现自主开源,并积极参与社区工作,相继加入 Hyperledger、LF Networking 和开放网络基金会,成为 LF 深度学习基金会首要创始成员及 Linux 基金会白金会员。本次 Metis 开源,于腾讯,是其开放战略在技术领域的又一实践;于行业,则将填补智能运维领域的开源空白,并汇聚众力,促进运维技术的突破与发展。