在数字化转型中挖掘AIOps的应用潜力
近日,OpsRamp公布了一项对全美200位IT经理进行的AIOps经验调查,数据显示,87%的受访者认为AIOps工具正在以数据驱动协作流程的优化。研究机构Gartner则预测,到2023年AIOps服务的使用将从2018年的5%增长到30%。
虽然AIOps可以帮助企业提升IT运营管理效率,但在部署AIOps解决方案之前,如果对AIOps技术没有清晰的认识,对业务与AIOps的结合点把握不准的话,在前期实施和后期运营过程中难免会遇到挫折。
一
什么是AIOps?
AIOps平台在运营过程中,从各种IT运营工具中收集数据,以便在提供历史分析的同时自动发现问题。通过大数据分析和机器学习,把孤立的工单、事件等IT数据汇总在一起。
BMC Software的运营总监Seth Paskin认为,IT专业人员对AIOps的期望通常可以归类为自动化和预测。他们对AIOps最初的期望是以人工智能代替人工操作,从而提高执行速度。例如:将客户资料信息与财务处理应用程序和基础结构数据相关联,以识别交易持续时间异常值并突出显示性能影响因素;评估服务单中的非结构化数据,以自动识别待办任务;对工作负载进行分类,以优化基础架构的位置;将流程中的事件,变更过的数据,以及工作日志等,与应用开发活动相关联,以衡量基础架构和应用变更对生产的影响。
AIOps平台可以自动在基础架构和应用程序域之间收集数据,从而在日志、性能警报、故障单,以及其他项目中查找数据。在这个过程中,AI可以自动识别基础设备、正在运行的应用程序和业务交易,并将其与上下游数据进行关联。
通过将应用程序流映射到基础架构、业务交易及引用程序中,确定网络层中诸如物理和虚拟连接之类的元素之间的关系,从而实现自动化运营。
AIOps基于映射的自动运营还有另一个优势,可以跟踪混合基础架构实体之间的关系。AIOps平台可以跨技术领域和环境创建服务和应用程序拓扑图,从而使IT团队可以加快事件响应速度,并量化程序中止对业务的影响。
AIOps采用监督学习、无监督学习以及基于预期行为和阈值的异常检测,来训练系统识别IT运营的各种状态,并预测服务中断等问题。
对于AIOps来说无监督学习尤其重要,它可以使AIOps平台学习识别预期行为并跨数据和性能指标设置阈值。该平台可以实时分析事件模式,并将其与预期行为进行比较,并通过一系列事件(或一组事件)模拟,向IT团队预报即将发生的系统异常。
AIOps平台的分析结果,可以转化为自动执行的一系列智能操作,从加快服务台请求,到端到端的供应网络,再到计算、云和应用程序的部署。总之,AIOps将来自IT运营管理和IT服务管理的数据汇集在一起,使安全团队能够比以往更有效地观察,参与和处理问题。
二
AIOps的主要担忧
数据准确性:与人类相比,当下的机器学习准确度尚有待提高。
技能差距:团队在学习如何使用新工具方面面临困难,尤其是随着机器学习的发展。
错误/控制失误:移交控制权和采用自治系统可能会引起问题和担忧。
漫长的实施周期:在整个企业中采用新的解决方案或工具,可能会花费很长时间,并且会中断工作流程。大多数(40%)的受访者表示,实施AIOps解决方案需要3-6个月的时间。25%的人表示需要超过6个月的时间。
消除工作:借助工作自动化,可以进行部门重组和失业。
并非每个AIOps部署都能按计划顺利进行。从数据质量到IT团队执行力,再到员工对新工具的接受度,以及控制权限由人向AI自动控制移交过程中的流程问题。
由于AIOps平台完全赖于机器学习,因此在实施过程中的数据科学问题,可能会直接影响AIOps的实施。直接访问高质量数据,由此训练机器学习对系统来说并不容易。根据Rackspace Technology的最新调查显示,34%对受访者曾因为数据质量差直接导致机器学习等研发失败,31%等人认为他们缺乏可用于生产的数据。
除了数据挑战之外,技能差距也给实施AIOps造成了困难。Juniper在2021年公布的调研结果表明,大多数受访者的企业或组织正在努力开展员工与AI系统的集成。
在另一方面,AI人才短缺也正在限制着AIOps在企业中的发展,O’Reilly的2021 AI应用报告指出,19%的企业认为缺少专业技术人员和照片困难时AI落地的主要障碍。
此外,大量企业高管对AI不切实际额的期望,也是机器学习项目落地失败的主要原因之一。
三
AIOps的优势
AIOps的成功落地对很多企业来说并非易事,但实施过程中的挑战与落地后带来的效率提升相比还是能够值回票价的。
AIOps系统减少了警报「洪流」在IT团队中泛滥的次数,并随着时间的推移,更加精准地向团队发送真实的警报,从而减少冗余。AIOps可用于处理例行任务,例如:备份、服务器重启和低风险的维护活动。且可以在事件发生之前进行预测,例如网络带宽何时达到极限。
正如埃森哲在最近的白皮书「AIOps如何帮助IT成为更好的商业伙伴」中解释的那样,AIOps最终将提高IT组织的能力,使其成为业务有效的合作伙伴。埃森哲认为,具有内置AIOps功能的IT运营平台可以帮助IT运营主动识别其为企业提供的服务和技术的潜在问题,并在问题出现之前进行纠正。这就是拥有服务、应用程序管理,并将其与系统和程序无缝共享的单一数据模型的价值。