AIOps，SRE工程师手中的利器

发表于：2021-03-08 作者：佚名来源：至顶网

基础设施与网络层面发生的问题，必须以闪电般的速度加以解决，在理想情况下，最好能让最终用户或客户完全感受不到问题的发生。而随着全球经济体系乃至社会结构的数字化转型，对事件管理能力的需求也变得愈发紧迫。

但是，尽管现代应用程序能够快速响应客户需求，但其自身的更新与修复又提出了新的速度要求，同样对基础设施可靠性形成巨大压力。一旦出现性能问题甚至数字服务中断，对现代应用程序造成的影响反而比传统应用更严重。

在管理基础设施可靠性方面，选择正确工具无疑是达成目标的重要前提。对于站点可靠性工程师(SRE)及其他员工而言，相当一部分云原生方法确实太过复杂、难以理解。因此，除了良好的可见性之外，他们还需要建立起判断问题优先级、迅速发现故障并加以解决的能力。

AIOps的意见也正在于此。随着软件与基础设施资产的迅猛拓展，AIOps能够自动检测到环境中的异常、为团队提供必要的安全性加持，保证在问题扩大化、复杂化之前及时将其解决。

值得注意的是，随着应用程序与基础设施的蓬勃发展，AIOps也开始成为一种极为重要的站点可靠性工程工具。它能够高效吸纳观察数据、参与数据以及来自第三方工具的数据，判断系统运行状态并保证其处于最佳状态。为了帮助团队识别并诊断问题，算法与机器学习工具随后会被整合至数据之内，借此充实关于现状的情报，甚至有望自动高效地完成事件响应。

着眼于现实场景，以下五种AIOps应用方法值得关注：

方法一检测事件

这也是AIOps扩展工具包的核心用例，帮助团队快速发现问题。AI与机器学习能够自动梳理异常迹象，而后将学习结果用于观察系统及基础设施的运行态势。凭借这种自动性方法，AIOps能够及时发现预警信号，帮助运营团队在客户体验受到影响之前就及时介入。

方法二减少及消除噪音

事件响应当中，警报疲劳一直是个大问题。警报的持续涌出往往令员工的神经变得麻木，难以发现真正紧急的状况。理想情况下，我们需要准确判断哪些警报优先级较低、哪些警报彼此关联。AIOps能够关联、精简警报并确定其优先级，借此消除警报疲劳问题、帮助团队高效处理对可靠性威胁最大的故障。

方法三结合背景

突发事件往往非常混乱，而且形势也瞬息万变。过多信息会导致团队迷失方向，为此必须为运营人员提供背景信息，帮助他们找到正确的方向。AIOps能够自动对事件做出映射，同时建立起全面了解。除了理解以外，背景信息在事件解决方面同样有着重要作用。

方法四提升智能化水平

AIOps是一种不断发展的有效工具。过往经验、当前使用方式以及用户反馈等，共同为AIOps提供良好的训练数据，进而帮助我们识别并预防以往曾经发生或较为类似的问题。随着信息的不断积累，模型智能化程度将持续提升，最终提供更具针对性的关联、洞见与建议。

方法五整合数据、统一团队

任何来源的事件数据，都会与企业的现有事件管理工具及工作流集成在一处。输入的数据越多，机器学习模型的训练度也就越高，产生有针对性、高实用度结果的几率就更高。AIOps解决方案能够吸纳数据，通过背景信息丰富数据内容，并将结果通报至相关团队或响应人员手中，以供各个事件管理团队加以使用。以此为基础，各团队将不必把时间浪费在不同工具的往来切换当中。

对于尚未开始使用AIOps的组织而言，这项工作听起来似乎繁复无比。没错，AIOps确有一定门槛，但目前已经有不少实践标准能够帮助我们较为轻松地跨过这些门槛。

首先，考虑最适合自身需求的用例。缩小思考范围，从小处入手开始学习，并在测试中不断成长。

其次，保证工作流程的透明化。人们天然会抵触变化，所以大家必须破除迷团、让AIOps呈现出清晰明确的形象。

最后，为囊括AI及ML元素的新型IT运营体系做好准备。如今，采用AIOps技术支持运营体系的组织越来越多，相信它也终将成为颠覆传统运营理念与运营思维的主流解决方案。

周排行
月排行

软件测试技术

软件测试工具

软件测试管理

软件开发专栏

AIOps，SRE工程师手中的利器

方法一检测事件

方法二减少及消除噪音

方法三结合背景

方法四提升智能化水平

方法五整合数据、统一团队

热门标签

软件测试技术

软件测试工具

软件测试管理

软件开发专栏

AIOps，SRE工程师手中的利器

方法一 检测事件

方法二 减少及消除噪音

方法三 结合背景

方法四 提升智能化水平

方法五 整合数据、统一团队

相关文章

热门标签

方法一检测事件

方法二减少及消除噪音

方法三结合背景

方法四提升智能化水平

方法五整合数据、统一团队