什么是AIOps
资讯科技运作人工智能(AIOPS)包括使用人工智能和机器学习技术以及大数据、数据集成和自动化技术,以帮助使IT操作更加智能和更具预测性。AIOps用机器驱动的决策来补充手动操作.
AIOPS解决方案的类型
在高层次上,AIOps解决方案分为两个领域:以领域为中心的解决方案和与领域无关的解决方案,正如Gartner所定义的那样。以域为中心的解决方案将AIOp应用于某个领域,如网络监视、日志监视、应用程序监视或日志收集。你经常会看到监控供应商声称AIOps,但它们主要是与域无关的,将AI的力量带到了他们管理的领域。领域无关的解决方案操作范围更广,跨域、监视、日志记录、云、基础设施等,它们从所有域/工具获取数据,并从这些数据中学习以更准确地建立模式和推断。
数据质量和完整性
AIOps的成功取决于您提供给解决方案的数据的质量和完整性,数据越完整,它就越能从模式中学习并提供推论。如果您有IT性能可见性差距,建议首先使用现代监视或可观察的解决方案来填补这些空白,如盒子里的云-法布里克斯可观测性.
数据富集
AIOps解决方案还必须了解应用程序服务和资产是如何相互关联的,以便当警报或事件出现时,工具可以考虑到这些关系,以便更准确地驱动相关性或根源推断。大多数实现都依赖于手动或外部数据将这些数据提供给AIOps,这将成为更大的负担,并且随着时间的推移实现和维护变得昂贵。
一些现代的AIOps工具(如CloudFabrix)非常擅长于自己发现和建立它们的应用/服务上下文拓扑,它们也可以随意地与CMDB或IT资产管理系统(ITAM),将这些工具用于种子上下文或自动定期数据输入。
十大通用AIOPS用例
可以用AIOp解决的一些常见用例或问题领域是:
- 根据异常或偏离正常行为来识别问题。
- 预测某一指标的价值,以防止停机或提高战备状态。
- 根据症状或文本描述对警报、事件或日志进行分组或群集。
- 基于拓扑或警报属性的相关警报分组。
- 基于多个传感器或遥测数据导出应用程序或服务器健康。
- 识别相关的时间序列指标或症状,以更快的根源推断。
- 发现类似的事件,以加速事件的解决。
- 命名实体识别,丰富事件,加快事件处理速度。
- 基于事件属性的事件分配组预测。
- 使用自然语言处理的事件分类也可以使用外部服务,如OpenAI/GPT-3.
AIOPS目标和主要利益
AIOps的最终目标是支持IT转换、智能和预测操作。利用AIOPS工具,IT组织可以获得统一的事件智能,减少IT数据中的噪音和消除辛劳,减少IT票务量,更快地解决IT问题,在客户受到影响之前预测/防止停机,实现根源分析自动化,加速事件或问题解决,提高IT生产力,降低TCO。