鼎茂一致智能告警渠道处理计划,旨在帮企业客户为运维作业供给易操作、快显效、智能化的告警办理提效东西。
该处理计划经过对全域告警事情的一致纳管、归纳办理、排障剖析与处置流通,一站式处理多源、异构、海量告警所带来的办理难、排查难、盯梢难等告警办理问题,完结运维效能的明显晋级。
现在,该处理计划已使用在金融、电信、政府医疗等职业的大、中型规划的客户与组织中,为企业继续供给重要的运维办理价值。
本文的客户故事为该处理计划在某外资银行客户中的实践事例,合适同类规划和阶段组织团队学习。
跟着该行中心事务体系晋级和各类事务的广泛开展,其事务体系数量规划已达到200多套,软硬件设备近万台,每天发生数万条告警数据。但该行现在针对事务体系的涣散运维办理导致了监控数据和告警信息的碎片化;面向问题告诉处置的独立运营,也使得问题辨认和呼应变得困难,一起也添加了毛病处理的技能本钱和时刻本钱。为了更好地保护体系的稳定性和可靠性,并实在有用地进行运维办理的降本增效,该行对多体系告警办理提出了愈加清晰的要求。
该行现在面向各体系及中心事务的告警来自:各体系的自监控、拨测、Opmanager网络监控、科来监控、Zabbix、ControlM、依米康、斯特纽、ESB、Moia、分布式存储、日志渠道、听云等许多类型的监控东西,数量80+;一起合作ITSM、CMDB、主动化渠道等。
现有的办理模式下,上述的方法每天大约发生的告警数量有几万条,且格局标准均不一致。
运维人需求登录到逐一体系进行检查,并凭仗过往针对相似告警的处置经历进行选择性处理。这会导致隐藏在海量告警之中的重要告警被运维人员疏忽,构成危险。
各事务体系的告警信息和告诉方法未打通,缺少大局化一致的办理视图,难以针对毛病进行全体性的评价判别和毛病溯源。
当某事务体系出现异常时,使用办理员通常是在用户遇到毛病并陈述后才得知。经过排查,他们发现这一事情在使用前期阶段就有过错日志记载。但是,因为缺少相关剖析和有用的告警方法,导致使用办理员并未意识到这一问题的存在。
在事务体系出现异常时,仅凭个人经历进行处置,并依靠人工创建工单,导致毛病处理的用时过长,添加事务受影响的周期。
大都监控东西缺少告警康复功用。新增告警难以承认是不是现已康复,导致重复处理或遗失处理,添加重大事情的概率。
鉴于以上的各种应战,客户期望可以建造可掩盖全域告警办理的一致智能告警渠道,并完结以下需求:
整合各事务的自监控,经过标准标准完结面向全域告警数据的标准办理以及一致办理。
使用机器学习和算法技能进行告警紧缩、告警会聚与智能剖析,使体系办理员与保护人员的作业更聚集于问题与毛病的发现与溯源。
将一切中心事务的各项重要方针与告警,进行有体系、有逻辑的一致展现,完结办理的便利性和高效性。
添加告警康复逻辑,构成完好的告警呼应机制;并盯梢告警的处理进程,构成完好的告警办理闭环。
该建造计划根据鼎茂一致智能告警处理计划,依照每个客户事务规划和监控方针的特色,进行功用优化和布置。以鼎茂科技自研的ARCANA(多模态数据智能剖析与决议计划渠道)作为一致数据底座,集成各事务体系监控东西发生的告警。该计划经过ARCANA的ARC-ADP(鼎茂低代码数据开发渠道组件)进行数据标准处理后,推送给Di-Alert(鼎茂智能告警中心使用),并在ARC-IOC(鼎茂数智运营中心组件)中完结告警智能剖析、处置流通和一致可视化办理等功用,构成一致的智能告警办理渠道,并为客户供给一致的办理门户。
建造一致的智能告警办理渠道,整合各事务监控体系的告警数据,并针对告警数据来进行清洗、去重、转化等一致预处理,完结告警标准的标准化,确保告警数据的准确性和完好性。
经过匹配、转化、映射、提取等操作,进步告警信息的可读性和一致分层分级办理。并联动CMDB进行告警信息富化,动态匹配并添加相关事务信息。
引进智能算法完结告警数据的主动剖析和处理。支撑依照多字段组合+时刻窗口的方法,将相关告警进行组合紧缩;支撑快速的、以架构分层方式对告警进行聚类。
树立一致监控大屏,经过ARC-IOC(鼎茂数智运营中心组件)中丰厚的图表类型和低代码装备功用,完结自定义仪表盘及可视化才能,将一切中心事务的各项重要方针与告警树立办理逻辑并进行一致展现。
结合银职事务的告警康复逻辑,树立告警全流程运营和盯梢机制,完结闭环性告警全生命周期办理。
该项目完结了一致告警办理渠道的建造,完结了40+(二期扩容中)监控东西的整合。并经过渠道树立的告警标准标准,完结了包含中心体系在内的各类事务体系告警数据的一致标准办理。全体渠道建造以智能化运营为方针,供给了在数据办理、剖析决议计划和办理操控方面的归纳才能,全面支撑该行数据中心的数字化建造与智能化晋级。
该项目树立了告警数据接入、处理、存储与发送的数据处置标准,进步了告警数据的质量。一起,渠道完结了告警与各类主动化渠道的联动,可将告警主动推送到ITSM、钉钉和邮件等体系,完结告警与事情处置的流程闭环。
一起,该项目经过数智运营中心的办理门户和可视化功用,结合ECC面向告警的运维办理逻辑,会集展现告警数据,经过实时监控大屏、报表剖析等可视化手法,协助ECC更直观地了解体系的状况和问题,完结告警的一致处理以及毛病的快速排查。
告警数据接入后即完结开始的告警去重和归类处理,并且在告警整合会聚后,对现已归类的告警信息进行进一步的紧缩处理,完结超越90%的告警紧缩率,使办理员与保护人员的注意力更聚集于进步事情处理功率。
针对金融职业的特色,以事务为驱动,贯穿告警的发生、告诉、处理和康复,树立完好的告警康复和办理逻辑。确保一致智能告警渠道可以实在反映事务体系的状况,为事务体系的正常运转供给及时、准确的监控和康复手法。
经过一致智能告警渠道的建造和以及告警机制的完善,完结了40+监控东西告警数据的归纳办理和相关剖析,节约监控东西的改造费用超200万。
完结全域告警内容的标准化处理;联动CMDB准确匹配告警特点信息,全体进步告警数据的质量和准确性。
一致去除无效告警并进行智能剖析降噪,完结超越90%的告警紧缩率。一起支撑根据CMDB财物相关信息进行主动聚类,确保重要告警不遗失。
主动与告诉东西(邮件、钉钉)和ITSM进行信息和工单联动,完结快速预警和告警事情的处置盯梢。
完结根据事务视角的告警大局监督和拓扑剖析,快速确定毛病事务,并支撑毛病协同处理,进步运维处理功率。
完结异构告警数据的一致接入、交融、字段解析。并可输出至指定数据库,构成一致、会集且可对外供给数据服务才能的数据财物库。