《存储故障处理流程的演变及不同阶段问题分析.docx》由会员分享,可在线阅读,更多相关《存储故障处理流程的演变及不同阶段问题分析.docx(6页珍藏版)》请在第壹文秘上搜索。
1、存储作为存放金Mi企业数据中心各类生产数据的重要载体,其日常的安全平稳运行至关也要.特别是应对若干存储的大成告警,如何从大破告警中提取关键告警消息并及时处理异常,可谓对存储平台的稔定运行起到保驾护航的作用.存储告警处理作为常规工作,一方面需要在技术层面上及时发现告警并处理,另一方面还要在制度层面符合ITI1.流程管理的规定.存储告警中硬盘及电池的告警相对较多,此类告警出现时通常需要更换备件解决,且更换操作均属于标准流程.因此,存储硬件类告警的日常处理,如果兼顾流程、实际情况能纳入自动化管理,对于工作效率的提升将十分明显.下面分别介绍“传统、目前、未来三个阶段在发现存储故障、提交厂商信息报修、同
2、步111.流程三个方面的具体情况,旨在帮助读者更好地了解在自动化推进中各阶段亟需解决的问题.一、传统存储故障处理流程1 .发现存储故隆机房值班人员通过每天定期现场巡检,借助存储物理亮灯可以发现异常情况并告知存储运维人员进行处理.由于人工巡检频率较低,发现异常相对比较滞后,目存在漏检可能.为了能及时发现存储设备存在的告警,早期通过在各存储管理平台配首SNMPTraP,将告警信息由运行监控中心发送给存储运维人员.这类告警即时性相当高,有效辅助运维人员在第一时间发现设备异常,但告警消息数目较多且缺乏过流及压缩,也给运维人员的日常工作带来了一定的困扰.2 .提交厂商日志确认并安排维修SNMPTraP类
3、告警消息因缺少设备序列号、机柜位臂、部件位首、部件规格等明确信息,无法直接转发给厂商工程师进行设备报修,一般需要单独收集相关日志发送给厂商进一步分析,或者需要运维人员通过命令行或GUI等工具反馈具体信息给厂商.设备报修要求出具相关部件的准确信息,而基于一定规则定制的告警消息无疑将使报修流程化繁为简,在日常运维中将节省大量的时间.3 .纳入ITI1.流程存储硬件更换在制度上纳入I1.流程变更菅理,通常需要由存储运维人员在Fn1.爸理平台申请事件工单和变更工单.运维人员梳理设备告警情况,并跟厂商确认好部件更换工作,先在ITl1.管理平台中提出事件工单,然后关联此事件工单创建变更工单.事件工单经服务
4、台确认后需要运维人员反馈事件原因和解决方案.变更工单经变更经理审核后需运维人员制定方案,并依次经变更经理、室经理、分管负责人审批后方能实施.变更实施完成后,运维人员还需要在事件工单和变史工单中说明变更时间和实施情况,如图1所示。ITl1.管理平台传统阶段存储故障处理流程示意图二、目前存储故障处理流程1 .发现存储故瘴引入硬件监控平台,按照一定的时段轮询获取各品牌型号存储的告警信息.此类告警蛟Trap而言即时性相对较差,但采用了一定的规则过滤出等级较高的信息进行推送.告警消息少而精,便于定制,能更好地满足运维人员的日常管理要求.例如,针对市复的告警,可以采用压缩算法,通常可以4小时报一次,直到问
5、题解决。针对info,warning等较低级别的告警可以实现过混,而只给运维人员推送error和CritiCal等较高级别的告警.2 .提交厂商关槌信息并派件维修借助硬件监控平台的广泛使用,设备告警消息通过运行监控中心按一定规则拼接后可以发送给运维人员。对于绝大多数情况,运维人员无需再登陆系统进行二次确认,宜接可将告警消息转发给厂商人员即可安排派件维修.3 .纳入ITI1.流程同传统阶段,运维人员仍需在日常工作中消耗一定的时间和精力来申谙事件及变更工单井跟进流转.如图2所示.ITI1.管理平台发起事件及变更工单、提交变更方案、反t三实施情通知流转工单况等2Il前阶段存储故障处理流程示意图三、未
6、来存储故障处理流程前两个阶段在变更实施和ITI1.流程管理上,两条线相对独立尚未进行融合,这与自动化运维管理仍有一定的差距.为进一步优化日常存储告警的处理工作,未来应着力于在111.流程中实现工单中模板化的东西由系统推送,并根据监控平台推送的饮豆告警来自动反馈工单的解决方案和实施情况等信息.1 .发现存储故圈和判断故障恢豆目前硬件监控平台只能抓取设备的异常告警,对于故障惨豆后未能生成恢豆类告鳖,需要人工参与判断是否完成故障修算.若监控平台对于特定设备能及时判断故障是否修豆井生成恢巨告警,则有益于推进ITl1.流程的自动化管理,圾大减少人工参与环节。2 .福交厂商关健信息并派件堆修此部分尽可能针
7、对不同品牌型号的存储及不同部件,进一步细化告警信息,从而实现告警消息转发后的正常派件维修即可.3 .111.流程自动化审批硬件监控平台将收集到的异常告警及时推送至智能平台.智能平台加工整合收集到的异甫告警,识别出常见的坏件告警(例如硬盘、电池告警),并基于选定的时间范围,按照既定的模板向ITl1.管理平台提交事件工单和变更工单申请.变更工单经变更经理审核确认后,由智能平台提供模扳完成方案制定环节的提交.ITI1.管理平台在事件工单经服务台审批后发送给智能平台处理,并将变更工单实施环节发送至智能平台迸行处理.后续由硬件监控平台捕捉设备告警是否修豆,如正常完成修宜,向智能平台及时推送恢复告警消息.智能平台最终基于恢夏告簪消息,向11I1.管理平台反馈实施情况从而关闭相关工单.显然,智能平台承担了运维人员ITI1.流程管理相关的工作,其对监控告警的识别和整合发挥着不可替代的作用.如图3所示.图3未来阶段存储故除处理流程示怠图综上所述,为了提升存储告警处理的自动化运维管理水平,方面而要在告警消息的精准推送上下功夫,在硬件监控平台新增恢狂告警,减少告警定位和设备报修中带来的时间人力开销:另一方面还需要打造智能平台,促进硬件监控平台和ITl1.管理平台自然衔接,从而替代运维人员做好流程管理的跟进及反馈等工作.