《数据中心老旧设备风险评估模型研究与实践.docx》由会员分享,可在线阅读,更多相关《数据中心老旧设备风险评估模型研究与实践.docx(7页珍藏版)》请在第壹文秘上搜索。
1、近年来,随着数字化转型的逐步深入,数据中心成为数字化、网络化、智能化等重点产业技术及其应用的重要载体。同时,在国家层面也大力支持数据中心实现高质量发展,四部委联合印发全国一体化大数据中心协同创新体系算力枢纽实施方案,要求加强绿色数据中心建设,强化节能降耗,加快推动老旧基础设施转型升级。然而,对于传统大型数据中心而言,由于云化程度不足、基础设施与应用系统耦合度高等原因,每年均会产生大量的到龄老旧设备,不仅降低了数据中心的能效水平,也给应用系统稳定运行带来了安全隐患。在此背景下,如何高效利用有限资源,实现企业数字化转型与解决老旧设备安全隐患,己成为大型数据中心急需解决的难题。对此,本文结合农业银行
2、老旧设备特点提出了风险评估模型,并针对不同的设备风险级别提出了应对策略。一、老旧设备风险评估模型概述整体而言,老旧设备风险评估模型(以下简称“评估模型”)基于历史数据分析,旨在直观反映风险因素与老旧设备下线之间的相互关系,并选取与老旧设备下线密切相关的风险指标,覆盖了承载业务、超龄时间、运维保障、服务风险等四大维度。1 .承载业务维度设备上承载的业务系统或设备发生故障时可能影响的业务系统既是开展设备风险评估的基线,也是判断老旧设备是否需要下线的重要依据。对此,评估模型结合系统用户规模、口均交易量、口均交易金额等参数,将业务系统划分为核心业务系统、重要业务系统和一般业务系统。其中,核心业务系统是
3、企业赖以生存和发展的根本,一旦发生故障会直接影响全部或多个主营业务的正常运营;重要业务系统主要指承担企业主营业务的系统或管理系统,如金融机构中的实时交易类系统、时点交易类系统、辅助交易类系统等;一般业务系统指企业除核心业务系统和重要业务系统外的其他业务系统,如企业资源计划系统(ERP)、客户关系管理系统(CRM)、办公自动化系统(OA)等。评估模型中业务承载维度量化取值设置为A,其量化标准详见表1。表1业务承载量化标准业务系统A量化取值I核心业务系统I重要业务系统一般业务系统142j1i值得注意的是,如果某一设备同时承载或影响多个业务系统,应取信息系统中最高的系统级别;如果重要程度最高者同时存
4、在两个及以上的,可以适当上调一级;而对于新建系统或者未定级系统,则应参照同类系统进行定级取值。此外,当企业经营范围、战略重心发生调整时,系统分级也有可能会发生改变,且随着企业经营策略、重心的不同,同一个业务系统在不同企业中的等级划分也可能不同。因此,企业应定期或在出现重大业务调整时及时进行业务系统重新定级。2 .超龄时间维度超龄时间主要指设备超过安全生产年限的时长,其中安全生产年限是依据设备类型、使用特性、设计工艺等因素确定的设备合理使用寿命。按设备类型的安全生产年限详见表2。一般而言,设备超龄时间越长,发生故障的可能性越大,关联业务系统受影响的风险也越大。超龄时间的具体计算方式如下:超龄时间
5、(T)=考核周期年底时间(TD-设备开始使用时间(T2)-安全生产年限(T3)表2按设备类型的安全生产年限设备名称类别说明I安全生产年限i(年)计算设备1.PC服务器、小型机等6!J存储设备iSAN、NAS等I6!J网络设备i:,路由器、交换机、防火墙等I工.i6安全设备IDSIPS等7三4I应用交付类设备!负载均衡等7I为优化超龄时间量化取值,评估模型以年为单位计算超龄时间,设置超龄时间参数为B,B为T向上取整加L其量化标准详见表3。表3超龄时间量化标准超龄时间(T)B量化取值:超龄(T0)Ceiling(T)+1未超龄(TWO)13 .运维保障维度运维保障维度包括设备购买的维保服务、运维人
6、员的技术能力等,主要指当设备发生故障时可以提供的运维支持。本文所述模型按照企业购买的维保情况以及自身运维能力,将运维保障能力分为厂商维保、具备运维能力、无运维能力等三大类。其中,厂商维保指企业己经购买原厂或者第三方维保,当设备发生故障时,厂商可以及时提供设备/产品的替换或维修服务;具备运维能力指企业未购买维保服务或维保服务己过期,但企业自身有存量的备品、备件,且运维人员具备及时恢复业务的能力;无运维能力指企业未购买维保服务或维保服务己过期,同时企业也不具备相应的运维能力。模型中运维保障参数设置为C,其量化标准详见表4。表4运维保障量化标准I运维保障C量化取值I无运维能力4I具备运维能力I2I厂
7、商维保I14 .服务风险维度服务风险维度重点包含了使用风险和历史风险两个指标。其中,使用风险指依据业务部署架构、灾备方式等,当设备发生故障时可能触发的业务中断、数据丢失等风险,相对而言,不存在使用风险则是指设备发生故障后不会导致数据丢失、业务暂停,或能够满足业务RT0、RPo要求。模型中使用风险参数设置为D,其量化标准详见表5。表5使用风险量化标准使用风险jD量化取值:I存在使用风险5II不存在使用风险1I5历史风险主要指设备以往的故障情况,即曾发生过严重故障或触发生产事件的设备应优先考虑下线。模型中将历史风险参数设置为E,其中严重性故障是指设备发生过宕机等重大故障或因设备故障而触发过生产事件
8、;一般性故障指除严重性故障外的其他类型故障(如端口故障等),其量化标准详见表6。表6历史风险量化标准历史风险E量化取值严重性故障5一般性故障3i未发生过设备故障OI二、老旧设备风险定级及优化1.风险定级老旧设备基于承载业务、超龄时间、运维保障、服务风险的量化取值与设备的风险等级成正比。基于此,为反映设备突发故障、维保过期等情况对风险值的影响,本文尝试提出了老旧设备风险评估模型,风险值计算方法如下所示:R=AXBXCX(D+E)其中,R为老旧设备风险值,A为承载业务系统量化取值,B为超龄时间量化取值,C为运维保障量化取值,D为使用风险量化取值,E为历史风险量化取值。设备风险值与风险级别对照见表7
9、。表7设备风险值与风险级别对照风险级别风险取(ft!-(不含)风险取值上限(含)风险描述a208高等级业务:超酢时间长,或存在运谁能力缺失/服务风险:中等级业务:超龄时间长.且存在运维他力缺失/服务风险:低等线业务:同时存在树龄时间长、运雄能力缺失、使用风险、历史风险I中三个及以上问鹿中820高等银业务:已却舲但有可靠技术支持:中等级业务:超除时间短且无运推能力,或超龄时间长有可靠运维保障:低等级业务:同时存在超龄时间长、运傩能力缺失、使用风险、历史风险!中一个或两个问JS低08设普未超龄:低等级业务:超龄时间短且有可靠运擢保障2 .风险调整鉴于老旧设备与系统业务、架构部署、关联设备等均存在依
10、赖关系,因此老旧设备的下线优先级也需结合架构、系统等进行综合考虑。例如,当架构、系统、关联设备等有调整计划时,应将高耦合设备的风险级别调为最高,优先考虑将此类设备下线。同时,当高耦合设备的风险取值高于目标设备时,还应调整目标设备的风险值,使其与高耦合设备保持一致。3 .老旧设备风险应对策略针对不同风险级别的老旧设备,笔者建议采取不同的应对措施,同时优先开展高风险级别老旧设备的下线工作,而同风险级别则优先考虑风险值较高的设备。例如,对于高风险级别的设备,责任方应在1个月内制定下线方案,在6个月内完成项目实施。对于中风险级别的设备,责任方应在1个月内制定设备下线方案,在1年内完成项目实施。对于低风
11、险级别的设备,责任方应结合设备承载系统、设备性能等进行设备鉴定,之后再决定是否需要下线。除此之外,老旧设备下线前,设备及系统责任方均应完善应急预案,保障系统稳定运行,且在无法按时制定实施计划或完成设备下线时应提高审批层级,最终在通过群体决策后,再暂缓该设备在本周期内的下线工作。三、结论与展望实际工作中,笔者提出的老旧设备风险评估模型己经在某金融数据中心开展了试运行。经模型测算,该数据中心大多数设备因承载的业务系统等级低、超龄时间较短(13年),评估结果为设备风险较低,可在责任方进行设备鉴定后再确定是否需要下线。总体而言,该模型投入应用后不仅可快速分析发现少量风险系数高、急需下线的设备,集中有限资源解决安全隐患,还有助于准确筛选出低风险设备继续投入使用,从而进一步提高资源利用率,降低设备投入成本。同时,本文提出的风险评估模型也充分考虑了高耦合设备现状,对关联设备进行整体考虑,从而有效保障了高耦合设备的一致性。展望未来,老旧设备风险评估模型依然存在较大的优化空间,如不同型号、类型、批次的设备在稳定性方面存在差别,同时设备长期运行的环境和设备性能也对老旧设备的继续使用产生影响,上述维度后续仍有待进一步改进完善。