《解析云平台存储全方位监控建设.docx》由会员分享,可在线阅读,更多相关《解析云平台存储全方位监控建设.docx(8页珍藏版)》请在第壹文秘上搜索。
1、本文中所指的云监控为云平台(公有云或私有云)的性能监视与检测,它能为用户提供个针对云资海、云服务或者云产M的全方位监控平台.云监控本身也作为云平台对外的一种云服务,通过它可全面掌控云上的资源使用情况、业务的运行状况,能鲂及时掌控及处理云上出现的突发情况.保证业务连续性运行,同时降低企业IT运维成本.云平台存储是云平台基础设施的核心基咄资源,包括块、文件和对象等一系列存储产品,对用户提供数据存储服务。其架构亚朵性及技术难度较云下传统集中式存储有较大提升,因此,公上不同类别的存储产品的精细化监控也变得尤为重要.龙F此,木文将以三大知名公有或C/私有云平台存储产品监控体系为例进行分析,旨在帮助读者详
2、细了解云平台存储全方位监控的方向和监控指标体系建设的详细内容.一、云平台存储全方位监控建设方向云平台存储全方位监控建设方向应当包括至少以下四个方面:云平台存储基明底座监控、云平台存储产品监控、事件告警平台、多维度图表展示及报表,形成一个完整的云监控服务,具架构如图1所示,下面将一一进行介绍:聚.京标聚杯务件MHV/日比义月图1:云平台存储全方位监控图1 .云平台存储基础底座监控如今的云平台存储时代分布式架构得到了广泛应用,云平台存储基础底座通过利用大量标准化机器的存储资源聚合构造一个海量存储池,作为数据存储的基石性系统,其上承载了一系列的云平台存储服务。既有要求高吞吐量,I/O能力随集群规模线
3、性增长的开放存储,又有要求低时延的弹性计算,作为底屣平台核心的云平台存储底座必须二者兼顾,同时具备高吞吐量和低时延。因此其技术架构十分复杂,作为基础底座,完备的监控是必备的.主要包括两大类别,一是存描产品集群监控,包括该存储产品所用底座集群下的存储空间、机器信息和健康信息等,健康信息涉及集群元数据节点和数据节点的整体状态、水位、磁盘、集群日志等信息;二是集群节点监控,包括节点基础监控,如CPU、内存、进程、磁盘、缓存等,以及节点级状态、水位、磁盘、硬件、节点日志等信息.2 .云平台存储产品监控云监控针对云平台存储产品的监控,需提供自动、准确且几乎实时地采集基明监控指标和存储产品监控指标数据的功
4、能,能够为用户实时地了解所拥有的存玮服务状态以及业务的使用情况,并且能够及时的发现问题、诊断问题和解决问题.云平台存储服务监控通过监控面板支持通过自定义的方式建立丰富多样的图表查看产品的指标数据,并可配苣告警,还能通过APl拉取指标数据,进行进一步使用和分析.对用户而言,主要关注以下三类服务监控指标数据:1)用户计量数据监控:反映用户层面的资源使用状况和计量信息。例如存储产品已用/总空间、吞吐果、流入流出流量或吞吐最、带宽、请求数或IoPS等.2 )服务性能数据监控:反映用户在使用服务时的体验感信息.主要是请求延时,它是衡量服务性能的至要指标。所以实时的延时信息监控和毛刺状态对用户评估业务需求
5、和服务性能至关审要,而且请求延时包含网络延时和服务器延时两大部分,通过监端到端延时和服务器延时,能够快速帮助用户定位性能问题。3)服务水平数据监控:反映存储服务的稳定性以及用户的使用健康状态信息.例如服务可用性、内部借误数、返回错误情况、日志告警等.3 .事件告警平台云监控事件告警平台要求能够为用户提供及时、个性化的事件及告警服务,统一适用于云上各类计凭、存储和网络的基拙底座及云产品监控.1)事件服务:提供了事件类型数据上报和直询功能。方便用户将云上的各类至要事件或对云资源(包括云底座和云产品)的操作事件收集到云监控服务,并在事件发生时进行告警.事件服务保存并监控着云资源的关键操作,可通过事件
6、了解到谁在什么时间对系统哪些资源做了什么操作.2)告警服务:提供了监控指标、事件的告警功能.用户对云资源的核心监控指标设25告警规则,当监控指标触发用户设置的告警条件时,支持以邮箱、短信、HTTP.HTTPS等方式通知用户,让用户在第一时间得知该云资源发生异常,迅速处理故障,避免因资源问题造成业务损失。另外,云监控告警服务使用消息通知服务向用户通知告警信息.首先,用户需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,需要开启消息通知服务并选择创建的主题,这样在云资源发生异常时,云监控告警服务可以实时的将告警信息以广播的方式通知这些订阅者.告警规则支持企业
7、项目,当选择了告警规则到某个企业项目时,只有拥有该企业项目权限的用户才可以直看和管理该告警规则.4 .多堆度图表展示及报表云监控需要支持用户通过丰富的多样的个性化图表查看已有的监控数据,并支持自定义报表导出能力.统一适用于云上各类计算、存储和网络的基础底座及云产品监控.监控面板/大屏:能为用户提供自定义直看监控数据的功能,将用户关注的核心云资源监控指标集中呈现在一张监控面板里,为用户定制一个立体化的监控平台.1)用户可以在监控面板详情中便捷地直看和导出各个云资源的监控数据;2 )用户可以在监控面板订阅田要的指标,个性化地定制不同指标的展现形式与运第规则,并通过列表与图表结合,对指标数据进行排序
8、与对比展示,辅助异甫排道与故獐分析;3 )用户可以有看和导出账号下所有云资源的监控数据与绑定的告警信息;4)监控面板支持在一个监控项内对不同资源、不同维度的数据进行对比直看和导出,帮助用户实现不同云资源间性能数据对比直看的需求;5)监控面板支持结合云资源的健原状态与告警数据,为用户提供了快速定位异常资源的功能,并支持用户结合具体数据与异常信息排直问题;6)能好通过监控面板白定义需要定期导出成报表的监控指标和告警数据,膨成日报、月报等。二、云平台存储全方位监控指标体系建设云平台存储监控指标体系建设的蚤要性不言而喻,通过对云平台存储基础底座以及块存储、文件存储和对釜存储等三大主要存储产品进行精细化
9、监控,关注这三类云存储服务的可用性、安全性、服务质量等指标,直观展示各类云存储资源配置信息、使用状况、性能状况及健臣状况,准确及时的发现云存储系统中的故障和问题所在,以智能多样化的方式进行报警、信息统计,及时响应、掌控以及处理系统突发故障,同时也可以进行问题预测。为了便于读者直观了解云平台存储监控指标体系建设内容,下面以阿里专有云存储基础底座-盘古(表1),以及三大知名公有或专/私有云平台存储产品监控体系为例,列举并对比三大云上存储产品各个方面监控田要指标(表2-表4):表I:阿里专有公存谛墙础底座癖控指标监控类监控制示集群健康状态使用空间百分比,集群总容异常磁盘;磁盘总数I舁常MaSte解盘
10、如MaSteriS盘数注集器监控异常CS磁盘数/CSiS盅数注文件总数物理Wdakerfig盘水位、异掌水位RACKi机器数/从机器数/总机数副本错误数日专监控日志警告/楣误/严重W误数节点磁盘状态节点出值备份节点破盘乃SDCACHE坏盘数节点监按节点使用空间百分比/节点容节点硬件(密盘、CPU、风扇等)节点进程监控节点S1.础资源监控(CPU.内存等)注:盘古Master服务器:盘古文件系统的元数据存储服务器;盘古ChunkServer(简称CS)服务器:盘古文件内容数据存储服务器.衣2:块存储产品监控指标及对比监控指标阿里云腾讯云华为云读/写IOPSYYY读/写总延迟NYY读/写吞吐SlY
11、YY平均队列长度NNY磁盘繁忙率NYY读信操作大小NNY读/W服务延迟NYYIopS达到上限次数NNY吞吐1避It限次数NNY磁盘使用率/使用容Y(需安装AGENT)Y(三安装AGENT)Y(需安装AGENT)表3:文件存储产品监控指标及对比痛的示阿里云婚讯云华为云ifc写IopSYYY函写延迟YYY元数据QPSYNN读与吞吐YYY文件系统使用率YYY&4:对象存储产品监控指标及对比监控指标阿里云要讯云华为云球请求/GeVPut类谪求效丫注3YY成功谪求数注1YNY(仅有总数)有效谪求数/占比丫注3NY亶定向请求毂7占比丫注3NN请求TPS注1NNY请求中Bi率NNY谓求平均/最大选到5延迟注1YNY(仅有总平均)请求平均,,最大服务器延迟注1YNN返回码格误总数/占比汪2YYY可用性丫注3NNCDN流加丫注3NN公同澹入;流出没/帝宽丫注3丫(不含E)Y内网流入/流出流JS/带宽Y注3Y(不含带宽)Y跨区域复制流入;流出流Y注3YN存他空间大小注4Y(仅有总大小)YY对教量注4NYY文件碎片数注4NYN谈像回源请求格.数注5YNN说像回源流入流注5YYN镜像回源平均延退注5YNN谓像回源平均传给速度注5YNN