《机房电源故障分析.docx》由会员分享,可在线阅读,更多相关《机房电源故障分析.docx(4页珍藏版)》请在第壹文秘上搜索。
1、机房电源故障分析在计算机、服务器等设备环境中,供电系统都装有高速欠压保护和热保护电路。其主要的作用是:当电网欠压时,依靠滤波电容中的能量来维持工作,一般能够维持IOms左右。由于市电电网的供电质量达不到服务器类设备对供电的要求,因此在大型的和比较重要的计算机机房,供电基本上都是双路电源加UPS供电,以保证计算机系统的正常运行。因此,我们对计算机等负载设备供电系统的管理主要是针对双电路和UPS系统的管理。例如,独立的220V双路电源进来,首先接到双路电源转换开关上面的接入端,接出端是用一根220V的电缆线接到UPS的电源接入端,UPS出口接线是一个多口电源插排,用它就可以给负载供电。UPS意外跳
2、转故障原分析:地线干扰一次市电正常,大家都能正常上网,可UPS总是跳转到电池组供电模式。在此模式下,蜂鸣总是不断地鸣叫提示。我们马上组织人员检查电路,分析故障原因。最后和机房的立式空调联系起来了,每次启动空调不一会,就自动转为电池组供电。显然这是市电输出受到大功率空调机影响所致。但是他们是分开两路单独供电的,是从不同的配电室里面的配电盘接来的,怎么会产生互相干扰呢?带着这样的疑问,电工就顺着电线打开天花板、地板、接线盒等逐点开展排查。看是不是什么地方电路虚接到一起T,最后发现它们的零线和地线接到了一块。如此模糊的干扰,对UPS的影响都能被表达到,果然是个精细设备,不能有一点的含糊。我们决定对空
3、调的地线开展分开处理。分开零线和地线后,再启动空调,发现没有再出现UPS跳转电池组的情况。那么以前怎么没有表现出来呢?我们分析认为是20*年夏天太热了,空调满负荷运转,加大了功率消耗。电源的质量对企业网络能否稳定、安全至关重要。但网络电源安全实际上还有很多属性,如高性能、可扩展性、可靠性、功能性、准确性和可用性等。为了使企业网络电源能持续稳定地运行下去,除了平常的规范使用外,周期性地利用各种测试工具,对网络电源环境实施维护测试也是必须的。整个机房供电安全系统,需要技术人员认真维护,并要做好日常排查工作,及时发现问题,分析处理非计划停机造成的影响等。双电源跳转失败故障分析:金属生锈我公司以前旧的
4、机房空间狭小,屋内的配套设施不完备,导致问题百出,给正常的业务办理带来很多麻烦,其中的供电系统就是维护重点。在公司季度停电检修中,双电源自动转换开关在正常的转换中失败了,没有能自动跳转,静静地一点反应也没有。同时,备用的电源就没有起到应有作用,UPS上的市电显示灯没有输入电显示。看到这种情况,部门所有的人员都齐聚来查找故障原因。我们断开电源,使用工具打开转换开关,发现里面所有的接触开关上的金属触点都生锈了,金属生锈导致自动跳转失灵。幸运的是,开关绝缘做得不错,没有发生短路。我们估计生锈有两个原因:长时间没有使用该功能,化工企业环境条件比较差。经过一番清理除锈工作,我们重新安装好了开关,然后手动
5、转换恢复供电。经过这件事情,我们总结的经验是,双电源转换开关一定要有专人维护,定期查看组件损坏情况,及时更新。值得注意的是,由于转换开关上面的接线比较多、比较紧凑,拆卸和使用的时候一定要小心慎重。我们就曾经经历一次双电源开关损坏的情况。当时是在一次机房改造搬迁中,旧的开关在拆卸时因用力过猛而导致里面固定座脱落,跳转功能丧失,最后只能更换一个新的。双电源自动转换开关具有过载、短路等保护功能。当电源出现故障时,转换开关能自动完成常用电源到备用电源的转换,以保证机房的持续供电,这是第一层保护。当然,前提是这个常备电源必须是从不同原点接入的。从电源的最适宜环境的角度考虑,较低温度下可以有较高相对湿度,
6、在周围空气温度为+40。C时机房的空气相对湿度不宜超过50%o同时,如果该月的平均最低温度为+25七,就需要考虑到因温度变化在设备表面上发生的凝露。当常用电源下降至有效值的70%以下或常用电源其中一相或者三相电压中断时,常用电源延时切换至备用电源,并在常用电源恢复正常时,又将备用电源延时切换至常用电源。这样就给输入UPS的电源一个安全屏障,减少设备的停运次数。突然掉电故障分析:UPS过载双电源固然好,但如果UPS坏了,设备照样可能断电,因为由布线图可以看出,它们是串联的。有一次,UPS电源中断输出,指示灯全不亮了,信息中心机房的所有设备全部结束运行,网络随即全部瘫痪。总经理亲自打电话到机房,要
7、求以最快的速度恢复正常。突然掉电会造成机器硬件很大的损伤,还对企业运营产生影响。庆幸的是,当时管理员都在上班。为了尽快恢复设备运行,我们首先试着重新启动UPS,居然启动成功并正常运行了。但是伴有不间断的鸣叫声,于是查看UPS维护说明,对应找到此类蜂鸣表示的故障原因一一UPS过载。大家很快想起在不久前刚增加一台功率500W左右的服务器,可能是它使得UPS负载超出警戒上限,最后导致自动停机保护。那为什么超载了,又没有蜂鸣报警呢?原来有人无意识地关闭了蜂鸣,没有考虑到它已经超负荷,反正能供电就把蜂鸣当作误报处理给关了。根据分析出的原因,我们立刻停运了几台不重要的设备,让UPS的负载指示率低于90%,UPS又开始安静地工作了。看来使用UPS也要量力而行,我们下一步就只能增加UPS容量来解决问题。