摘要:数据中心维护工作中,我遇到的最有挑战性的问题是,“领导,我们的设备什么时候会坏”。这个简单而且直白的问题,是我们在做运维管理工作中最基础的核心问题,是所有运维工作(检修计划、保养计划、风险规划、应急措施、人员成本管控等等)的基础。如何回答这个问题就是考验每一个运维管理者的基础能力。 |
数据中心维护工作中,我遇到的最有挑战性的问题是,“领导,我们的设备什么时候会坏”。这个简单而且直白的问题,是我们在做运维管理工作中最基础的核心问题,是所有运维工作(检修计划、保养计划、风险规划、应急措施、人员成本管控等等)的基础。如何回答这个问题就是考验每一个运维管理者的基础能力。
在我刚参加工作时,在维护铅酸电池时,师傅告诉我这个型号的蓄电池大概在运行5年后就要每年做一次容量试验,来检验电池容量状况。在维护少油短路器时,师傅告诉我检查断路器触头的烧蚀情况,如果烧的严重了这个开关就要让厂家去修了。基础设备传统的维护方式,主要是靠师傅积累的经验判断设备寿命;靠我们检查设备的磨损、消耗情况来判断设备寿命。
随着设备先进程度的提高、电子化水平提升,依靠经验和简单的设备检查已经远远不能满足判断设备设备的寿命状况的要求,因此,我们开始使用基于可靠性寿命分析的方法来判断设备寿命。
二、设备可靠性寿命分析
案例:数据中心某机房,投产时间超过10年,机房专用空调设备近年故障频繁,维护人员疲于应付空调设备故障的处理和维修工作。
数据中心某机房空调设备故障时间统计
标签 |
存活时间 |
删失 |
10#1-1 |
33 |
删失 |
10#1-2 |
113 |
删失 |
10#2-1 |
498 |
存活 |
10#3-1 |
58 |
删失 |
10#4-1 |
85 |
存活 |
10#4-2 |
374 |
存活 |
10#5-1 |
154 |
删失 |
10#5-2 |
437 |
存活 |
10#-6-1 |
454 |
删失 |
10#-6-1 |
76 |
删失 |
10#-6-2 |
223 |
删失 |
. . . |
|
|
10#-13-1 |
49 |
删失 |
10#-13-1 |
454 |
删失 |
10#-13-2 |
244 |
删失 |
10#-14-1 |
107 |
删失 |
10#-14-1 |
380 |
删失 |
10#-14-2 |
181 |
删失 |
使用jmp进行可靠性分析
1、确定寿命数据的分布函数
本文使用jmp进行寿命分布函数的拟合,确定某数据中心机房空调设备寿命分布函数服从指数分布。
2、 通过寿命分布函数确定机房空调的相关各种可靠性特征(如可靠寿命、失效概率、失效概率密度、故障率等)
由于影响设备寿命的各种因素,普遍都是随机变化,有些因素还是随着时间变化而随机变化的状况。因此,使用概率的方式来描述设备寿命更加合理。
结论:设备修复64天后,有20%的概率会发生故障,设备修复462天后,有80%概率会发生故障。
使用可靠性寿命分析需要对概率和数理统计有较深入的理解,正确的选取数据和适当的分析方法对可靠性分析的结果会产生重要影响。
判断设备寿命是维护工作的一个重要基础指标,无论是依靠人员经验来描述设备寿命、还是设备消耗程度来描述设备寿命,以及用概率的方式来描述设备寿命,都是为了更好地规划数据中心基础设施运维,使数据中心设施运行更加平稳,安全可靠。
运维数据分析的本质,是通过数据分析来了解我们所管理设备的规律,从而制定有效的管控和应对方式。如果我们仅仅是为了得到结论,而不是分析数据的应用那就本末倒置了。
作者简介
江伟
1978.2.3 高工
北京联通运维经理,从事数据中心基础设施维护管理工作20年,具有丰富的维护管理经验和数字化运维管理经验。
邮箱:jiangwei29@chinaunicom.cn
发表专业论文《数据中心电能质量综合评估>中国科技成果(半月刊)
DOI:10.3772/j.issn.1009-5659.2018.07.019
发表论文《大型通信局所用电负荷分析》 中国科技成果(半月刊)
DOI:10.3772/j.issn.1009-5659.2014.05.19.
(正文完)
责任编辑:张华