数据中心平均故障间隔时间的“说明和标准” _机房360

摘要：本文介绍了几种预测MTBF的方法。由于有如此多种可用方法，似乎不可能找到使用同一方法的两个系统。不过，还是有一种方法可以适用于大多数组织的各种不同过程。现场数据评估方法使用实际的现场故障数据，因此能够提供比模拟情况更准确的故障率评估。

　　避免关键数据中心出现故障始终是头等重要的任务。如果短时间的停机可能会对业务的市场价值产生负面影响，那么，支持这个网络环境的物理基础设施就一定要可靠。如何才能确信自己实施的解决方案是可靠的?MTBF是比较可靠性最常用的方式。不过，如果没有透彻地了解MTBF，可能就无法实现业务可靠性目标。“平均故障间隔时间：说明和标准”介绍了MTBF的基本原则。如果故障定义不明确或者假设不现实或被曲解，MTBF就毫无意义。
　　
　　本文说明应如何使用MTBF以及将MTBF用作规格和选择依据时的限制。本文还提供一个核对表，作为确保公平有效地进行跨系统比较的指导性原则。
　　
　　MTBF的比较性分析的现实方式和步骤
　　
　　本文介绍了几种预测MTBF的方法。由于有如此多种可用方法，似乎不可能找到使用同一方法的两个系统。不过，还是有一种方法可以适用于大多数组织的各种不同过程。现场数据评估方法使用实际的现场故障数据，因此能够提供比模拟情况更准确的故障率评估。对于小批量生产的产品或新产品，此数据可能找不到;不过，对那些已在现场获得广泛应用的产品，应该始终采用此数据。因此，对于跨系统比较，从现场数据评估开始比较是最合理也是最现实的。请注意，此方法与其他许多方法一样，都是基于稳定故障率假设。
　　
　　本文介绍完成此方法的步骤，列举并说明各个步骤中可能影响结果的可变因素。如果要进行比较的系统间的关键假设或可变因素发生变化，那么评估这些变化对MTBF估计结果的可能影响就非常重要。
　　
　　第1步：定义并估计抽样总体的大小确定年故障率(AFR)并最终确定产品的MTBF的过程中，第一步是确定要分析的特定产品抽样总体。是基于特定产品型号还是整个产品系列进行计算?此抽样总体中产品的生产时间跨度应该多大(以天或月计)?生产日期何时开始何时结束?为抽样总体选择的产品应该在设计方面非常相似，并具有足够多的数量以保证所采集数据的统计有效性，这非常重要。
　　
　　第2步：确定采集数据的样本时间范围过程的第二步是确定从抽样总体中采集故障数据的样本时间范围。通常在产品的用户给供应商报告故障时采集数据。抽样总体中产品的最晚生产日期和样本期间开始日期之间的适合时间间隔，因产品、地理位置、分销过程和库存地点不同而有所差异。例如，如果产品在工厂仓库中储存两个月，在分销渠道中历时两个月，那么最早只能在抽样总体中最晚产品生产日期的四个月后开始进行抽样。对于需要通过批发商、经销商和零售商这些环节的产品，四个月被视为是考虑上述可变因素的合理时间范围。
　　
　　下面说明两个重要的可变因素：(1)抽样总体中产品的最晚生产日期和样本期间开始日期之间要有足够的时间间隔(2)数据采集窗口要足够大，以确保结果的可信度。
　　
　　如果抽样总体中产品的最晚生产日期和样本期间开始日期之间没有足够的时间间隔，那么在抽样总体中的产品得到完全部署之前可能就已经开始进行抽样了。这种情况可能会造成两种结果。第一，由于尚未部署的产品不可能出现故障，所以有低估故障率的倾向。第二种结果就是样本期间很可能包括大量的安装故障或设置故障。因为新产品的故障率可能会显示为一个标准的“浴缸”型，所以包括大量安装故障可能会导致高估故障率。尽管我们知道这两种相反的效果都很明显，但也不能指望他们能互相抵消。
　　
　　在抽样时间方面，另一个需要考虑的重要问题是窗口的持续时间。需要多少天才能充分采集故障数据?采样时间窗口必须选得足够宽，以便可以从样本中移除统计“干扰”。获得合理准确度所需的持续时间取决于抽样总体的大小。例如，大批量产品可能需要一个月时间，小批量产品可能需要几个月时间。
　　
　　第3步：定义故障必须准确定义故障，确保评估过程的一致性后，才能开始统计故障。
　　
　　现在假设在“故障”产品返回工厂时，是由每个技术人员单独定义故障。某位技术人员可能只统计那些出现重大故障的产品，而另一位技术人员可能统计所有出现了故障(包括重大故障)的产品。这两种极端的做法使得准确评估特定产品故障率的可能性几乎为零，当然更不能准确评估对该产品的过程控制所产生的影响。因此，在诊断任意产品之前，供应商必须对故障有一个明确的定义。在计算特定事件的MTBF时，供应商可能有多种不同的故障定义。例如，供应商会试图评估导致关键负载停用的故障的MTBF以及负载能够继续运转的不很严重的故障的MTBF。
　　
　　第4步：接收、诊断和修理产品样本期间结束时间和AFR计算时间之间必须有足够的时间间隔，以允许一定的时间来接收、诊断和修理报告为有故障的产品。诊断结果确定故障类型，而修理将会验证诊断结果。体积较小的产品通常会发回供应商处，这会导致出现接收延迟或需要一定的产品递送时间。产品到达供应商处后，必须对其进行诊断和修理，这会导致另一个称为诊断延迟的延迟。大型产品通常在客户处进行诊断和修理，因此基本没有延迟。在上述任一情况下，都需要在计算AFR前诊断和修理产品。如果是大批量产品，很可能在诊断延迟结束时仍然有需要修理的产品。在这些情况下，有时会做出未修理产品和以前修理过的产品出现故障的机率相等这样的假设。取决于待评估产品的生产量和产品类型，接收延迟和诊断延迟可以在样本期间结束时间后加上几个星期，您可以在此时间点计算AFR。
　　
　　第5步：计算年故障率计算年故障率是用来说明某个特定产品在一个日历年度内的预期故障数。
　　
　　计算此数值的第一步是“按年计算”故障数据。将样本期间中的故障数乘以每年的样本期间数，可以得出此值。第二步就是确定整个抽样总体的故障率。将计算出来的每年故障数除以抽样总体期间安装的产品数，可以得出此值。
　　
　　此公式有如下两个假设：(1)产品一年365天、每天24小时连续运转(2)抽样总体中的所有产品都在同一时间开始运转。因此尽管此公式可以用于任意产品，但更适用于连续运转的产品。
　　
　　本抽样总体有10,000辆汽车。在2个月(样本期间)内，要采集此抽样总体的故障数据。平均而言，一辆汽车每年运转400个小时。在这2个月内，有10辆汽车出现故障。
　　
　　使用公式1：故障率为10个故障x(每年52个星期/样本期间为8个星期)/抽样总体中有10,000台装置=0.0065或0.65%。
　　
　　使用公式2：假设这些产品同时*开始运转，抽样总体的运转时间为每年10,000x400小时=每年累计4百万小时或4,000,000/8760小时=累计457年。
　　
　　故障率为10个故障x(每年52个星期/样本期间为8个星期)/累计457年=0.14或14%*请注意，此假设是为了简化这个示例。现实情况是产品在整个期间内都有销售，因此实际运转时间将比上面的数字小。导致AFR值变大。
　　
　　如果上面的示例是以连续运转产品为例，那么两个AFR值将相等。即使取消所有产品同时开始运转这个假设，AFR值仍然非常接近。因此，了解产品是连续运转还是非连续运转对于进行正确地分析至关重要。
　　
　　第6步：将AFR转换为MTBF将AFR转换为MTBF(以小时计)是所有步骤中最容易的，不过可能也是最常被误解的。只有在故障率稳定这一假设下，将AFR转换为MTBF才有效。

[1] [2]

JIFANG360.com - 机房360

数据中心平均故障间隔时间的“说明和标准”