- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
综合布线数据中心统筹设计技术
关于系统可靠性和可用性的讨论
就数据中心的统筹设计而言,必须讨论的另一个重要问题是系统的可用性和可靠性。很多客户、设计人员和设备提供商在谈到可用性时很少采用量化的概念,也很少了解实现这些目标须采取的措施。例如当前业界使用非常频繁的"99.999%"。"5个9"相当于每年5分钟的宕机时间。目标固然理想,但是要在很长时间内保持这一标准就必须满足一些实际要求,而这些要求却常常得不到设计者足够的重视。
对可用性的误解
一个常见的误解是可用性是在限定的时间间隔内测量出来的数据,而不是一个连续测量值。例如,如果数据中心一年未发生宕机,但在随后的1个月发生了1小时的断电。在这种情况下,如果说数据中心在除了该月之外的所有月份都达到了"5个9"的可用性,那么从技术角度来讲这是不准确的。实际上,1小时的断电会使数据中心的可用性在12年内达不到"5个9"的目标,其原因如图5所示。
图5 1小时断电对可用性的影响
可用性是在系统运行寿命期内的连续测量值,它是用总的正常运行时间除以总的运行时间得出的。通过调整时间框架,尤其是缩短所计算的时间,系统可用性目标的实现变得相对容易一些。每个月签定的服务级别协议就是其中一个常见的实例。将可用性时间划分为1个月的时间间隔可以达到高级别的可用性目标,但是相对于真正的系统可用性而言则没有太大的意义。
在确定可用性目标时,人们很少为确定数据中心实际可能达到的潜在可用性目标而进行认真的分析。部分系统每年可能发生几十次一两秒钟的断电,1 分钟以下的中等程度的断电事故在一年内可能出现5~6次,1小时或更长时间的断电可能一两年才会出现1次。
在建立这样一个系统模型时,需要考虑频度和持续时间的事件密度函数。即使5秒钟的断电也可能会导致发电机启动,并影响不间断电源电池。从根本上来说,对一个复杂的电源系统来说,一个5分钟的事件与60个5秒钟的事件之间有着巨大的区别。
与此同时,还要考虑重新启动和恢复时间,一次1秒钟的断电可能会使服务器宕机20分钟。因此,考虑可用性时存在很多的统计属性和非线性关系,使得这种可用性计算变得非常困难。不考虑这些电源事件因素的模型得到的结果是没有意义的,甚至会导致错误的结论。
图6 典型的冗余策略
图7 系统MTTR值与不可用性(1-可用性)的关系曲线
图8 系统MTBF值与不可用性的关系曲线
对冗余系统的正确评估
实现可用性的下一个步骤是评估电源系统的冗余和可维护性策略。常用的冗余形式各异,但常常缺少优化的方法。图8 显示的就是这样的实例。
如图6所示,UPS系统采用了全面的系统冗余(2N),但是单电源负载是由一个PDU供电的。而这个PDU又串联了很多组件,成为单路径故障点。其中包括系统输入断路器、变压器、输出断路器、主配电盘断路器,以及支路断路器。在某些设计中可能形成5~7个单路径故障点。
这种设计使UPS系统有充足的冗余,但是在配电系统中却没有。这样一来,会导致可用性瓶颈,或一部分可用性较高,而另一部分可用性较低。假定宕机时间是可累加的,可用性不高的环节始终会妨碍系统达到最优的可用性,这在统筹设计过程中是一个需要特别考虑的重要因素。一个系统内部的可用性差异意味着,如果在一个地方花费过多的资金,其他地方的投入将减少。实现平衡对于最大限度利用资金获得最佳的可用性来说至关重要。
MTTR对可用性的特殊作用
优化可用性的另一个方面与恢复时间有关。可用性是与平均无故障工作时间(MTBF)、平均恢复时间(MTTR)相关联的函数。所有的系统都会在某个点上出现故障。这是事实,但是,可用性高的系统不会受到太大影响,并且可以快速、高效地修复。有证据显示,如果MTTR过长,就不可能达到较高的可用性。
从图7和图8可以看出,平均恢复时间对提高系统可用性的作用远大于平均故障时间(MTRF)的作用,其原因有以下几点: