• 易迪拓培训,专注于微波、射频、天线设计工程师的培养
首页 > 电子设计 > 电源技术 > 电源技术 > 细分MTTR对模块化UPS系统可用性的影响

细分MTTR对模块化UPS系统可用性的影响

录入:edatop.com    点击:

1.前言
   
模块化可以简化设计,缩短新产品开发周期,提高生产效率,提高产品质量、可靠性和维修性,具有良好的效费比,是科技成果产业化的有效途径。
   
通信用直流电源系统的成功应用为模块化UPS树立了榜样。DSP芯片和控制技术的发展为模块化UPS提供器件基础和技术保障。模块化UPS系统关键之一是各模块的故障可隔离性[1]。
   
1.1 模块化UPS装卸运输安装的便利性
   
集装箱,一个美国货车司机1946年的发明,引起运输方式的革命,使全球货物运输业发生了革命性的变革。
   
传统集中式UPS较重又不能被拆分,它带来如下不便:立式的包装限制了运输车辆的选择;装卸、就位需专门的大型吊装车;机房门、过道、电梯载重、楼层承重时有受限。因此,2台传统集中塔式UPS构成“1+1”系统或者多台构成“N+1”系统都不能被称为模块化UPS系统。
   
而UPS模块化,则可化整为零:模块可以分开包装,机架可以卧式包装及运输。对于机架,(2~4)人即可搬运,对于模块,(1~2)人即可轻松搬运和安装。
   
能带来便利的UPS系统才能叫作模块化UPS系统。
   
1.2 模块化UPS的可维护性
   
集中式UPS一般需要资深工程师携带大量的备品备件现场维修,需要时间长,费用不菲。
   
对于模块化UPS系统,UPS模块本身具有热拔插功能,可以在不中断负载供电以及确保人身安全的前提下更换故障模块。用户备用模块或即使空运模块到故障现场,将使维护变得方便和低成本。
   
模块返回工厂维修与现场维修相比,不但维修成本更低,而且维修质量更加可以得到保障。
   
模块化对于人类最突出的贡献莫过于减少人为错误。研究表明,有50%-60%的数据中心停机是由人为错误引起的,而且减少人为错误体现了系统的一个最大的收益--提高可用性。迄今为止,在提高可用性的所有途径中,减少人为错误是最行之有效的手段。
   
2 模块化UPS的可用度与MTTR概念
   
对于一次性使用的设备,如不可回收的人造地球卫星上的通讯设备,仅关心其可靠性即可。但是,对于如UPS等大多数可修复设备,只用可靠性指标描述其性能便不全面。用户不但要考虑故障发生的概率,而且还要考虑修复时间。
   
可维护性(Maintainability),其含义是在规定的时间内完成主动修复的概率。

可维护性用平均维修时间MTTR(mean time to repair)来表示。它是设备从发生故障瞬间开始不能完成规定功能到通过维修而重新恢复规定功能所需的平均时间。
   
修复率μ是MTTR的倒数: 1.jpg [p]
   
可用度(可用性)是一个可维护性指标,为系统在使用过程中,可以正常使用的时间与总时间之比。可用度A与平均无故障时间MTBF(Mean time between failure)和MTTR的关系是:

2.jpg
 
可用度不仅与MTBF有关,而且与MTTR有关。因复杂系统的功能多、元器件多则MTBF降低。在MTBF不变的前提下,减小MTTR能有效提高系统的可用性A。
   
3 MTTR时间细分
   
MTTR是指故障发生到恢复功能的时间t,它由故障发生到故障自动检测时间t1、故障被检测出到维修工接到通知的时间t2、后勤保障时间t3、故障维修时间t4、恢复时间t5等多个时间段组成,即 t= t1+ t2+ t3+ t4+ t5,见图1。
  

3.jpg

图1  MTTR的时间细分


   
3.1 故障发生到系统自动检测出故障的时间t1
   
要求UPS具有完善的自我诊断功能,定位发生故障的位置和类型,限制故障扩大并给出故障信号。对于模块化UPS要求故障模块能自动保护退出系统,不能影响系统其它部分继续正常工作。一般来说,t1时间是ms~min数量级。
   
3.2 故障被检测出到人们知道时间t2
   
检测出的故障通过合适方式,如手机短信实时通知维护工。t2时间一般是s ~min数量级。
   
3.3 后勤保障时间t3
   
后勤保障时间是指人(维修工程师)和物(备品备件)从获知维修通知到抵达现场开始维修时间。t3时间是hours~days数量级。
   
人:最快是用户的维护工程师自己可以解决,其次是厂家当地维修工程师以及厂家工程师的快速响应能力(受厂家服务响应能力和交通工具影响)。
   
物:用户现场是否准备有足够可以替换的备品备件,如设备现场及厂家当地办事处没有备品备件,则需要厂家派人携带或者委托第三方运送备品备件到用户设备现场。对于模块化UPS,因不同容量的系统由相同的模块组成,准备一种模块即可。而对于传统集中式UPS,可能的故障部件无法定位和预计,为了提高修复概率,往往需要准备较多种类的备品备件。
   
案例:某国外品牌传统集中式UPS出现故障,时值年底,正值企业年底冲刺满负荷生产。因天气寒冷,电网负荷大,电网频繁停电并不可预测,而一旦停电,则流水线上芯片将全部报废,用户非常焦急。而当时UPS厂家在亚洲只有泰国曼谷办事处,并且需要派资深工程师携带大量的备品备件才能来华现场维修。签证需要时间,老外资深工程师签证、差旅、维修等费用也不菲。用户受不了漫长的等待造成停产带来的巨大损失和昂贵的维修报价,可后来检查结果非常意外:实际故障发生部位与厂家所谓资深维修工程师准备空运来的备件完全不同。 [p]
   
如果是模块化UPS,用户备用一个模块或即使空运一个模块也不需要很长时间。
   
即使是模块化UPS,需要多大容量(对应重量和尺寸)的模块比较合适,这就需要从物流可获得性以及现场更换便利性等方面加以考虑。
   
3.3.1国家标准GB 12330-90体力搬运重量限值
   
表1  中华人民共和国国家标准《GB 12330-90体力搬运重量限值》(单次重量,单位kg)
  

4.jpg

该标准体现我国对搬运操作工的劳动保护,同时也回答了单个物体一般多重才是适合搬运的。


  
3.3.2 航空公司对行李重量尺寸限制
   
表2  航空公司对行李重量尺寸限制

 

5.jpg


  
航空公司对行李重量限值的规定,受各国的劳工法以及不同型号客机等影响,不同的航空公司,规定稍有不同。当超过限值时,需要采用货运方式替代行李托运,而货运不能保证随同旅客航班同时抵达,一般晚到2至3天。以上表明:模块的重量和尺寸将直接影响到维修现场获得备用模块的时间。从表2看出,模块的重量小于30kg和尺寸小于158cm最佳。
   
3.3.3 国际上对人体搬运重物限制
   
图2是美国劳工法对不同重量物体需要不同人数或者需要采用机械设备的要求。图中重量限值要求间接对UPS单模块的容量和重量作了规定。重量限值要求同时表明:提高UPS模块的功率密度,降低其重量尺寸是以后永恒的发展方向。

6.jpg


图2  美国劳工法对搬运重物规定
   
早年通信用高频开关电源刚面市时, 200A/48Vdc的整流器模块还是主流,尽管其重量尺寸比相控小很多,但现在200A的模块是非主流产品,主流产品是100A、50A、30A、10A等整流器模块,应该说重量尺寸是一个重要原因。随着电源变换效率的提高,200A整流器的尺寸和重量变小时,200A模块也许将进入主流。
   
对于功率更大使用场景则通过增加并联模块数量或者采用多套分散供电方式实现。
   
3.4 故障维修时间t4
   
从开始动手维修到确认修好的时间。对于模块化UPS,普通工程师现场能直接更换故障模块。更换时间30产品。对于传统集中式UPS,需要资深工程师携带多种仪器仪表以及可能需要的备件到故障现场进行检测。维修时间t4是min~days(天)数量级。 [p]
   
3.5 恢复时间t5
   
更换新的模块或者部件从通电到该模块投入到系统工作正常的时间。恢复过程中需要系统具有完善自我检测和保护设计,如更换的模块或者修复的部件通不过系统检测,则系统拒绝加入,不能影响系统其它部分继续正常工作。t5时间是ms~min数量级。
   
3.6 MTTR估值
  
 据上分析看出,相对于后勤保障时间t3和故障维修时间t4来说,t1、t2、t5可以忽略不计。MTTR可以假设如下四个数值:
   
⑴ 假设用户自己在设备故障现场,用户备有可以供更换的备用模块,用户一发现问题就立即自己更换,则MTTR≦0.5h。这是一种最理想最短的时间。
   
⑵ 用户维护人员不在现场但在设备所在城市,模块一旦发生故障即可被实时通知(如手机短信),现场有可供更换用备用模块,维护人员5h之内赶到现场并完成更换。则MTTR=5h。
   
⑶ 现场无备用模块,或即使有备用模块但用户自己不能更换,需要厂家工程师来更换。假设厂家承诺解决问题时间为48h,更换模块时间0.5h,MTTR=48+0.5≈50(h)。
   
⑷ 对于传统集中式UPS,需厂家资深工程师,带齐备品备件和检测仪器,设响应时间48h(备好备件以及乘机或车赶到设备现场时间),现场维修时间72h,则MTTR=48+72=120(h)。
   
对于模块化UPS,采用第(2)种情况和(3)种情况比较合理,即MTTR=5h或者50h。
   
4 “N+X”并联系统可用度计算
   
4.1 计算公式
   
“N+X”模块化UPS系统是一个表征模型,“N”为负载容量所需模块数,“X”为冗余模块数。用MTBF、MTTR和可用度A来表征可用性,其下标M表示模块,S表示系统。

系统MTBFS、MTTRS和可用度A S如公式(1)、公式(2)和公式(3)所示[2]。

7.jpg

 4.2 计算结果与分析
   
根据以上公式可以计算出系统的可用度As,见表3。模块的参数是:MTBFM=10万h,MTTRM分别为0.5/5/50/120h,N+X分别为N=[1,10],X=[0,2])。
   
表3  N=[1,10]、X=[0,2] 时系统的可用度对应表


 

8.jpg

 

对以上计算结果分析如下:
   
(1) 当MTTRM很小为0.5h,只要1个冗余模块,系统就可以达到很高的可用度。
    [p]
(2) 在上述MTBFM和MTTRM以及N≤10h,有2个冗余模块时,就都可以满足可用度5个9的要求。这为我们设置休眠模块数量多少提供理论依据。就是说,正常工作时有2个冗余模块即可,多余的可以让其休眠,即可以满足系统可用性需求,也符合节能原则。
   
(3) 系统可用度As与MTTRM的关系:对于MTBFM=10万h,N+X =8+1系统,当MTTRM=0.5h/5h/50h/120h时,系统的可用度分别为1个9、6个9、5个9、4个9。可以看出MTTRM的大小对系统的可用度影响很大。
 

射频工程师养成培训教程套装,助您快速成为一名优秀射频工程师...

天线设计工程师培训课程套装,资深专家授课,让天线设计不再难...

上一篇:温度传感器做LED灯具的过温保护
下一篇:“屏幕式”声光电子琴

射频和天线工程师培训课程详情>>

  网站地图