咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024984
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
论DPS在数据中心的应用
  • 文主要针对数据中心征地难、可靠性、节能减排等方面,从可靠性、算力、效益和节能减排等方面论证了一种新型的电源解决方案-DPS(分布式不间断电源)在数据中心的应用。文章对DPS做了简要介绍,通过供电系统模型,分析认为DPS比集中式不间断供电(UPS或HVDC)具有更高的可靠性和可用性,尤其是对电源故障影响的服务范围具有无可比拟的优势。
  • 一、背景
      
      在20年前,政府部门和企业基本上采用自建数据机房,主要用于存储本地信息,并不太参与运营管理。为了避灾,很多单位还异地自建备灾数据机房。
      
      近年来,随着网络技术、数字技术和通信技术的快速发展,数字经济已经融进了国民经济的基因里,无论是基于国家行政管理,还是基于企业的运营,都依赖着数据处理。
      
      一旦参与运营管理,数据处理的核心就变了,存储反而变成了一项基本性能要求或者说是功能要求,处于一种附属的位置了,更重要的是低延时的计算功能。这种应用场景下,再采用自建机房已经不现实了,无论是网络带宽还是时延,临时的运算量剧增等等都无法在自建机房实现。此时就对数据中心具有了迫切的而且是更高的要求。
      
      运营信息本身也随着人们的生活方式和政企管理方式的变化而是动态的,比如在白天基于5G的自动驾驶需求量很大,晚上则居民的生活应用较多,这就要求数据中心具有高度的弹性,从而让用户和数据中心运营带来最佳的性价比。
      
      随着区块链技术的发展,数据中心大量应用了分布式的解决方案,去中心化可以更好的提高可靠性和应用弹性,也有更加的容错性。
      
      这就对数据中心的可靠性、算力/效益、节能提出了更高的要求,如何平衡地实现这些指标?近年来出现的DPS(分布式不间断电源)可以说是一个非常好的解决方案。当然衡量一个新的事物有很多种指标可以使用,本文重点针对上述可靠性、算力/效益、节能进行一个分析,论证DPS在数据中心应用的合理性和方向性。
      
      二、什么是DPS(分布式不间断电源系统)
      
      这里不对DPS的定义进行详细探讨,仅说明DPS的应用方式和场景。分布式是相对于集中式不间断电源系统而言的,集中式不间断电源系统在数据中心的应用当前主要是交流UPS和直流HVDC供电(下文中把集中UPS和集中HVDC简称为UPS和HVDC)。
      
      UPS或HVDC具有大功率,集中部署的特点,一般功率在500kVA或者300kW以上,采用集中电池而且是以铅酸电池为主的解决方案。
      
      图1和图2即为使用UPS与DPS的供电系统架构对比图和使用HVDC与DPS的供电系统架构图。而这两个架构图将作为我们后续分析的基础使用。从图中可以看出,与集中式供电不同的是DPS深入到了每个机架,与PDU一样成为机架设备的一部分,而不再需要动力室中的集中功率变换和多层次配电,也不再需要集中供电的电池室。
      


      为什么DPS可以实现集中不间断供电的功能,我们再来看一看DPS的工作原理。图3所示。
      
      我们都比较熟悉比较成熟的UPS和HVDC系统架构,可见DPS使用的是UPS和HVDC的电源架构,所以原则上集中UPS和集中HVDC可以实现的功能,DPS都可以实现。而由于DPS直接深入IT设备机架,可以对机架具有更加敏感的感知力。
      
      由于采用成熟的电源架构,其技术成熟性是得到多年的应用实践验证的,所以本文也不再对技术的成熟性进行讨论。
      
      三、可靠性及可用性分析
      
      3.1可靠性分析
      
      先对对分析需要使用到的公式做简要回顾:
      
      MTBF-平均无故障间隔时间;
      
      λ-失效率
      
      从上面的供电架构图可知,我们将UPS或HVDC系统以及DPS均视为一个黑盒系统,进行评估。根据大量招标文件的要求来看,要求UPS、HVDC或者DPS的MTBF大于十万小时,我们据此将其MTBF均按照10万小时考虑,所以其失效率λ=1×10-5(h-1).
      
      我们对整个供电系统的可靠性进行一个大体的分析。
      
      对于配电柜,一般是一个总输入断路器+一个分路断路器到下一个配电柜。
      
      从表1可得,配电柜的失效率约为3.410-6h-1.
      
      我们将供电系统简化如下:
      
      UPS将经过低压配电柜-UPS-UPS输出柜-低压配电柜-列头柜-PDU;
      
      HVDC将经过低压配电柜-交流配电柜-HVDC-输出配电柜-列头柜-PDU;
      
      DPS则经过低压配电柜-输出配电柜-列头柜-DPS-PDU.
      
      均可视为串联系统,如图4和图5所示。
      
      

    对于串联系统而言,设系统各子系统失效率分别用λ1,λ2,……,λn表示,系统失效率计算公式如下:
      
      λ=λ1+λ2+……+λn
      
      则可知对于UPS和HVDC均需经过4个配电柜到达PDU,而DPS仅需两个配电柜即可到达PDU,其失效率分别为:
      
       
      可得供电系统的MTBF数据为:
      
      MTBF集中系统=1/λ集中系统=42372.88h
      
      MTBFDPS系统=1/λDPS系统=49504.95h
      
      通过以上对比可知,由于供电环节的减少,带来了供电系统可靠性的提高。这也符合可靠性的基本原则:系统的部件/器件越多,其可靠性越低。
      
      从另外一个角度来看可靠性,由于采用分布式存储和分布式运算,以及深入机架的小颗粒度的DPS应用,几乎可以杜绝因为电源系统故障导致的数据丢失或者服务中断。
      
      而采用集中DPS或HVDC,则由于一台集中式不间断电源带载五十个以上甚至一百多个机架,电源故障不仅仅影响了数据中心的算力大幅下降,而且即使分布式存储和分布式运算策略应用,也大大增加了数据丢失或者服务中断的概率。
      
      3.2可用性分析
      
      从图1和图2中可以看出,对于UPS和HVDC,系统基本采用铅酸电池,需要独立的电池室。铅酸电池的工作寿命,失效模式,维护规程已经非常成熟了。
      
      在电池故障时,UPS或者HVDC基本就失去了不间断电源的功能,需要尽快恢复功能。但是由于其所带IT负载非常多,需要运营方制定详细的转供电策略,从其他不间断电源对故障电源服务区域进行支援。转供电,检修,恢复供电所需时间至少需要8h,并且根据公开报道,多个数据中心发生的多次异常情况,就是恢复供电过程中再次出现意外,从而无法按计划恢复供电带来了更长时间的故障,影响到了业务运行。
      
      对于固定式的UPS,故障时还需要厂家技术人员进行处理,其处理时长一般都在24h以上;模块化UPS虽然在模块故障情况下可以由运营方更换,但是由于其复杂的并机,冗余架构,依然需要原厂进行处理,时长依然普遍大于24h。
      
      对于HVDC而言,由于其架构的简单,除电池外,基本都是插拔更换,时长在数分钟以内。
      
      再看DPS,由于采用了模块化设计,除主体外,各模块都可以进行插拔维护,每次插拔维护时长均在数分钟内。最复杂的情况下,更换整机,也可以保证在20分钟内完成整机的更换和恢复供电工作。
      
      对于可用性,有以下公式:
      
      R=MTBF/(MTBF+MTTR)
      
      则三种不同供电方式的可用性计算结果如下:
      
      RUPS=100000/(100000+24)=0.99976
      
      RHVDC=100000/(100000+8)=0.99992
      
      RDPS=100000h/(100000h+20min)=0.999997
      
      明显可见,采用HVDC直流供电,系统可用性比UPS高一个9,采用DPS供电,系统可用性比
      
      HVDC再高出一个9。
      
      所以UPS采取了越来越复杂的冗余策略,甚至借鉴HVDC和通信电源的做法发展出了模块化UPS等各种策略,将其可用性提高到与HVDC相当的水平,却难以达到DPS的可用性水平。从可靠性和可用性两方面来看,DPS不仅没有降低数据中心的可靠性和可用性,反而具有更优秀的指标,所以可以放心的在数据中心进行规模化应用。
      
      四、DPS对算力和效益的影响
      
      4.1算力影响(服务器机架数量)
      
      对于数据中心的算力而言,最直接的一个指标就是其可支持的IT设备机架数量。如果在一定的建筑面积上可以部署更多的机架,对算力提高是最大的贡献。
      
      从图1和图2可见,UPS和HVDC均需要配置相应的配电柜,需要专门的电池空间。这些都需要占用较大的面积进行部署。
      
      《关于印发中国电信数据中心建设标准(2020版)的通知-中国电信〔2020〕331号》中给出了多种不同规模的数据中心设计推荐方案,我们以其中2万平米机房设计方案的其中一层设备层为例来进行对比说明。该单层建筑面积4900m2,通知中的方案以集中供电方案为准。图6为该通知中集中供电的布置方案,单层设置服务器机架928架。图7为机房分布式(DPS)供电布置方案一。
      


      图7为与图6完全相同的建筑中,采用分布式供电的布置方案,单层服务器机架可增加277架,总数可部署1205个机架。
      
      该方案采用去掉配电室中UPS或HVDC设备,同时取消电池室的部署方案,节省出来的面积新设一个主机房5。
      
      图8则采用是采用分布式供电第二种方案,去掉配电室中UPS或HVDC设备,同时取消电池室后,节省出来的面积新设两个主机房5和主机房6.
      
      图8的方案可增加308个服务器机架,方案更加紧凑,但是机房数量增加,维护难度稍有增加。机房维护门的位置需要根据具体设计规范和消防要求进行调整,这里不做深入的探讨和细化。
      
      对比方案中将支撑柱影响的机柜,哪怕只是影响后部操作空间,均视为空机柜,定义为不可用。在实际应用中却完全可以作为全功能机柜使用,从而获得更多的服务器机架。
      
      图7 增加的机架比例为:277/928=29.84%
      
      图8 增加的机架比例为:308/928=33.19%
      
      我们基于同等对比条件,对多个工程进行集中供电方式和分布式供电方式对比,发现使用DPS最多可增加的设备机架数超过45%。涉及工程秘密,这里不能对详细对比过程进行介绍。
      
      4.2资源使用效率
      
      在很多情况下,由于机房功率的上升,或者扩建机房时,如果采用集中供电的设计方案,则除了需要新设计动力室外,还需要增加考虑一个集中的电源(足够容量的变压器输出)给集中供电的主机供电。
      
      如当前机房供电变压器功率不足,则需要新建变压器或对现有变压器或者变电站进行扩容。需要很长的电源改造周期,并且需要付出更多的建设成本,还需要数据中心为新的变压器容量付费,拉高了数据中心的运营成本OPEX。
      
      如图9所示,此时如果使用DPS方案,则可以充分利用已有变压器的剩余容量,也可以充分从周边工业或者写字楼等电源单元引入市电,从而无需新建变电站或者扩容,快速实现数据中心电源扩容。
      
      而且也无需在数据中心考虑UPS的空间,仅需要考虑服务器机架部署和空调配置即可,在有限空间里获得最多的机架数量。
      
      在边缘数据中心建设中,则可以不用专门建设变电站,而直接从周边方便的变压器输出引入分散电源即可实现可靠供电。
      
      4.3经济效益
      
      对于DPS可以增加部署的服务器机架一项,最直接的效益就是带来更多的收益。
      
      假设每个服务器机架内置12台服务器(事实上,对于42U及以上的服务器机柜,可以放更多的服务器,这里取一个中值),每台服务器年租金按照8000元人民币计算(以2P服务器,16核32G内存,480G固态硬盘配置为例,属于中等偏下的配置),一个服务器机架年营收约96000元。
      
      增加的服务器按照277台计算,仅一个设备层每年可新增营收约2659万元。这将非常有助于更快速收回数据中心投资费用,降低数据中心的拥有成本TCO。
      
      五、DPS对节能的贡献
      
      DPS对节能的贡献主要体现在对PUE的贡献上。以下分析和对比采用一套600kVA集中式UPS,与相同机架数对应的交流DPS数量为例。系统均采用2N模式供电,分析按照远期满负荷运行状态下进行。下面针对两种解决方案的能耗情况进行简要分析。
      
      5.1环境制冷及排氢
      
      制冷系统除了为电源主机和电池冷却外,还需要为占地面积的空间进行制冷,一般情况下每平米按照30W进行计算,一套UPS系统占地(主机+电池,约50平米)所需制冷功率为1.5kW左右。
      
      铅酸电池需要排氢,按照4个200W排风扇构成排风系统计算。
      
      DPS共享IT机架的环境,不单独占用面积,环境制冷量可忽略。
      
      5.2电池充放电
      
      按照每套UPS系统采用2组300AH铅酸电池方案评估,电池距离主机电缆长度一般在10-20m长度。
      
      电池部分功耗包含两个方面,一是集中供电方案中的铅酸电池本身需要进行均浮充管理,均浮充会带来电池发热和电池能量传输损耗。浮充损耗每组电池500W,每套系统约1kW;均充损耗则可达到浮充损耗的20倍,每套系统损耗达20kW,持续8小时。电池每季度进行一次充放电测试,将充放电耗能折算到功率耗能上,约0.5kW。铅酸电池在供电状态或充电状态下,电缆线路也带来2.5kW左右的损耗。
      
      5.3配电损耗
      
      相比于DPS和UPS或HVDC均需要更多的配电环节,如低压配电、整流配电、旁路柜配电等环节,每个配电柜内的传输损耗和自身检测/控制/显示部件损耗大约500W。
      
      将前置配电环节视为三个配电柜的损耗,损耗1.5kW。
      
      DPS采用系统内配电空开经极短距离接线配电,配电损耗2W左右,几乎可忽略。牵制配电视为两个配电柜损耗,功率1kW。
      
      5.4主机损耗
      
      考虑UPS与DPS基于相同技术条件和应用环境,效率视为相同。
      
      5.5制冷损耗
      
      基于以上损耗,按照一定能效比(本例取3)计算空调功耗,表2所示。
      
      六、总结
      
      DPS还有较多其他特性,比如对建筑承重要求的降低、对环境温度不敏感、施工周期短等,这里不再一一展开了。
      
      从上述分析来看,DPS相比集中供电具有更好的可靠性,更小的故障影响范围;相同建筑面积情况下,可以部署更多的服务器机柜,从而带来更多的收益。
      
      从节能方面来看,DPS相比集中供电而言,可以贡献约0.07的PUE降低,在国家“双碳”战略下,更显得无比珍贵。
      
      当然由于DPS采用轻量化的新型电池(当前主要是锂电池),所以其初期建设成本比集中供电的UPS和HVDC高出一定的比例成为其发展的一个障碍。但是建设成本不能仅考虑DPS本身增加的成本,需要从系统角度和全生命周期来考虑成本和收益,比如变电站的新建成本或者扩容成本,集中铅酸电池定期均浮充耗电成本,铅酸电池寿命终止更换成本(在10年数据中心服务期内,至少需要进行一次更换),DPS带来的更多收益等综合考虑。
      
      从数据中心拥有成本TCO角度考虑,使用DPS是一个性价比比较高的解决方案。
      
      今后应加大DPS在数据中心推广应用的力度,尽早实现大规模应用,为节能减排和集约型经济做出更大贡献。
      
      作者简介
      
      汪少林,现任职中国电信集团有限公司河北分公司云网发展部,主要负责全省通信机房动力环境设备的规划建设,从事电源空调专业维护与建设35年。
      
      武亚波,现任职中国联合网络集团有限公司廊坊分公司云网中心,主要负责全市通信机房动力环境设备的维护和管理,从事电源空调专业维护与管理35年。《数据中心建设+》杂志编委。
      
      编辑:Harris
      
      

  •