咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024984
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
浅谈面向绿色可靠数据中心的策略优化
  • 数据中心已经成为当今社会的基础设施。疫情以来,数据中心更是成为支撑互联网应用的幕后英雄。数据中心正在成为能耗大户,同时具备显著的节能潜力。人工智能的重要应用之一就是提升数据中心的能效与可靠性。本文围绕数据中心运行节能与可靠性提升两个方面,主要介绍了制冷系统和末端空调运行控制策略优化,以及在数据中心后备电池健康状态评估等方面的研究进展。简单讨论了本领域未来的研究方向。
  •      一、前言
      
      数据中心已经成为当今社会的基础设施。新冠疫情爆发以来的三年间,数据中心更是成为支撑众多互联网应用的幕后英雄。数据中心被列入我国“新基建”重点支持方向。我国在2021年启动“东数西算”国家战略工程。这些均展示了国家对数据中心行业发展的高度重视。
      
      (1)数据中心正在成为能耗大户
      
      据预测,到2030年全球数据中心的年运行能耗将占全球社会年运行总能耗的8%,超过3000TWh(Jones2018)。这相当于35个三峡大坝的年发电量。
      
      (2)数据中心有巨大的运行节能潜力
      
      以常用的能效指标Power Usage Effectiveness(PUE)为例:
      
      PUE=数据中心总能耗/IT设备能耗
      
      由其定义:PUE始终大于等于1。全球数据中心的平均PUE为1.67,而谷歌公司用DeepMind团队优化其数据中心运行能效,将PUE降低至1.06。这里涉及的不仅是数据中心的总运行能耗,而且与所使用的能源形式有关。若能将数据中心用电过程与太阳能、风能等新能源发电过程匹配起来,并通过氢燃料电池等储能设备动态调整,可显著提升新能源在数据中心用能中所占比例,降低碳排。要捕捉新能源供电与数据中心用电之间随机匹配的机会,需要优化控制策略。
      
      (3)数据中心的可靠运行也具有重要意义
      
      数据中心断电不仅提升系统的故障隐患,而且可能带来实际的经济损失。后备电池失效是这类故障的重要原因。为减少类似故障的发生,需要综合机理模型与电池监测数据,提升对后备电池健康状态的评估精度。
      
      下面分别从数据中心运行节能优化与后备电池可靠性管理两个方面简述人工智能方法的应用。
      
      二、数据中心运行节能
      
      1.制冷系统能耗优化
      
      数据中心制冷系统运行能耗优化主要面临的挑战包括:不同系统的运行环境差异性大导致控制策略推广性差,控制变量维数高且耦合强,制冷需求不确定。
      
      目前制冷系统能耗优化的代表性技术路线包括:
      
      (1)空调气流组织优化,比如安装盲板与封闭冷通道;
      
      (2)液体制冷技术,比如直接接触式为将散热部件直接浸没在氟化液、矿物油等不导电液体中,间接接触式为将主要发热器件固定在机柜的液冷背板上。采用液体制冷技术往往需要高昂的设备改造费用和维护成本。
      
      (3)利用自然冷源,可以通过直接冷却的方式为机房直接引入室外冷空气或者冷水源供给机房空调使用,或者用间接冷却的方式利用热管或者换热器等,使自然冷源不直接参与新风或水循环系统。这种方式受外界自然条件的制约,经常处于“看天吃饭”的状态,收到的制约因素多。
      
      (4)智能化群控管理,通过综合外部环境的监测、系统运行状态监测,通过变频控制、设备切换、加减机组等方式,在一些典型场景下,仅对末端空调风扇转速进行简单控制就可以使冷却系统的能耗降低20%以上。
      
      模块化数据中心(ModuleDataCenter,简称MDC)对数据的获取比较及时且丰富,能够较为精准地估计制冷系统需要提供的冷量。这为通过强化学习方法进行冷源系统运行优化提供了进一步的机会。
      
      2.末端空调控制策略优化
      
      模块化数据中心为使用末端空调控制策略提供了便捷。由于信息接口与控制接口的标准化,针对末端空调的控制策略可以较为便捷地在大量模块化数据中心中铺开使用。末端运行策略优化主要面临的挑战是如何构建能耗模型?
      
      模块化数据中心的能耗模型一般包括IT负载模型、温度模型与空调能耗模型三个部分。IT负载模型可以借助于历史数据构建负载预测模型,可以把握逐时、逐日等不同时间尺度上的周期性特征。温度模型主要指MDC内部的温度场模型。这可以通过融合计算流体力学模型、传热模型等构建。空调能耗模型一般通过机理模型与实际数据融合提升模型精度。
      
      末端空调的控制策略优化问题可以使用多种方法求解。其中一种可用于大规模系统的方法是事件驱动的优化方法。这里的事件指一组具有共同属性的状态转移对构成的集合。因此,可以用事件实现状态集结。对于大规模系统,其状态数量可能随着问题规模增加以指数速度增大。但是,如果合理的定义,可以让事件的数量仅随着问题规模的增加以线性速度增大,甚至保持不变。事件驱动的决策本质上是部分可观马氏决策过程,可以通过事件驱动的强化学习方法进行近似求解。已有研究表明,通过事件驱动的方法,可以基于局部信息实现暖通空调的整体优化(Wuetal.2016;Jiaetal.2018)。类似的方法也在数据中心的绿色运行典型案例中实现了5%以上的节能(唐静娴2023)。
      
      三、后备电池可靠性管理
      
      数据中心主要采用阀控式密封铅酸蓄电池(VRLA)作为后备储能电池,具有可反复充电、容量大、造价低廉、免维护等优点。后备电池实效会对数据中心带来巨大隐患,甚至是实际的经济损失。IEEE标准1188-2005(IEEE2006)认为当VRLA的电池健康度小于80%时,应当更换电池。这里的健康度(StateofHealth,简称SOH)定义如下:
      
      健康度=当前最大放电容量/标称容量。
      
      但是这一定义难于在数据中心中实际使用,因为测量最大放电容量需要离线对电池进行深度放电试验。
      
      后备电池可靠性管理面临的主要挑战是:
      
      (1)数据量大且信息密度小;一个大型数据中心一般保有数十万块后备电池,后备电池长期工作在浮充状态,其监视数据的信息密度小。电池失效数据在总数据集中可能只占1%,甚至更少。
      
      (2)缺少可靠标准;IEEE制定的“80%容量”更换的标准实际执行困难,电池容量难以直接获得。工业界依据现场经验制定替代标准,但是尚未形成统一的可靠标准。
      
      (3)样本不平衡;后备电池实效属于罕见事件。电池一旦失效,一般会被迅速察觉并移出UPS系统。这导致正负样本极不平衡。
      
      针对上述难点,一般需要通过计算机辅助标识有用的数据子集,通过温度、电压、电流等变化从海量数据中遴选出可能刻画电池失效过程的高相关数据。一般基于温度、电压、电流、内阻等监测量通过特征工程选择合适的数据特征,捕捉电池健康状态的显著变化,再设计分类器筛选出需要更换的电池。在典型场景下,这一方法可显著提升预防性维护的准确度,能平均提前15天预知电池寿命将至(Tangetal.2020)。
      
      四、总结
      
      数据中心的绿色可靠运行是我国新基建的重要内容。信息流、能源流深度融合的信息物理融合能源系统(管晓宏等2016)是安全节能优化调度的基础。事件驱动的学习与优化方法可以处理大规模、分布式优化决策问题。本文简述了数据中心绿色可靠运行中面临的主要挑战以及存在的研究机遇。实践数据中心的绿色可靠运行,任重道远。
      
      参考文献
      
      I E E E 2 0 0 6) I E E E ,“ I E E E R e c o m m e n d e d P r a c t i c e f o r Maintenance,Testing, and Replacement of Valve-Regulated Lead-Ac id (VRLA) Batteries for Stationary Applications,”IEEE Std 1188- 2005 (Revision of IEEE Std 1188- 1996), 2006: 1-44.
        (Jia et al. 2018) Jia, Q.- S., Wu, J., Wu, Z., and Guan, X.,“Event-based HVAC Control – A complexity-based approach,” IEEE Transactions on Automation Sc ience and Eng inee r ing,2018, 15(4): 1909-1919.
        (Jones 2018) Jones, N., “H ow t o S t o p Da ta C e n t r e s from Gobbling Up the World’s Electricity,”Nature, 2018, 561: 163-166.
        (Tang et al. 2020)Tang, J.-X.,Du, J.-H., Lin, Y., Jia, Q.-S.,“Predictive Maintenance of VRLA Batteries in UPS towards Reliable Data Centers,”IFACPapersOnLine, 53(2):13607- 13612, 2020.
        (W u e t a l . 2 0 1 6) W u , Z., Jia, Q.-S., and Guan,X., “Optimal control of multi-room HVAC system: An event-based approach,”IEEE Transactions on Control Systems Technology, 2016, 24(2): 662-669, Mar. 2016.

        (管晓宏等2016)管晓宏,赵千川,贾庆山,吴江,刘烃,《信息物理融合能源系统》,科学出版社,2016.
      
      (唐静娴2023)唐静娴,面向大型互联网数据中心绿色可靠运行的仿真优化方法,清华大学工学博士学位论文,2023.
      
      作者简介
      
      贾庆山,清华大学教授,主要研究信息物理融合能源系统的优化理论与方法。
      
      编辑:Harris
      
      

  •