咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024984
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
数据中心基础设施容量管理探究
  • 容量管理是IT服务管理中的重要组成部分。随着现代数据中心虚拟化、模块化技术的普及应用,对数据中心IT基础架构的容量管理显得尤为重要。本文作者从实践出发,探讨数据中心基础设施管理中对容量管理的目标和具体方案,为大型数据中心的精细化运维管理提供参考。
  • 一、前言
      
      自2015年两会的政府工作报告中首次提出“互联网+”行动计划后,全国迎来了数据中心建设的热潮。众多大规模、高等级数据中心的建成和投入运营,也带来了运维管理能力不足的问题。目前,在数据中心的基础设施运维管理领域,还存在着管理思路模糊、管理手段缺乏、管理效率低下等问题。
      
      二、容量管理的概念
      
      数据中心的容量主要包括:空间、电力、冷却和网络等几方面。只有当这几方面的指标同时存在,才能说明数据中心的容量是可用的。从数据中心运营的角度看,容量管理的核心目的是在总运营成本和业务发展所需资源的双重约束下,通过配置合理的服务容量,使组织的IT资源发挥最大能效的服务管理过程。为此,容量管理需要实现以下几个目标:
      
      1.分析当前业务需求和预测未来业务需求,并确保这些需求在制定容量计划时得到充分考虑。
      
      2.确保当前的数据中心资源能够发挥最大的效能、提供最佳的服务品质。
      
      3.确保组织的投资按计划进行,避免不必要的资源浪费。
      
      基于以上的定义和目标,可以认为数据中心基础设施容量的管理的主要对象是数据中心的各类资源。如场地资源、机柜资源、电力资源、制冷资源、网络资源、计算能力资源、备品备件资源、园区配套资源等。在实际的数据中心基础设施运维管理活动中,一般把场地资源、机柜资源、电力资源、制冷资源作为容量管理的主要对象。
      
      三、容量管理的内容
      
      以Uptime发表的Tier Standard:Operational Sustainability标准为代表的理论任务容量管理主要关注三个方面:机柜空间(space)、电力资源(power)、制冷资源(cooling)、简称SPC。容量管理的主要内容是在一个机柜或一个机房的维度内评估三者之间是否互相匹配,有无某一方面容量短缺。但在现代大型数据中心或中心集群中,仅仅考量SPC管理是无法有效实现容量管理的目标。根据笔者在若干数据中心集群的运维咨询项目实践建议容量管理可分为两个不同的维度,一是场地容量的维度,另一个是设备容量的维度。在进行容量管理的时候,应同步监控和分析这两个维度。
      
      1.场地容量
      
      在现代数据中心集约化、模块化的发展趋势下,对数据中心场地容量的管理不仅仅理解为机柜空间容量,应是一个覆盖多层级的工作。特别是大型的IDC数据中心园区里,业务容量处于经常的变化和调整中。数据中心的管理者既要响应客计划新部署的几台服务器的上架需求,也要考虑着业务的开展,应该在什么时候启动一个新的机模块甚至一个新机房楼的计划。对于前者来说,能只是一项标准化的变更工作;而对于后者来说,能一项持续半年甚至更长的准备时间,需要调配据中心相当多的资源。要实现运营成本和数据心资源的精确匹配,就必须能建立这种多层机的量规划、分析和预测能力,详见图1所示。
      
      场地容量管理有两个目的:
      
      (1)对数据中心不同层级的SPC(机柜资源、电力资源、制冷资源)使用率进行定期的更新和分析,以使各类资源使用达到平衡,减少资源浪费。举例来说,某个IDC机房内一个冷通道微模块租给一个金融行业的客户,该微模块的机柜空间容量达到满载后,平均机柜的IT负载为2.5kW。而数据中心的单机柜设计容量为5kW,这样就会产生剩余的电力资源和制冷资源。那么IDC的经营者可以关闭部分容量组件以节省成本,或将相邻的微模块租给机柜IT负载高的客户,以尽量使资源得到充分的利用。
      
      (2)定期进行容量预测和容量规划,根据业务发展实现分期规划和分期投产。数据中心的管理者应制定相应的规则和标准,当一个机房模块的容量达到什么样的水平时,应考虑开始启用下一个机房模块,以及在启用机房模块前应做好哪些准备工作。以此类推到机房楼层和机房楼的预测。
      
      2.设备容量
      
      数据中心的设备容量管理是针对主要容量组件的管理,一般包括变压器、柴油发电机组、UPS、高压直流系统、列头柜、制冷主机和末端空调。
      
      设备的容量管理一方面要关注根据业务发展实现分期规划和分期投产来进行设备扩容。即随着IT负载的不断增加(或减少)调整在用容量组件设备的增加或减少,控制运营成本。比如说设计满负荷运转时6用2备的机房空调,当机房刚刚启用时,由于IT负载率低,可以调整为2用6备的模式。另一个重要的方面就是设备的负载管理。
      
      负载管理是考察设备负载率变化对系统运行可靠性的影响。同样额定容量的设备,在不同系统拓扑架构下的容量限制是不同的。以2N系统架构为例,如果双侧的负载各占一半的情况下,则任何一侧的容量组件的容量上限——也就负载的最大值——不能超过设备额定容量的50%。否则当一侧发生故障时,另一侧就会发生容量超载的情况。
      
      四、容量管理的方法
      
      数据中心容量管理的主要方法包括:
      
      1.确定容量管理和业务之间的关系。了解业务变化对基础设施运维带来的影响,通过容量管理,可以制定有效的计划。通过变更管理、配置管理等工作流程,有效的使容量管理和业务发展同步。
      
      2.容量管理的模型、公式、算法和设定值。容量管理是以数据的采集、统计和分析为基础,进行规划和调优的过程。
      
      (1)定义容量管理要素。容量管理要素是容量监视、分析和优化的对象,包括机柜、机房、列头柜、UPS、变压器、柴油发电机、列间空调、冷机等。
      
      (2)定义每项管理要素对应的监视数据。比如机柜的监视数据包括U数、U位、IT设备标称功率、运行电流。
      
      (3)确定监视数据的公式、算法。对于设备容量管理,可以通过直接读取设备的实际容量值来实现数据采集,但对于场地容量管理,则需要建立模型,通过公式和算法得到实际容量的数值。
      
      (4)定义每个容量设备的设定值。并不是所有从DCIM上获取的容量数据都是有效的,必须识别和修正每台设备的容量值。例如现代数据中心中被广泛使用的模块化UPS,设备的最大容量可能是250kVA,可以部署5个50kVA的模块。在数据中心投产的早期,根据当前的业务情况仅配置2个模块,那么这台UPS的设定标称容量应该是100kVA,而非设备铭牌上的250kVA。
      
      以每台机柜的容量管理为例,作者多年前进行早期的容量管理时,因为监控系统功能不像现在这样强大,采用的方法是每路供电的实际电流不超过断路器额定电流的50%这一简便方法。通过近年来运维实践观察,大多数IT设备的双电源并不是平均分配负载的,以前的模式不够精确,还会主观上导致一定容量的浪费。因此现在采用的电力资源的使用计算公式为:
      
      对于微模块或机房模块的制冷容量的计算公式为:
      
      3.容量管理的限制
      
      定义每一个容量组件的容量上限阈值。容量上限值可能是该容量组件设备的标称容量,也可能需要根据系统架构或设备的设定值进行计算。
      
      在容量上限阈值的基础上,可以建立两级容量预警限制,并采取相应的管理措施。场地容量的预警限制如表1所示:
      
      设备容量的预警限制根据设备本身的特性、系统架构和安全要求来设定,详见表2。
      
      4.容量管理的日常监控
      
      得益于DCIM技术的不断成熟,目前主流厂商的DCIM软件均可以自动实现绝大多数容量设备数据的采集和计算,甚至可以实现实时数据传递和展示。但目前容量管理比较薄弱的环节是在现场的配置变化后,相关的变化信息能否及时准确的传递到DCIM系统中。这需要实现:①完全在系统上实现的变更管理。②变更管理的数据自动与容量管理相关联。例如上文提到的模块化UPS,当增加新的容量模块后,这个变更的信息在系统中可以直接的关联到该UPS的容量设定值,自动进行更替。
      
      当然,这些管理活动也可以手动实现,那就需要设置有效的容量管理程序,并指定人员完成数据的收集、汇总、计算和分析。
      
      5.容量管理的利用率和趋势分析
      
      将每个监视数据的实际值与容量上限阈值的比值,即为容量利用率。数据中心管理者应定期观察容量利用率,并与相关的团队进行定期沟通,对业务发展和容量利用的匹配程度进行评估和预测。
      
      6.容量管理调优方案的定义和实施。
      
      一般地,当设备/系统负载率达到黄色预警值状态,如果数据中心还有未开启的容量设备(不包含设计冗余),则应立即申请开启。如没有未开启的容量设备,应立即申请设备扩容。当设备/系统负载率达到红色预警状态时,应立即申请开启冗余设备,并进行容量分析,提出负载转移的变更方案。
      
      容量管理调优应通过变更管理流程进行控制。需要注意的是,容量的调优与数据中心系统配置管理、能耗管理都相关,并非一项简单的工作,在进行容量调优的同时,也要兼顾考虑运行安全和节能降耗的要求。例如,现在不少的大型数据中心都采用变频冷水机组和变频风机的精密空调。根据诸多的项目实践,在数据中心机房精密空调皆采用EC变频风机水冷精密空调的情况下,随变频精密空调负载率下降,空调能耗有较大下降,这提示我们,保持变频精密空调在较低负载下运行,是一个有效的降低数据中心能耗的途径。举例来说,当机房的IT负荷在设计满负荷的50%情况下,从容量管理的角度看,我们安装并开启50%的空调(不含冗余)是最优的,而从运行能耗的角度看,我们安装并运行100%的空调,让每台空调保持在50%的负荷,
      
      可能是最节能的。因此我们建议容量调优的变更应作为重大变更进行管理,应由技术委员会或变更委员会经过综合讨论决策后实施。
      
      五、结论
      
      容量管理是数据中心基础设施运维管理中的一项重要工作,容量管理可以分为两个维度,一个维度是分析不同规模的数据机房的空间、电力、制冷的匹配性,另一个维度是要分析当前的各级容量设备组件的容量使用情况。通过有效的管理流程,确保当实际使用容量达到规定的限值后,启动扩容或优化程序,使得数据中心的资源与业务发展相匹配,最大化的降低数据中心的总拥有成本。
      
      参考文献
      
      [1]中国通信企业协会通信网络运营专业委员会.数据中心基础设施维护规程。北京:电子工业出版社,2016.11
      
      [2]钟景华等.中国数据中心运维管理指针。北京机械工业出版社,2016.11
      
      [3]陈东升.数据中心建设+2022年第1期
      
      作者简介
      
      吴甘星,现任中国建筑技术集团有限公司智能化部副总经理。研究生学历,北京大学工商管理硕士学位,高级工程师、UptimeATS专家。受聘为中国计算机用户协会数据中心分会青年专家、中体彩科技发展有限公司外聘专家、北京中认检测技术服务有限公司外聘专家。从事数据中心机房基础设施建设、运行管理20多年。
      
      编辑:Harris
      
      

  •