咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024984
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
借助AI提高数据中心的可用性和效率
  • 当前,机器学习为数据中心运营商们提供了更好的散热、功耗和性能处理能力。

      
      当前,机器学习为数据中心运营商们提供了更好的散热、功耗和性能处理能力。
      随着当下的IT企业组织纷纷开始大规模的积极采用经过了大型数据中心运营商和托管服务提供商们试用和测试过的机器学习技术,AI人工智能将在数据中心运营过程中扮演越来越重要的角色。
      今天,IT企业组织的混合计算环境通常是由跨企业内部部署的数据中心、云服务和托管站点以及边缘计算部署的。相当一部分的企业组织已然发现:传统的数据中心运营管理方法并不是最优的。而通过机器学习来使用人工智能技术,则可以帮助他们更好的简化对于复杂的计算设施的管理。
      目前,数据中心业界对于AI技术的采用主要是围绕机器学习来监控和自动化设施组件的管理,如电力和配电元件、冷却基础设施、机架系统和物理安全。
      在数据中心设施内部,越来越多的传感器正在从各种设备:包括备用电源(UPS)、配电设备、交换机设备和冷却设施中收集相关的数据信息。有关这些设备及其运营环境的数据将通过机器学习算法进行分析。例如,借助这些算法,企业可以详细的了解数据中心的性能和容量,并确定采取适当的响应措施(诸如是否需要更改设置或发送警报)。而随着条件的变化,机器学习系统也将从变化中进一步的学习——其本质上是经过自我调整而进行训练,而不是依靠特定的编程指令来执行相关的任务。
      其目标是使得企业数据中心运营管理人员们能够提高设施的可靠性和效率,并有可能使得这些设施得以能够更加自主地运行。但是,获取数据信息并不是一项简单的任务。
      其基准要求是收集并分析来自主要组件的实时数据,施耐德电气数据中心全球解决方案高级总监Steve Carlini表示说。这意味着需要收集分析来自企业数据中心的冷水机组、冷却塔、空气处理机、风机等等的数据信息。在IT设备方面,这意味着需要收集诸如服务器利用率、操作运行温度和功耗等数据指标。
      “对于数据中心相关设施的测量并不是一件容易的事,”Carlini说。“如果您企业数据中心想要尝试采用人工智能的话,那么将需要从数据中心的大量连接点处收集用于数据中心供电和散热的相关数据信息。”
      IT专业人员习惯于设备监控和实时警报,但对于数据中心内部基础设施方面并非如此。“人们对于IT设备警报通知的预期将需要是即时性的。但在企业数据中心的电力系统上,这不是即时性的,这可以说是两个不同的世界。”Carlini说。
      仅仅在过去的十年左右的时间里,第一批数据中心才开始完全装备了相关的仪器,并使用这些仪表来监控电力和制冷。而在存在这些测量仪器的领域,实施标准化是较困难的:数据中心运营商们依赖于对多种通信协议的楼宇管理系统的采用——从Modbus和BACnet到LON works和Niagara,都必须满足连接到不共享数据的设备或不能通过远程控制操作共享数据的设备。“在动力传动控制系统和冷却领域,TCP/IP,以太网连接等这些类型的连接是闻所未闻的。”Carlini说。
      好消息是:数据中心的监控正朝着高级分析和机器学习所需的深度方向发展。“服务提供商和托管服务提供商们一直非常擅长在机架级别实施监控,并同时监控能源的使用情况。企业正在开始部署,而具体的部署情况则需要取决于数据中心的规模。”Carlini说。
      机器学习使数据中心保持冷却
      在2016年,由于其数据中心电力系统发生故障导致达美航空停运。在三天的时间内,该航空公司共计约有2000次航班停飞,造成航空公司损失高达1.5亿美元。而这正是采用基于机器学习的自动化所可能避免发生的情况。由于数据中心测量技术的进步以及云中数据池的出现,智能系统有可能以人工手动流程所无法发现的方式发现数据中心运行中的漏洞,并提高效率。
      由机器学习所驱动的智能化的一个简单例子便是基于状态的维护,应用于数据中心中的消耗品,例如冷却过滤器。Carlini表示说,通过采用多个过滤器监测空气的流量情况,智能系统可以检测出一些过滤器是否比其他过滤器发生了更多的堵塞情况,然后将空气导向堵塞较少的单元,直到需要更换所有过滤器为止。
      另一个例子是监控UPS系统中电池的运行温度和放电情况。智能系统可识别在较热环境中运行且可能比其他系统更频繁运行的UPS系统,然后将其指定为备用UPS而不是主系统。“这些监控系统能够为数据中心操作运营人员执行一些思考。这些工作可以人工手动完成的,但机器也可以做到。Carlini说。
      将这方面再次提升一个台阶的是:动态冷却散热优化,这是当今数据中心机器学习最常见的例子之一,特别是在大型数据中心运营商和主机托管提供商中。
      通过动态冷却优化,数据中心管理运营人员们可以根据环境条件监控和控制基础设施的冷却。当设备迁移或计算流量激增时,数据中心建筑物内的热负荷也会发生变化。动态调整冷却输出以转移热负荷可帮助消除不必要的制冷量,并降低运营成本。
      来自市场调研机构451 Research的数据中心技术和生态高效IT渠道研究总监Rhonda Ascierto说,托管服务提供商是采用动态冷却优化解决方案的大用户。“机器学习对数据中心业界的人们来说并不陌生,”Ascierto说。“很长一段时间内,人们都试图根据容量和需求改善数据中心的散热,而机器学习则可以让你企业实时做到这一点。”
      Vigilent公司是动态冷却优化领域的领军企业。其技术可以优化数据中心设施的气流,自动发现并消除热点。Vigilent公司的创始人、总裁兼首席技术官Cliff Federspiel说,数据中心运营商们倾向于运行比他们实际需要更多的冷却设备。“这通常会产生可接受的温度分布,但其成本非常高。”
      如果数据中心有热点,运营管理人员典型的反应是增加更多的冷却容量能力。实际上,较高的空气流通速度会产生压力差,干扰穿过设备的空气流动或妨碍热空气返回到冷却设备。例如,即使这不是直觉,但降低风扇速度可能更有效。
      Vigilent公司的基于机器学习的技术可以帮助数据中心的运营管理人员了解哪些气流设置可以优化相关的散热环境。该公司表示,正好在需要的地方提供适当的冷却量,通常能够带来冷却能耗降低40%。
      除了自动化冷却系统之外,Vigilent公司的软件还为企业客户提供相关的分析工具来对其设施进行运营决策的制定。
      Federspiel说:“我们的客户越来越感兴趣使用这些数据来帮助管理他们的资本支出、他们的容量规划和可靠性计划。这为数据中心内的大量新型数据相关的决策创造了机会。”
      AI使现有工作流程更优化
      展望未来,数据中心运营商们正在努力将动态制冷优化的成功扩展到其他领域。一般来说,对于机器学习运用成熟的领域是一个需要重复性的工作的逐步熟悉的过程。
      Ascierto表示说:“新的基于机器学习的数据中心管理方法很可能会应用于现有业务流程,因为当您企业彻底了解了业务问题和规则时,机器学习的采用效果将会达到最佳。”
      企业当然有其现有的监控工具。数据中心基础设施管理(DCIM)软件有相当多的类别,均可以提供对数据中心资产、相互依赖性、性能和容量的可视化。DCIM软件具有远程设备监控,电力和环境监控,IT资产管理,数据管理和报告等功能。企业数据中心应该使用DCIM软件来简化容量规划和资源分配,并确保尽可能高效地使用电力,设备和占地面积。
      “如果你企业有一套基本的监控和资产管理方案,你的预测能力将大大提高,”Ascierto说。“人们今天正在借助他们所收集的数据来实现这一点。”
      而将企业所收集的外部数据信息添加到DCIM组合中。这就是机器学习发挥关键作用的地方。
      数据中心管理即服务或DMaaS是基于DCIM软件的服务。但它不仅仅是一个SaaS交付版本的DCIM软件。DMaaS进一步收集数据,汇总来自数十个数据中心的设备和设施的数据信息。然后将这些数据匿名化,汇总,并使用机器学习进行大规模的分析。
      在DMaaS市场上,两家早期的参与领军企业分别是施耐德电气和伊顿故事。这两家供应商都从他们各自在数据中心领域所积累的多年的经验中挖掘出大量的数据信息,其中包括设计和构建数据中心、楼宇管理、配电以及电力和制冷服务的数据信息。
      “施耐德和伊顿故事正在做的工作将为数据中心业界带来巨大而重大的变化,那就是拥有众多客户数据的数据湖。这对于数据中心部门来说非常有益。”Ascierto说。
      通过广泛的操作环境获取这类数据,使企业能够将自己的数据中心性能与全球性的基准进行比较。例如,施耐德的DMaaS产品名为Eco StruxureIT,其与包含了来自500多家客户和220万个传感器的基准数据的数据湖相关联。
      “您不仅可以使用自己企业所收集的数据信息来理解和解决这些问题。而且,您还可以使用数千个其他设施的数据,其中包括许多与您企业数据中心的设施非常相似的数据。这是最大的区别。”Ascierto说。
      例如,预测性和预防性维护可从更深层次的智能化实施中受益。Ascierto说:“基于其他机器,运行在类似的环境中,具有相似的利用率,相似的使用年限,类似的组件,AI预测会出现某些问题。”
      情景规划是另一个可以从机器学习中获益的过程。例如,企业组织今天进行情景规划,估算设备的迁移对于功耗的影响。没有机器学习,这也可以实现,但是能够将机器学习数据,历史数据应用于特定配置和不同设计则能够更好的确定特定配置或设计结果。”Ascierto说。
      风险分析和风险缓解计划也将受益于更深入的分析。Ascierto说:“数据中心的操作环境非常复杂,今天的数据中心规模如此之大,以至于依赖人工真的很难找到很好的风险管理模式,但对于机器来说这是相当微不足道的。”
      未来,机器学习在数据中心的广泛应用将为企业在决定运行某些工作负载的位置时提供更多洞察见解。“这对企业组织来说非常有价值,特别是如果他们正在围绕最佳执行场所制定决策时。”Ascierto说。“例如:某款应用程序是否应该在这个数据中心运行呢?或者企业是否应该使用托管数据中心?”
      展望未来,智能系统可承担更复杂的任务,使数据中心能够根据运行效率最高或最可靠的位置动态调整工作负载。Carlini说:“精密的人工智能对未来还是有一些影响的。”
      与此同时,对于刚开始采用人工智能的企业而言,他强调了亟待让企业的设施和IT团队进行更多充分合作的重要性。
      Carlini说:“考虑数据中心的所有领域:电源管理、冷却和IT服务器机房都是非常重要的。该行业正在努力确保不同领域的技术之间的互操作性的更好的实现。企业需要在人员配置方面也这样做。
      “从技术上讲,这方面将变得越来越容易,但在组织方面,企业仍然存在着一些孤岛筒仓。”他说。

    编辑:Andly

    当前,机器学习为数据中心运营商们提供了更好的散热、功耗和性能处理能力。