咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024984
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
数据中心的智能化运维
  • 未来的数据中心由于新技术的应用,引起市场需求的变化,业务模式需求也随着变化,将面临着两极分化的建设模式,即边缘计算模块化数据中心与核心骨干算力超大型数据中心产业园的建设。对于每一个数据中心的管理者,拥有一套适合企业发展的DCIM工具,是一件非常急迫的事情,也是一件需要长期投入建设的事情。
  • 随着大数据、云计算、物联网、边缘计算、5g等新兴技术的兴起与成熟,对于数据中心的需求也越加强劲。未来的数据中心由于新技术的应用,引起市场需求的变化,业务模式需求也随着变化,将面临着两极分化的建设模式,即【边缘计算】模块化数据中心与【核心骨干算力】超大型数据中心产业园的建设。对于每一个数据中心的管理者,拥有一套适合企业发展的DCIM工具,是一件非常急迫的事情,也是一件需要长期投入建设的事情。
      
      话题谈到这里大家或许会认为我们今天要谈的是DCIM,然而个人认为DCIM已经被数据中心的业主抛弃,失去存在的价值。
      
      当下最该思考的一个问题:如何打造一个辅助数据中心全面管理数字化的综合应用平台呢?数据中心管理辅助平台:DCAP【datacenter assistant platform】,为写文需求暂且这么定义,大家仁者见仁,智者见智。
      
      1 当下的DCIM犹如“鸡肋”,为何这么说?
      
      (1)认知
      
      ①DCIM的含义:DCIM是一个平台化的软件工具,主要是管理IT(基础)设施层面,与场地基础设施层面(场地层面),通过工单系统,贯通整个IT运维(包含监控)流程与场地基础设施运维(包含监控)流程。
      
      ②451观点:数据中心基础设施系统通过持续收集和管理数据中心的资产、资源以及各种设备的运行状态,然后通过分析、整合提炼成有用的数据,从而帮助数据中心管理者管理数据中心并优化性能。
      
      ③高德纳观点:数据中心基础设施管理
      
      (DCIM)工具监控、管理和控制数据中心所有IT相关设备(比如服务器、存储和交换机)和关键基础设施相关设备(比如PDU和精密空调)的使用情况以及能耗水平。
      
      (2)“鸡肋”的根源
      
      市场主流销售的DCIM产品、厂商介绍的解决方案,大多数都是解决方案产品化产物,对于很多客户真实需求满足性有差距,都需要不同程度的二次开发。而且多数的功能在应用体验和实际操作中很不理想,过于繁杂和炫酷,无实际应用功能,呈现大量的无价值数据给运维管理人员。即使和供货商签订了关于二次开发的相关服务合同,但是供应商的项目实施能力和业主方之间的不明确的功能需求难以平衡,导致矛盾不断恶化,同时产品是有利润空间的,但是供应商二次开发存在需求的评估、技术难点的分析、产品的理解、业务应用的理解等不同方面的影响,造成成本很难评估,也造成厂商利润很难衡量,存在很大的不确定性。
      
      最终的结果就不言而喻了,这也是现在供应商的难题,同时也是数据中心运维管理的痛点,花钱买了一个冤大头(集团公司高层管理因为有了所谓的管理工具,而不断的要求压缩人员编制和成本)。
      
      (3)离开价值区,失去意义
      
      ①功能不全,定义不符:缺乏IT管理,运维采用表格线下手工录入;缺乏管理流程功能;
      
      ②喧宾夺主,过渡炫酷:长期运维值班,ECC强光和炫酷的界面易导致疲劳;
      
      ③数据量大,多而无用:单台设备数据上行大,缺乏有效的信息;数据未进行有效的分层应用;
      
      ④3D空间管理,应用和需求不符:3D模型缺乏基础设施唯一标牌信息,无法实施自动化基础设施资产盘点,仅仅是空间呈现功能;
      
      ⑤数据周期不同步,失去时效性:电力后平台和BA系统,以及DCIM不同步,事件完整追溯性缺失,故障根本原因分析缺乏暂态分析记录;
      
      ⑥孤岛运行,缺乏管理要素:厂商的市场方案型产品,缺乏对外管理流程接口功能,失去辅助数据中心运维管理体系和个性化表格的需求功能;
      
      2 与其二次开发,不如重新定义需求
      
      ①回归出生,定义需求
      
      关于数据中心管理辅助平台:DCAP(datacenter assistant platform)的看法是,优先满足运维管理的需求,运维管理为SLA服务质量服务,所有的基础设施型的功能和投入都应为数据中心的安全可靠持续运营的目标服务。数据中心运维管理工作基本工作职能和目标见表1。
      
      在整个数据中心运维管理工作中,软件和物联网技术成为有效进行管理的基础型的硬件投资,我国数据中心虽然近几年发展迅猛,但是技术管理人员缺乏和优质的有经验的管理人员都十分匮乏。
      
      在我们现在大多数数据中心运维管理中都存在着一个严重的管理问题:就是纸质化的管理流程都还没有进行有效的闭环管理验证,就开始盲目的追求智能化运维的实施,导致目的和流程无非有效的提出和实施,无论是前序的DCIM二次开发还是数据中心管理辅助平台DCAP,在一个项目进行应用实施的前提就是运维管理体系和流程的置入,并结合现场项目的基本特性进行有效的配合和部署工作,这些基础条件的具备是部署成功的必要条件。
      
      (2)断骨重塑,简化优化
      
      DCIM的架构缺陷主要有:数据未进行有效的分层和清洗,无数据中心单个项目的数据架构关联关系,缺乏有效的结论型信息。图1为运维管理开发需求。
      
      DCIM现有的功能只是数据中心管理辅助平台DCAP的底层数据抓起功能,要形成数据中心管理辅助平台DCAP的功能,需要对数据库进行有效的备份,于此同时通过防火墙和加密网络进行对接管理功能模块。图2为基本数据采集和数据清洗。
      
      可扩展的应用层是指由相对独立的基于平台的功能模块集合,他们可能运行在平台之上也可能以微服务的形式存在,模块本身也可能由模块组成,多个或独立的模块组成产品的功能,松耦合的模块设计是产品灵活性、可扩展性的重要依托,这样客户在新增功能,变更功能都不会对平台和其他功能带来影响,对于厂商,能为不同的客户快速部署具有不同功能的产品。
      
      数据中心管理辅助平台DCAP的功能必须具备的有:外网登陆权限管理,市场CRM(客户关系管理)、客户响应服务管理、运营财务管理、电力监控、BA运行策略管理、IT资源使用、工作负载管理、维护管理、工单系统、财务规划、容量规划(3)自动排单,通知到负责人当基础设施异常报故障时,应该自动报告,并主动通知值班人员进行复查,确保故障的第一值班人员进行确认。当确认故障后,进行排单下发工作,由于排单后工单需要进行纸质操作记录流程,移动终端设备能够深入管理实施的细节,并记录和及时的信息传递。自动排单如图3所示。
      
      移动终端对现场实际复核工作进行拍照留底,从而达到各个实施环节和步骤有据可查,数据和操作确认人员信息保持同步,确保数据中心整个运维管理工作制度和体系实施到位,实现管理人员的信息同步,落实到细节管控中去。
      
      (4)互联网思维,设施运维社区
      
      身处互联网行业,然而数据中心管理PAAS并未继承互联网的开放和社区开发文化,通过社区文化,将数据中心基础设施运维管理的从业人员聚集在一起,通过开放的互联网环境来实现需求和开发的互动过程,减少不合应用场景的开放需求,提高应用的实际落地性。
      
      3 结束语
      
      随着更多的网络和计算朝向虚拟化前进以及更加灵活弹性,以实现最大的灵活性和效率。数据中心管理辅助平台DCAP系统是一套集“集中化运维、一体化管理、智能化分析、流程化控制”等功能于一体的数据中心管理支撑系统,可最大程度降低人工干预、排除人为失误。智能分析预测将故障解决在发生之前,在安全、稳定的前提下,减少运维人员和维护成本,优化资源管理,提升运维效率,为企业带来大幅的效率提升。底层数据中心的物理资源(电力、冷却、空间)的供应也必须与IT需求和资源紧密结合,并试着实现相应的自动化,进一步实现智能化运维。
      
      作者简介
      
      李建利,广东优世联合控股集团股份有限公司数据中心高级运维经理,武汉大学硕士研究生,IDC资深电气工程师。

         编辑:Harris

  •