咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024984
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
我的心得:数据中心运维&管理
  • 2016年中国数据中心行业投资掀起了IDC基础设施建设狂潮,经过两年的建设周期,数据中心基础设施运维和管理工作紧跟其后,拉开了数据中心运维和管理人才迫切需求的大幕。然而行业发展周期特性,运维和管理面临着和项目建设管理一样的专业人才市场滞后性难题,特别是大型IDC的运维和管理经验方面的人才更是一将难求。
  • 如何做好一名大型IDC运维&管理者?由于此话题范围较广,视角不一,所以本人将就此话题依据个人经验进行分享,角度为业主方数据中心运维经理。
      
      1 成也组织败也组织--数据中心运维管理的组织体系和管理措施
      
      典型的组织架构形式如图1所示。
      
      组织是企业运行经营的主题,良好的组织架构和管理职责分工是运营的基本条件。数据中心运维&管理工作也不例外,而且良好的组织架构对于数据中心安全可靠的运行起着决定性的作用,当数据中心出现各种各样的问题以及严重的事故发生时,组织是事故的首要分析和考虑的因素。
      
      目前市场上的第三方IDC服务企业,多数和运营商在数据中心运维&管理中合营,各方有着各自的要求和标准,如何有效地沟通和实施组织架构,形成针对不同需求方合理的组织架构是运维&管理组织体系的一个重要话题,由于涉及企业和运营商的组织体系这里就不做展开讨论。
      
      2 厉兵秣马粮草先行财务预算和资金支持
      
      厉兵秣马:运维&管理团队人才建设,作为数据中心运维的专业工程师管理人才,对整个数据中心的系统架构以及本专业的知识体系必须有一个清晰的认识,良好的专业知识对于风险识别和风险处理以及未来节能降耗起着重要的决定性的作用。
      
      运维&管理年度财务预算和备用金等财务计划的提出,对于数据中心运维&管理来说,既是管理因素的综合考虑也是企业管理成本控制的目标。如何合理地制定部门的年度财务计划是运维&管理者一个重要的工作内容。
      
      年度财务计划基本包括以下几个方面的内容:运营管理成本(管理团队人员薪资和福利),运维&管理工具清单和预算,办公和日常开支预算;应急备件和燃油更换预算。
      
      年备用金基本包括以下几个方面的内容:应急事件发生响应备用金、检修维护月度备用金、人员抢救备用金。
      
      以上财务预算各个公司财务制度不同,运维&管理的预算内容也有所不同,可以提供给大家作为参考和理解。图2给出了年度财务预算和备用金的主要内容。
      
      “巧妇难为无米之炊”,作为运维&管理部门,向集团公司协调部门运行所需资金层面的支持,保障管理运营和风险管控的最为基本的要素,同时也是部门管理的成本管控计划,体现了管理者对整个年度周期的运营管理的全面思考。
      
      3 将帅之才保姆之心̶--管理者应才德兼备和强烈的责任心
      
      运维&管理目标一定是清晰、明确的。

       目标设置要对工作项目、衡量标准、达成措施、完成期限以及资源进行说明。模棱两可的目标无法在干系人与成员之间有效传递,不明确的目标也常常导致团队在运维&管理实施过程当中迷失方向。很多管理者认为自己的目标实现了,可是领导还是觉得距目标实现有一定距离,这就是领导与团队对目标认知产生的分歧,原因就在于没有一个明确的数据。
      
      一名合格的数据中心运维经理,工作中,应该对于团队管理人员制定一个明确的年度目标、严格要求、分解细化、落实到人、权责分明;工作中严格要求、一丝不苟,对于工作中的大意和疏忽应立即采取管理措施制止,防微杜渐。
      
      管理中,由于数据中心运维&管理工作岗位的特殊性,人员压力长时间的积累,如果无法有效地释放,将会严重影响管理和值班人员的心理,对于管理来说就会积累形成一个不确定的风险因素,因此数据中心运维经理也需扮演一个人员“心理保姆”的角色,关注人员心理因素的表观现象,及时采取沟通或其他措施调整。
      
      4 质量管理风险管控̶̶“一只鸭的领悟”
      
      (1)竹外桃花三两枝春江水暖鸭先知
      
      作为数据中心运维经理,切不可纸上谈兵,到达现场认真核实情况,准确如实全面地反馈问题,需要管理团队多下现场、现场确认、弄清楚发生的具体情况后,有组织和计划进行问题的解决;不可传送未经自己确认的信息给管理者,从而造成管理上的无效付出。
      
      专业工程师管理人员必须现场发现现场处理,做一只下水的“鸭子”。
      
      (2)大水漫不过鸭子背
      
      数据中心的高可靠性要求,对于所有参与数据中心运维&管理工作的人员来说,提出了更高的要求,凡事要计划讨论后实施,方案方面必须做A/B两套方案,防止A方案在实施中出现无法预知和处理的事情而造成无法补救的局面。
      
      同时,应急柴油发电机组的热备状态、设备性能和状态的跟踪,无疑需要所有参与者做好充分的准备和预案,防患未然。同时也要求专业人员具备必要的专业技能和技巧,以及系统响应的流程,提升自己,做一只会游泳的“鸭子”。
      
      5 追其根源防患未然--5Why分析法在数据中心的应用
      
      如何有效地解决问题,首先需要了解产生此问题的因素和最根本因素;如何寻找根本原因?需要更加有效合理的工具方法,下面给大家介绍一下典型的5-Why分析法。
      
      (1)什么是5-Why(见图3)
      
      5-why的关键在于鼓励解决问题的人要努力避开主观或自负的假设和逻辑陷阱,从结果着手,沿着因果关系链条,顺藤摸瓜,直至找出原有问题的根本原因。
      
      (2)5-Why分析法基本步骤(见图4)
      
      (3)5-why在数据中心解决问题的案例
      
      ①步骤1:识别问题
      
      7×24h值班,采用热成像仪巡查发现电线有热点现象(见图5);
      
      ②步骤2:澄清问题
      
      动力设备配电装置中,电线在负载不高的情况下,电缆接线位置温度达到45.8℃,而且三相中,B相电缆头温度最高;
      
      ③步骤3:分解问题
      
      值班班组记录发现的异常现象,需要向班组长等相关人员汇报,运维管理人员进行判断并展开调查,将问题分解为小的、独立的元素;
      
      ④步骤4:查找原因要点(PoC)
      
      查找原因要点,查找此设备的验收和检修记录,查找历史有关信息和资料,确保是否有历史检修记录;
      
      独立因素:设备厂家供货,独立的责任主体。
      
      相干因素:
      
      ·变频器谐波因素;
      
      ·电线压接线耳接触面不足;
      
      ·电线安装固定螺丝松动;
      
      ·电线截面选型偏小。
      
      ⑤步骤5:把握问题的倾向
      
      问题倾向:
      
      ·电机容量和负载率;
      
      ·交流接触器产品质量问题;
      
      ·线缆选型偏小不合理;
      
      ·线缆接线不牢固。
      
      ⑥步骤6:识别并确认异常现象的直接原因(表1)
      
      ⑦步骤7:使用“5个为什么”调查方法来建立
      
      一个通向根本原因的原因/效果关系链(1-Why)问:为什么会产生局部热效应?答:因为接触不良原因产生局部热效应。
      
      (2-Why)问:为什么接触不良呢?
      
      答:·因为接触器接触不良导致发热造成热传递;
      
      ·接线耳和线缆压接不良;
      
      ·电缆和接线端子未紧固。
      
      (3-Why)问:为什么接触器接触不良/压接不良/未紧固?
      
      答:·因为接触器自身质量问题,触点接触不良导致温升;
      
      ·厂商生产工艺不良,导致温升;
      
      ·前次改造维修未紧固,导致温升。
      
      (4-Why)问:为什么接触器自身质量问题/厂商生产工艺不良/前次改造维修未紧固?
      
      答:·因为接触器自身质量问题,器件品质质量和口碑不佳;
      
      ·盘柜厂商生产接线工艺不良,厂商质量体系实施的不到位;
      
      ·前次改造维修未紧固,造成遗留诱发问题;
      
      (5-Why)问:为什么器件品质质量和口碑不佳/厂商质量管控不到位/造成遗留诱发问题呢?
      
      答:·商务采购未选用优质品牌的产品器件,器件规格不匹配;
      
      ·商务采购中未对供货商的质量检查和资质进行排查,未选择合格的供应商;
      
      ·运维&管理职能疏忽,管理不到位,未对前次施工改造维修验收;
      
      ⑧步骤8:采取明确的措施来处理问题(表2)
      
      经过连续五次不停地问“为什么”,对每个因素独立询问,找到问题的真正原因(交流接触器接触不良)和真正的解决方案(复核参数重新选择交流接触器)。由现象推其本质,因此找到永久性解决问题的方案,这就是5-Why。
      
      数据中心运维管理方对于每次的故障要寻根找到最终原因,依根本角度去解决问题,将问题彻底解决。
      
      6 持续优化节能降耗̶̶人才管理提升企业竞争力降低成本
      
      通过了解发现目前各个大型数据中心在设计和系统架构、设备采购、施工管理和验收等项目各个环节中遗留下来的问题,未能积极有效地处理,最终落到运维阶段。所以在运维管理工作中出现大量缺乏经验和考虑的遗留问题,同时企业在运维管理方面的重视程度也不足,最终就在行业内形成了“数据中心运维背锅侠”、“数据中心忍者神龟”等行业新名词。
      
      整个行业发展离不开行业人才基础的培养和发展,新兴行业的发展和竞争本质是人才竞争,企业长期成长性更是企业人才竞争能力的体现。
      
      数据中心运维中出现的各种问题都可以归结到专业人才的缺失因素,如:业主在进行项目立项时需求的明确性,由于缺乏专业人才而导致无法描述自己准确的需求,只能听从设计院的设计;设计院的成熟度也导致项目设计为能有效地实现业主投资的目的和运维实际情况的考虑因素;项目采购和施工过程中夹杂的各个各样的因素,而且无法进行有效地管控和专业的技术人才进行落实和验收,各种各样的施工质量和产品质量问题遗留给运维方;企业运维管理体系的完善也有待商榷,各个公司对运维的重视程度也导致运维管理体系运作的方式有着各式各样的特性,从而导致“无辜的”事故导致“无辜的”人员,也就是“背锅侠”的产生。
      
      当数据中心运维发生问题或事故时,各种因素的叠加效果导致较大型或是不可预控的事故的发生,所以运维管理方也要有理有据地对事故进行分析和归责。
      
      行业发展按照顺时针的自然方向发展,竞争力的企业在不断的完善自己反向的明确的主动的需求;能够提出合理明确的需求是企业竞争力的有力表现。人才管理提升企业竞争力,降低成本,推动自身在行业中的发展。
      
      总之,被动接受是一种无奈;明确+主动+需求才是运维&管理对IDC项目生命周期的全新的认知和理解。
      
      7 管理的“最后一公里”--̶̶目标制定和执行力落实(见图6)
      
      所谓执行,就是将计划落到实处,是一个实现目标的过程。
      
      运维&管理的计划和计划的执行是不可分割的,编制计划的目的就是使之得以落实,以实现目标,计划是执行的指南,明确了执行的路径。而执行就是落实计划。所以,执行是项目计划的一个内在组成部分。执行力是指运维&管理的管理组织落实计划的能力。执行力是可以提高的,也是可以度量的。
      
      企业培训资源80%用于20%的人员,现场运维值班人员和维修保养人员学习提升资源有限,需要管理层重视执行层面的质量提升,积极鼓励专业知识的补充和提升,并给予鼓励性奖励和学习资源的配置。
      
      8 结束语
      
      万里长征万里还,走上运维的道路,任重道远,各个运维管理的工作同事都应该理解和明白这份工作的特殊性和责任心,无需华丽的辞藻来修饰运维工作的神秘感,理想和客观的对待,企业和公司高层也应给予运维管理从业人员关怀和生活方面的支持。
      
      作者简介
      
      李建利,优世联合集团运维中心武汉运维管理经理,IDC资深电气工程师;具有丰富的行业经验和大型IDC项目能源架构设计能力;参与多个大型T3/T4等级IDC项目全生命周期工作,并担任重要角色。
      
      编辑:Harris
      
       "));

  •