咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024984
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
业务连续性管理在数据中心的应用现状
  • 数据中心的服务连续性管理也会随着数据中心服务能力成熟度要求的不断提高,而不断丰富其内涵。与之相关的咨询、培训服务也必将形成一个不断成长的技术服务市场。
  • 1 数据中心及其服务(业务)类型
      
      什么是数据中心?不同的标准对数据中心进行了不同的定义。例如:
      
       GB50174--2017《数据中心设计规范》对数据中心的定义为集中放置的电子信息设备提供运行环境的建筑场所,可以是一栋或几栋建筑物,也可以是一栋建筑物的一部分,包括主机房、辅助区、支持区和行政管理区等。
      
      SJ/T11564.4-2015《信息技术服务运行维护第4部分:数据中心规范》对数据中心的定义为以信息技术为支撑,实现应用集中处理和数据集中存放,提供数据的构建、交换、集成、共享等信息服务的基础环境。
      
      GB/T33136-2016《信息技术服务数据中心服务能力成熟度模型》中,对数据中心进行了如下定义:数据中心是由计算机场站(机房)、机房基础设施、信息系统硬件(物理和虚拟资源)、信息系统软件、信息资源(数据)和人员以及相应的规章制度组成的组织。
      
      此后又出台的国家标准中(例如GB/T32910.1-2017《数据中心资源利用第1部分:术语》、GB/T28827.4-2019《信息技术服务运行维护第4部分:数据中心服务要求》等)对数据中心的定义都是在GB/T33136的基础上进行定义的。GB/T33136中的定义是目前对数据中心比较权威和全面的定义。
      
      从这个定义中可以看出数据中心是一个组织,这个组织包括硬(场地、设施、系统、数据)、软(人及规章制度)两个部分,这构成了一个数据中心对外(其他组织)或者对内(上级组织或者其他部门)提供服务的必要基础。一个数据中心所能提供的服务就是这个数据中心的业务。数据中心所提供的服务是为了支持这个数据中心的客户(内部或者外部的,下同)业务,为了与客户的业务进行区分,数据中心的业务通常称为服务。因此本文中,将数据中心的业务连续性管理称为服务连续性管理。
      
      更进一步,于2020年3月1日正式实施的GB/T28827.4-2019《信息技术服务运行维护第4部分:数据中心服务要求》国家标准中,又进一步明确了数据中心的资源层次。如图1所示。
      
      数据中心通常有四种类型服务:
      
      I.基础设施服务:指数据中心的客户自行提供计算和存储资源,由数据中心提供机柜空间,提供基础环境和网络通信设施,这个环境内的服务器等由客户自己进行维护;
      
      II.基础架构服务:指数据中心为客户提供计算及存储资源,且提供配套的网络通信、基础环境设施,并对所负责的各类设施进行技术维护的服务;
      
      III.业务应用服务:指数据中心为客户提供应用系统稳定运行所需的所有相关资源和设施,包含应用系统、平台系统、计算及存储资源、网络通信设施和基础环境设施,并对所负责的各类设施进行技术维护的服务。有的数据中心还会基于海量数据提供商业智能和大数据服务;
      
      IV.增值服务:指数据中心为客户提供有效使用应用系统和基础架构服务的各类增值服务,如VPN开通、账户和权限开通、数据维护等。
      
      其中前三种服务逐级向下包含,并可以单独或者组合来提供,例如一个提供第III种服务的数据中心,其所包含的基础设施服务可以自己来提供,也可采购自其他提供第I种服务的数据中心。
      
      数据中心通常不会仅提供第IV种服务,该类服务通常用于补充前三种服务。
      
      从数据中心的组织范围来看,一个数据中心要提供上述一种或多种类型的服务,需要有信息科技管理部门来规划整个数据中心技术架构、需要有工程管理部门来建设数据中心基础设施、需要有软件开发部门来开发自研信息系统、需要有系统集成部门来整合各种资源部署各类系统、需要有运维部门来对所有这些设施、系统、架构进行运营维护。从数据中心“硬”的部分看,运维阶段是一个数据中心全生命周期中最长的阶段也是最主要的价值创造阶段;从数据中心“软”的部分看,数据中心是指这个运维部门,数据中心是一个运维组织。也有的数据中心除了是一个运维组织外,也包括前述一个或者多个其他的部门。
      
      2 第I类数据中心的服务连续性管理
      
      提供这类服务的数据中心主要包括两大类型。
      
      一类是以电信运营商的通信机房为基础发展起来的,曾经以提供通信带宽为主,机房机柜空间作为增值服务。发展到今天,IDC(互联网数据中心)已经成为运营商的主营业务之一。由于其自身的限制,这类数据中心所提供的网络通信设施通常仅局限于自身,其他运营商的通信资源曾经很难进入。
      
      另一类通常被称作第三方数据中心(用以区分用户自有数据中心和运营商数据中心)。这一类数据中心曾经以EDC(企业数据中心)为主,客户可以自选一家或者多家运营商的通信线路提供可靠冗余的网络连接。如今,许多数据中心自身也取得了ISP牌照,可以提供EDC/IDC服务。
      
      除此之外,还有少量客户自有数据中心在满足自身需要的情况下,利用富裕资源向社会客户或者同业客户提供此类数据中心服务。
      
      数据中心作为一个为客户业务提供支撑的技术支持组织,其服务连续性管理需求应以其所支撑的客户业务需求为基础。然而此类数据中心在建设之初并不知道自己的客户是谁,更不知道将会支持什么样的客户业务。
      
      因此这类数据中心往往依据自身的业务规划,大致确定服务客户群,参考国家标准(GB50174)或者国外标准(TIA942等)确定数据中心可用性目标和建设等级。例如按照TIA942中T4标准的建设的数据中心,其基础设施的可用性可以到99.995%,也就是说每3年允许服务中断的时间累计仅有79min。可用性管理与服务连续性管理是两个不同的管理领域,他们既不同又相互联系。按照可用性要求,参照有关标准建设的数据中心,为日后进行业务连续性管理提供了基础的技术条件。
      
      按照上述标准中较高等级建设的数据中心,其基础设施具备冗余和/或容错的能力,单点故障通常不会造成严重的业务中断。
      
      这类数据中心大多基于基础设施建设的具体情况,整理了在基础设施设计过程中涉及的灾难场景的应急操作规程,但仅限于操作层面。
      
      这类数据中心通常不会进行全面的风险评估,即使有一定的风险排查措施,也基本停留在设备设施系统层面,对人员、制度等内部风险、供应商、气象、治安、敌情、传染病、合规等外部风险基本没有识别。即使是设施系统层面,也多集中在配电和空调系统,对门禁、监控等弱电系统的风险,特别是对这些信息系统的信息安全风险识别
    不足。
      
      对于有限的识别出来的风险,这类数据中心所采取的处置措施通常也不到位。
      
      例如对于(双路)市电供应中断的这一灾难场景,在设计阶段已有所安排,例如设置了有足够发电能力的发电机(组)。但是,这些发电机(组)真的能够在这一灾难场景中发挥作用吗?现在已经有越来越多的数据中心开始对此有所重视,越来越多的数据中心在建设完成移交运营时会进行测试验证,会使用假负载对发电机的发电能力进行验证。但是测试验证通过,发电机就一定有能力接替市电供应吗?随着数据中心内部IT设备的不断增加,真实的负载情况不断变化,不仅负载的总功率会变化,
      
      负载的阻抗特性也会变化,都会与假负载有很大差异并且不断变化。在这种情况下发电机(组)还能长时间供电直到市电恢复吗?随着负载的变化,这些发电机组负载还均衡吗?……这些都需要在数据中心运行期间,进行不断验证。但是目前很少有数据中心会进行市电中断场景下的应急演练,即使进行应急演练,也是桌面或者模拟(空载)演练。敢于定期进行真实切换的带载演练的数据中心目前不超过一成。即使是进行真实的演练,也通常只关注在设施带载能力和人员操作能力上,为了确保不因演练而带来事故,事先会进行很多设施层面和人员层面的检查和准备工作,这就与真实的场景存在了很大差异。从预案层面,这类数据中心的BCP通常还只在EOP层面,不仅没有考虑通讯联络、指挥协调等需要,并且只考虑了应急处置单一需求,没有从业务连续的角度进行全面的考虑。例如还是市电中断的应急场景,现有的预案集中在如何启动发电机、如何倒闸、如何发电(可能是自动的,也可能需要人工干预)。但是一旦发电机带载成功就万事大吉了,在发电机带载这一场景下,很少有数据中心会事先考虑发电机长时间接替市电供电期间,我们的运维工作组织会发生哪些变化,需要采取哪些措施,如何确保燃料供应等,并把这一考虑完整写入预案。一部分做的比较好的数据中心会有市电恢复后恢复预案。
      
      从社会层面看,目前社会上对数据中心的业务连续性关注有限。
      
      再比如,在数据中心供应商层面,比如油料供应商,大家都知道,数据中心为确保在市电供应中断的情况下,能够持续有效地为IT设备供电,都配置了发电机,也都储备了燃油。但是燃油储备有限,为了确保长时间发电,必须建立燃油补充机制。数据中心的燃油为确保随时可用,通常要求标号较低,例如北京地区,通常要求-20号柴油。但是当数据中心寻找供应商时,中石化、中石油等均不提供支持,仅可以找代理商,而所有的代理商均只能提供应季的燃油,也就是说夏季均不提供-20号柴油。即使不限标号,所有的代理商也均不会承诺在应急供油的情况下,几个小时可以送达。这就为数据中心的应急处置带来不少风险和变数。随着数据中心行业的不断发展,目前市场上出现了一些以数据中心应急供油为主业的公司,但是我们看看他们的应急供油合同就会发现问题。本来我们只有在双路市电长时间中断的情况下,才会考虑应急供油,而在我们国家供电比较稳定的现实下,能想到的可能发生双路市电长时间中断的场景(例如前些年南方暴雪导致供电中断、深圳强台风导致市电中断等场景)均被列入不可抗力,而不承诺应急供油时效。
      
      再例如,消防法律法规和强标层面,当一个数据中心,特别是一个承载着关系国计民生的关键业务的数据中心,如果其中部分区域发生了火灾,如果按照目前的要求断电、关闭空调等,会使损失进一步扩大。因此在当前法律法规层面,应对数据中心的情况进行区别考虑。
      
      在消防设施层面,当前温感和烟感报警系统是在数据中心广泛使用的火灾探测系统,但是在数据中心,特别核心机房,空气循环次数达到30次/小时,甚至更高,在这种大气流的情况下,常规的烟感探测器会失去效用。因此在防灾设施层面,也需要对数据中心这一特殊实体进行专门研究。
      
      在政府服务层面,2020年2月11日国家能源局综合司关于印发2020年电力安全监管重点任务的通知中提出:加强应急能力建设。推进地市级政府大面积停电事件应急预案编制和演练,提高预案编制完成率,各省级政府至少开展一次地市级应急演练。建立国家级电力应急培训演练基地,组建国家级电力应急抢修救援队伍和专家库。出台《电力企业应急能力建设评估管理办法》,督促企业完善应急预案体系,加强评估监管。在通知中只考虑电力企业应急能力和应急抢修能力建设是不够的,如果能够站在全社会角度,考虑承载关键业务的重点用电单位(比如数据中心)的业务连续性需要,统一协调应急替代的能源的紧急调度供应(比如应急供油),将会更有效地支撑数据中心服务连续性,进而减低全社会的系统性风险,否则,在全市大停电的背景下,各数据中心只能是大难来临各显神通,就好像这次新冠疫情初期的口罩供应。
      
      3 第II类数据中心的服务连续性管理
      
      在当前技术环境下,这一类数据中心通常提供以云计算技术为基础的存储与计算能力。在云计算模式下,可用性管理、容量管理、连续性管理这些以前需要主要在规划阶段考虑的问题,现在更加向服务运维阶段移动。这些服务交付的管理活动更加具有了服务支持的特点。
      
      但是也正是由于云计算技术本身的特点和优势,使得技术人员更加依赖云计算技术本身,忽略了服务连续性管理工作和其他基础设施的技术和管理,从而导致最近一系列云计算数据中心事故频出。为了迎合某些需求,新版GB50174数据中心设计规范,还专门针对云计算等技术的出现,降低了第一类数据中心各级别的设计标准。
      
      一部分这一类数据中心会参照GB17859计算机信息系统安全保护等级划分准则强制性国家标准中的某一个级别的要求,建立起有限的信息安全风险监测机制,但是没有进行过全面服务连续性风险评估与影响分析。而没有参照GB17859执行的这一类数据中心,对于风险的管理大多还都在技术人员的主观意识中,没有形成机制。对风险识别的不足导致没有充分的预防措施与应对的预案。因此在最近的多次云计算数据中心事故发生后,对这种灾难事件的应对显得没有章法。
      
      云计算等技术的出现和普及,从技术上进一步增强了存储与计算资源的可用性水平,降低了连续性事件发生的概率,出现了技术代替管理的趋势,在连续性管理水平上反而出现了一定程度的下降。
      
      4 第III类数据中心的服务连续性管理
      
      这类数据中心通常是组织为了支持自身的业务而设立的,例如政府部门数据中心、各大银行数据中心、其他企业自有数据中心等。
      
      其中金融行业的业务对IT依赖最强,IT技术应用最成熟、数据中心规模更大,管理也更成熟。
      
      本文就以金融行业数据中心为例,介绍服务连续性管理在这类数据中心落地的现状。
      
      人民银行和银监会等行业监管机构对银行业的业务连续性非常重视,并有多项监管举措促使银行业金融机构业务连续,特别是要防止系统性业务风险。有了监管机构的明确要求,银行业金融机构普遍开展了业务连续性管理工作,有些中小银行因自身能力不足还专门请专业的咨询公司购买并使用专业的业务连续性管理系统软件,对自身的业务连续性管理目标进行梳理、评估风险并进行业务影响分析、制定预案、定期组织演练等。银行对自身业务连续性足够重视,而作为支撑银行业务的重要部门,数据中心,又是如何看待自己的服务连续性的呢?通过走访大型国有银行、股份制商业银行、城市商业银行数据中心以及其他类型的金融行业数据中心,发现这些银行数据中心普遍没有开展自身服务连续性管理工作,基本上是继承了银行(上级组织)在业务连续性管理中分配给数据中心的具体任务。
      
      例如,目前银行为避免数据中心服务中断带来的业务中断风险,其信息科技部门普遍采用“两地三中心”的灾备方案,部署自己生产系统和同城与异地灾备系统。这套系统交给数据中心运维后,少数作的好的数据中心会按照要求定期组织演练,并且演练的目标是生产系统发生突发中断事件后,系统可以按照预案切换到对应的灾备系统运行,接管生产系统业务。而大多数银行数据中心会按照监管要求定期组织演练,每次演练作为一个独立的项目来看待,会做很多预案外的准备工作,目的是确保演练项目本身的成功,而不是确保生产系统真的发生突发中断事件后,灾备系统可以接替生产任务。而这些数据中心往往在变更与配置管理等方面与连续性管理脱节,真的发生中断事件后,灾备系统很难及时接管生产任务。
      
      但是即使做得好的数据中心,这种两地三中心容灾演练也基本上是这些数据中心自认为的连续性管理的全部。
      
      要谈数据中心服务连续性管理,那么首先要谈数据中心的服务是什么。以银行数据中心为例,银行数据中心是一个运维部门。数据中心的服务应该包括两部分:
      
      首先是系统的正常运维工作,确保生产系统和灾备系统安全可用,确保灾备系统与生产系统同步策略被正常执行。
      
      其次是发生银行业务中断事件时,分配给数据中心的系统切换任务可以按预案执行到位。也就是说,灾备切换是数据中心的服务内容之一。
      
      关于如何确保数据中心的这两部分服务的连续,数据中心考虑的并不周到。同第II类数据中心类似,这类数据中心通常也仅会参照GB17859计算机信息系统安全保护等级划分准则强制性国家标准中的某一个级别的要求,建立起有限的信息安全风险监测机制,但是没有进行全面服务连续性风险评估与影响分析。即使有一定的风险排查措施,也基本停留在信息系统、设备设施系统层面,对人员、制度等内部风险、供应商、气象、治安、敌情、传染病、合规等外部风险基本没有识别。并且由于这类数据中心承载了业务,其服务内容除了业务系统还包括前两类数据中心的服务内容,但是对前两类数据中心的服务内容却重视不够。例如对于发电机应急供电的演练,这类数据中心基本上不会进行。并且发电机组这样的数据中心关键基础设施通常不是由数据中心自身来维护,而是由物业或者行政部门来负责。数据中心基本上不会要求这些责任部门配合数据中心服务连续性管理要求来组织跨组织的演练来验证BCP。
      
      很多这类数据中心还忽视了业务连续性管理的信息安全方面。这类数据中心往往把数据中心的各业务系统和技术系统按照业务依赖程度和业务重要性进行分级,并且依据不同的级别采取不同的业务连续性措施。例如与业务直接相关的系统,定义的级别较高,设置比较短的RTO(Recovery Time Objective回复时间目标)\RPO(Recovery Point Objective恢复时间点目标),建立不同层次的灾备系统;而与业务不直接相关的技术系统如与信息安全相关的各系统,定义的级别很低,不建立灾备系统,RTO与RPO定义很长,例如7天内恢复即可。不仅如此,当发生灾难性事件,启用灾备系统时,这个灾备系统不仅没有信息安全相关系统的保护,很多数据中心连在这个时候,灾备系统的最低安全需求也没有分析,更谈不上采取有效措施实施保护。
      
      5 数据中心服务连续性管理展望
      
      从前面的分析可以看出,无论哪一种业务的数据中心,目前行业里普遍存在重建设轻管理和重技术轻管理的现状,特别是随着新技术的逐步普及,出现了技术替代管理的趋势。而管理方面,连续性管理是数据中心类组织中最重要的管理领域之一。
      
      为了应对本次新冠疫情,在很多数据中心管理者都亲身经历过非典疫情的大背景下,大多数据中心仍没有制定处置疫情的业务连续性计划,只是被动的按照属地政府部门和疾控部门的要求采取必要的防控措施,但是很少有数据中心能够多想一步,与属地相关部门密切互动,及时了解和掌握当地人员和场所隔离的具体措施和要求,并在此基础上提前制定和落实当本数据中心发生需要隔离人员或场所时,如何保持业务连续的预案。
      
      通过走访各类不同数据中心和分析各类数据中心事故及其处置情况,我们可以发现:数据中心类组织,对于自身业务连续性管理认知不足、能力不足。需要加强风险因素的识别能力、风险评估与业务影响分析能力、业务连续性计划与应急预案编制实施能力。
      
      国家标准化管理部门和行业监管机构,曾经陆续制定了相关的标准和监管指引,例如国家标准《信息安全技术信息系统灾难恢复规范》GB/T20988-2007、保监会《保险业信息系统灾难恢复管理指引》、民航业《民用航空重要信息系统灾难备份与恢复管理规范》、银监会《商业银行信息科技风险管理指引》。这些标准和指引在某些方面为数据中心服务连续性管理提供了有力的支持。但是也正是由于数据中心类组织,对于自身业务连续性管理认知不足,这些标准和规范在为数据中心提供服务连续性的建设指导的同时,也使很多数据中心错误的认为数据中心的服务连续性管理就是灾备。
      
      2014年1月,国家标准GB/T30146《公共安全业务连续性管理体系要求》正式发布,并于2014年5月正式实施,这为数据中心策划、建立、实施、运行、监视、评审、维护和改进一个文件化的连续性管理体系指明了方向。2019年12月《信息技术服务数据中心业务连续性等级评价准则》正式纳入国家标准计划,进入国家标准起草阶段。
      
      越来越多的数据中心会从这些标准中意识到自身的业务就是服务,连续性管理远比灾备范围更广。在国家标准GB/T33136-2016《信息技术服务数据中心服务能力成熟度模型》中,服务连续性管理也被列入成为数据中心管理的一个重要的能力项。
      
      当前随着中国制造2025、网络强国战略、国家大数据战略、两化融合、互联网+、一带一路、云计算、大数据、CPS(信息物理网络)等新的一批国家战略制定和新技术如火如荼的发展,数据中心成为支撑这些国家战略落地的关键基础设施,特别是2020年3月4日中共中央政治局常务委员会召开会议,会议强调“要加大公共卫生服务,应急物资保障领域投入,加快5G网络、数据中心等新型基础设施建设进度。要注重调动民间投资积极性。”
      
      不仅将使数据中心建设进入了一个高潮期,同时,各行各业也将对数据中心越来越依赖。数据中心服务的中断将会成为一个系统性的社会风险,越来越引起社会和数据中心从业人员的高度的重视。图2所示为宏观政策力推数据中心发展。由于数据中心类组织对自身连续性管理方面认知逐步提高,但经验和能力尚有欠缺,同时一批又一批的新建数据中心陆续投产,也对包括连续性管理在内的数据中心管理提出需求,可以预见,数据中心的服务连续性管理也会随着数据中心服务能力成熟度要求的不断提高,而不断丰富其内涵。与之相关的咨询、培训服务也必将形成一个不断成长的技术服务市场。
      
      作者简介
      
      赵勇祥,蓝厅(北京)信息科技有限公司首席顾问,高级工程师。曾长期服务于中金数据系统有限公司、联想集团数据中心等知名数据中心。具有二十余年信息技术行业和数据中心管理与应用实践经验,专注于数据中心服务能力成熟度研究、业务连续性管理在数据中心的应用实施以及绿色数据中心建设等领域。
      
      编辑:Harris
      
      

  •