咨询QQ:
      杂志订阅

      编辑

      网管

      培训班

      市场部

      发行部

电话服务:
 010-82024984
 010-82024981
欢迎, 客人   会员中心   帮助   合订本   发布信息
设为首页 | 收藏本页
巴黎圣母院大火的警示——论述数据中心的安防和运维管理
  • 全球的人们,包括数据中心的从业者在巴黎圣母院大火后,受到了强烈的震撼,应该从所谓的“意外”中猛醒,从数据中心设计、施工、设备采购、验证验收、运维管理、技术培训和思想教育等从多方面入手,杜绝“意外”事故的发生,保证数据中心的连续安全运行。
  • 当地时间2019年4月15日下午6点50分左右,法国巴黎圣母院发生火灾,整座建筑损毁严重。着火位置位于圣母院顶部塔楼,大火迅速将圣母院塔楼的尖顶吞噬,很快,尖顶如被拦腰折断一般倒下。
      
      火灾发生后,巴黎市检察机关在第一时间宣布启动调查,调查方向初步定为“意外”引发火灾,检方已经排除了纵火的可能性,也不认为此事和恐怖主义有关。
      
      巴黎圣母院的大火引发了国人的关心和联想。咸丰十年(1860年)英法联军攻占北京后,纵火焚烧圆明园,大火三日不灭,圆明园及附近的清漪园、静明园、静宜园、畅春园及海淀镇均被烧成一片废墟,安佑宫中,近300名太监、宫女、工匠葬身火海。使这座世界名园化为一片废墟。大火连烧3天3夜,成为世界文明史上罕见的暴行。圆明园文物被掠夺的数量粗略统计约有150万件,上至中国先秦时期的青铜礼器,下至唐、宋、元、明、清历代的名人书画和各种奇珍异宝。
      
      殖民者的暴行永世不忘,被掠夺的文物必将归还。更重要的是我们要从巴黎圣母院的大火警示中,查找安防工作中的漏洞,杜绝“意外”事件的发生。我国的很多古迹景点纷纷动作起来,加强了安防和培训。
      
      数据中心应该怎样杜绝“意外”事故呢?在数据机房发生的各类事故中,火灾事故约占80%左右。主要包括电子计算机本身起火;配套设备或附属装置起火;空调设备或电气设备起火;外来火灾侵扰和雷击等。
      
      2014年,三星韩国果川数据中心发生火灾,起火的是三星的韩国果川数据中心的四楼,火势蔓延速度较快,很快波及建筑物顶端,室外管道可能是引发火灾的主要原因。火灾造成了数据中心数小时的停电,从而影响了全球用户的网络服务,甚至三星官网也出现了短暂的无法访问。
      
      2017年4月4日19时57分,北邮数据中心发生火灾,起火原因系UPS蓄电池组事故,事故致部分教育网节点和校园网暂时不能访问。
      
      2018年9月30日上午10点26分,青岛西海岸惠普大数据中心发生火灾;
      
      2015年10月13日,Windows Azure上海数据中心发生故障,是由服务器所在机房着火断电引起,导致Azure基础设施离线无法提供正常服务,受影响的用户包括金融、互联网、房地产;2015年5月26日早晨,远在美国亚利桑那州平顶山的苹果工厂发生火灾,起火点位于该公司数据处理中心屋顶光伏项目;2015年1月10日亚马逊公司正在美国弗吉尼亚州建设的一座数据中心发生火灾;2014年7月20日重庆农商行数据中心发生重大火灾,整个机房全部烧毁,直接损失达到一个亿以上。
      
      仅仅几年,数据中心的火灾事故频发。对于数据中心发生的故障,行业专家认为故障多发的原因还是在运维管理上,正所谓“三分技术,七分管理”,数据中心的故障大多源自于人祸。笔者认为很多人(包括许多专家)将“意外”发生的根源归罪于运维和运维管理人员,其实这是非常不公平的。
      
      正像可靠性源于设计一样,数据中心的连续运行的安全性同样也是源自设计,这就给设计院的设计工作提出了更加严格的要求。
      
      在数据中心的消防设计时,必须选择安全、环保、效果好的灭火产品,要考虑灭火产品的安全环保性、经济合理性、产品的适用性、可调整性等综合性能;还必须搜集灭火产品在国际、国内应用的广泛性及在大型项目中的业绩;在国际、国内获得的产品的认可及认证系统设计的配套工具,如系统设计计算的软件等。
      
      在数据中心施工建设时,必须严格遵守施工规范,GB50462-2015《中心基础设施施工及验收规范》是必须遵照的国家标准。特别是不能留有隐蔽性隐患。
      
      数据中心的综合布线对数据中心建设来说尤为重要。选择什么样的线缆、线经和布线方案,对设备安全运行、维护和升级改造都会有很大影响。
      
      数据中心设备的布局,如机柜正确的摆放方式应该是将服务器机柜面对面或者背靠背的摆放,这样便形成了冷通道和热通道,机柜之间的冷热风不会混合在一起,形成短路气流,大大提高制冷效果,保护好冷热通道不被破坏。
      
      高功率负载和高密度的服务器集中摆放,容易导致数据中心的局部热点和单路电源功耗过高问题,可以将这些高功率设备和高密度服务器分在每个机柜内,这样就不会出现高功率密度设备群。这对避免局部温度升高,从而引发数据中心故障是有益的。
      
      当然,数据中心机房运维管理工作责任重大,随着互联网、信息化产业的不断发展,作为各种信息载体的数据中心发挥着越来越重要的作用,因此数据中心的安全运行变得尤为关键,数据中心运维管理工作也变得越来越复杂。
      
      验证测试是一个确保数据中心各系统设计、安装、功能测试、系统联调、运行状态与设计意图相符合的过程,是实施获得良好功能和可靠运行过程中的重要组成部分。一个好的验证测试不仅满足测试相关的设备功能指标,更重要的是验证系统是否可以满足运行阶段的要求。对系统运维人员而言,在验证测试的过程,可以验证设备操作流程,增加实际操作和应对突发事件的经验。近几年建设的数据中心,都要求在数据中心投产前必须进行验证测试。
      
      数据中心基础设施的验证
      
      测试是业主对于数据中心建设质量进行检验的一个重要过程,正式投产前未进行验证测试,将给数据中心后续运行带来巨大的风险隐患。验证测试同样也适用于改扩建和日常的运维项目,通过仪表测量、观察、分析等方式,找出系统运行的潜在风险,实行相应的改善措施,确保基础设施达到功能要求,实现预期的可靠性和可利用性。
      
      如下图所示,主要的验证测试包括性能验证测试、功能验证测试和运维验证测试。

     巴黎圣母院的大火给数据中心建设和安全运行敲响了警钟,一切“意外”的隐患必须从数据中心设计阶段给予重视,不能把故障的主要责任推给运维和运维人员。希望设计院的设计师们多为数据中心的连续性安全运行和运维人员着想,下苦功夫,从大处着眼,从小处着手,设计出一个经得起“意外”事故考验的数据中心。
      
      作者简介
      
      由一,中国空间技术研究院高级工程师,本刊主编。
      
      编辑:Harris
      
      

  •