假如灾难明天降临

作者: 封面故事 张杰

2005年4月,国务院信息化办公室联合电子政务、银行、电力、铁路、民航、证券、保险、海关、税务等行业,联合起草的《重要信息系统灾难恢复指南》正式出台。灾难备份与恢复的建设因而揭开崭新的一页。为了信息系统的安全可靠、为了业务的连续性,我们需要构筑铜墙铁壁般的“最后一道防线”。安全需要未雨绸缪。

今年5月1日,黄金周的第一天。下午2点多钟,北京市铁路局的电脑售票系统出现临时性故障,致使全市各火车站的售票窗口、代售网点的售票工作全部处于瘫痪状态,时间长达一个多小时。而很多打算当日购票外出的乘客也因此被迫改变了离京日程。直到下午3点50分左右,瘫痪的票务网络系统才开始恢复正常。

售票系统出现问题的过程中,至少有近两千名乘客停滞在火车站,北京站公安段为此出动了300余名警力在现场维持秩序,以防发生拥挤等突发事件。

“买票、退票都排长队,北京站公安段出动300余警力,乘客建议有关部门备份售票系统。”这是北京青年报在报道此事时采用的几个小标题。 报道最后引用部分乘客的意见说,希望有关部门以后能够备份一个售票系统,当出现上述问题时,能够很快切换到另一个售票系统,这样才不至于耽误大家的行程。

这起发生在五一黄金周的严重的信息系统故障事件,在铁道部,上了部长办公会。“在铁道部部长的一次办公会议上,部长非常认真严肃地指出,重要的信息系统一定要做好备份工作。”

记者在铁道部信息技术中心采访时,高级工程师、副总工孙远运告诉了记者这一细节。实际上,从BCM(业务可续性管理)的角度讲,灾难的定义和范围多达上百种之多,而信息系统故障只是其中之一。

《重要信息系统灾难恢复指南》中,对灾难(disaster)下了这样的定义:“由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系统需要切换到备用场地运行。

灾备,谁来建、怎么建

在灾备中心的建设模式上,无外乎三种模式。第一种,企业自建模式;第二种,多方共建模式,第三种,商业化灾备中心建设模式。三种模式孰优孰劣,并无定论。

铁道部灾备建设正在进行

在连续几天的采访中,记者深切感受到行业用户在灾备系统建设上的高涨热情。铁道部是其中的一个典型行业之一。

孙远运,铁道部信息技术中心高级工程师、副总工,在铁道部信息技术中心工作了近20年。他是灾难备份系统建设的积极推动者之一。

5月10日上午,记者采访他的时候,感觉得到他对《重要信息系统灾难恢复指南》(以下简称《指南》)充满了期待。他说:“《指南》的出台,将对铁路行业的灾难备份建设起到很好的指导和规范作用。”

孙远运介绍,早在1992年铁道部制定《铁路运输管理信息系统》时,已经考虑了异地灾备系统建设的问题。当时在沈阳、郑州、西安等城市进行考察论证,最终选择了沈阳,但这个项目在1997年前后,因为种种原因陷入了停顿。

现在来看,当时铁道部门对灾备中心的建设还缺乏足够的经验,尽管在规划中提出了灾备建设,但具体怎么建设似乎还没有一个清晰的思路。

异地灾备中心的建设问题再次被提上议事日程,是在2004年5月。新的一轮铁路信息化建设总体规划中,对灾难备份的考虑被纳入其中。记者在《铁路信息化总体规划》中,也清楚地看到了这样一行字:“统一规划建立灾难备份中心,对重要的信息系统和数据中心提供灾难备份。”

据了解,铁道部在局部的、本地的灾难备份与恢复方面已经有了很好的基础,以铁道部信息技术中心为例,就配备了大型的磁带库、磁盘阵列。

“灾难备份与恢复建设的需求比以往任何时候都强烈和迫切。”孙远运认为,铁路、民航等部门与国计民生息息相关,而且对信息系统的依赖性非常高,一旦出现故障和意外,就不仅仅是信息系统的问题了,可能造成严重的社会影响和后果。

去年5月,孙远运作为主要负责人,参与到铁道部信息技术中心的灾备研究项目组。这个小组成员专注于三大领域的研究。分别是,研究铁路行业异地灾备的策略,如需要备份哪些数据,备份哪些应用等;研究异地灾备的技术选择方向;研究灾难备份中心的建设模式和运营管理模式。

孙远运透露,铁道部在今年年内将率先启动铁路货运管理系统的灾难备份建设。

工商银行缘何走上自建道路

金融业和铁道部正在紧锣密鼓地筹划建设灾难备份系统相比,更进了一步。我国金融业在这方面走到了前面。

其实,在灾备中心的建设模式上,无外乎三种模式。第一种,企业自建模式;第二种,多方共建模式;第三种,商业化灾备中心建设模式。

在自建、共建、还是第三方商业化灾备服务的三种模式选择上,中国工商银行依托其庞大的技术和专业人员优势,在灾备系统建设上走的是一条自主建设、自主维护的路子。

去年9月,中国工商银行上海、北京南北互为备份的数据中心整合宣布完成,实现了真正意义上的灾难备份。记者5月12日电话连线中国工商银行数据中心高级工程师、项目经理周涛。他在2003年4月曾为《中国计算机用户》提供了一篇署名文章《构筑灾难备份系统延续企业生命》。

当时,他在这篇文章中写道:“在当今的信息社会里,保持企业计算机系统的高可用性面临着严峻的挑战,恐怖事件、自然灾害(地震、火灾、洪水、雷电、飓风)、人为因素都有可能导致企业信息系统的瘫痪,毁灭关键业务数据。在企业对信息的依赖性越来越强的今天,数据已成为企业的生命源泉。”

周涛在文章中还引述了一项调查来说明,因灾难而丢失关键数据,并且在几天内不能恢复关键业务的企业将会从市场上消失。对于依赖计算机系统运作的金融、电信、保险、民航、铁路和制造业而言,系统停机的可忍受时间更短。

那么,为什么工商银行选择了自建模式,而没有找专业灾备服务商呢?周涛的回答是:“在2001~2002年,工商银行做灾备中心建设的前期准备、方案选择和论证时,国内还没有一家灾备服务商能够满足工商银行对灾难恢复的要求。”

周涛具体讲到了两个指标。一个是恢复时间目标(RTO),另一个是恢复点目标(RPO)。而这两个指标当时没有服务商能够达到工商银行的要求。

记者在《指南》中,找到了这两个名词的定义。RTO,即recovery time objective,是指灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求。RPO,即recovery point objective,是指灾难发生后,系统和数据必须恢复到的时间点要求。

实际上,早在2003年7月,中国工商银行南北两个数据中心就实现了互为备份。到去年,经过重新整合的南北两个数据中心真正实现了实时备份。实时运转的两个数据中心对RTO、RPO界定了明确的时间。

如今,中国工商银行基本实现了所辖全国所有分行业务数据、主机、通讯、应用的备份和业务级的灾难恢复功能,以防备数据中心主机、磁盘存储、应用、网络接入失效和各种人为灾难、自然灾难,提高工行核心信息系统的可用性和安全性。

在《指南》中,并没有对灾备系统的建设模式、运维模式作硬性的规定,只是提出了三种模式。选择何种模式,一切都需要市场化的选择和理性判断。

灾备外包第三种选择

同样在金融业,深圳发展银行走的是采用灾难备份外包服务的道路。2002年10月,伴随着深圳发展银行新一代综合业务系统的投产,由高阳万国为深圳发展银行提供的灾难备份系统也正式启用。今年4月15日,高阳万国电脑系统(深圳)有限公司正式更名为万国数据服务(深圳)有限公司(简称GDS),继续专注于业务连续和灾难恢复(BC/DR)的规划、实施、运维和培训。

记者5月11日上午,在采访中国人民银行科技司信息安全处处长郭全明时,偶然知道了同样专注于灾难备份服务的,中金数据系统有限公司成立的消息。好奇心驱使记者追根问底。原来,这家公司刚刚在前一天上午举行了成立庆典。

5月11日下午,记者约到了中金数据系统有限公司副总裁陈天晴。去年8月,陈天晴从中国人民银行科技司副司长的位置上退休。之后就开始紧锣密鼓地筹备公司。今年4月份,公司刚刚拿到了营业执照。

实际上,陈天晴对灾备系统建设的关注由来已久。在任科技司副司长的时候,他分管信息安全,就在积极推动金融业灾备系统建设的问题。当年,他直接负责起草了2002年人民银行《关于加强银行数据集中安全工作的指导意见》文件。

2004年4月,陈天晴正式退休,但他对灾备系统的关注程度丝毫不减。由于意识到采取企业自建模式建设灾备中心投资太大,于是,他开始频频地向各方游说,希望有公司投资建设一个能够提供第三方服务的灾备中心。

最终,在中信等投资机构的投资下,注册资金达3亿元人民币的中金数据系统有限公司宣布成立,目标是按照市场化的方式,向金融等行业提供灾备服务。

陈天晴介绍:“中金数据初期计划投资8亿元在北京、上海两地建设灾备中心。其中北京灾备中心的建设,计划在3个月内启动。”

记者了解到,中金数据已经与北京的有关方面签署了占地100亩的土地使用意向书。如此庞大的投资项目建成后,有企业来买单吗?面对记者的提问,陈天晴表示,中金数据目前正在与国内多家银行等金融机构详细协商,而且已经与一些大型的金融机构达成了意向性的合作框架。

正所谓:兵马未动,粮草先行。

在国外,IBM、HP、SAS等公司都建设有很多大型的数据中心、灾难备份中心,向大企业提供灾备方面的服务。

同样的建设热情,也体现在北京威视瀚海数据有限公司。记者在5月9日采访该公司总经理李泓时,他透露,公司正在和电信运营增值服务商合作,建设一个大型的容灾基地。至于更多细节,他以商业秘密为由,秘而不宣。

并非“养兵千日,用兵一时”

《重要信息系统灾难恢复指南》的推出,无疑将改变我国重要信息系统灾难备份建设的法规和标准不完善,灾难备份建设缺乏统一的规划和部署,存在盲目建设和发展的倾向等问题。

《指南》对灾难恢复的管理,灾难恢复需求的分析,灾难恢复策略的制定,灾难恢复策略的实现,以及灾难恢复预案的制定、落实和管理等方面作出了明确的规范和标准指导。

在这样的大背景下,信息系统的灾难备份与恢复建设必将掀起一个新的高潮。显然,不仅仅是重要的信息系统需要灾难备份建设,一些行业、大型企业的信息系统也将从中获得指导和借鉴。

据记者了解,北京灾备项目规划得到了北京市工商、税务、交通、统计、卫生、劳动保障等多个部门的积极响应。基本达成了“统筹规划、集中建设、资源共享、等级容灾”的共识。

比较典型的例子是,北京市地税系统由于率先建设了灾难备份中心,这部分资源可能成为以后北京市灾备项目的一部分,而海关等相对垂直行业的灾备项目也将保护各自行业的已有灾备投资,不再重复建设。

实际上,灾备系统的建设模式,某种程度上,决定着灾备中心建成后的运营、维护和管理模式。而运营模式问题将是行业和大企业未来将面临的又一个无法绕过去的坎儿。

先期的投资巨大,而后续的运营维护成本也是非常棘手的问题。特别是专业人才的储备问题。对灾备中心的人员管理,决不是“养兵千日、用兵一时”的概念,那么,如何在常态情况下,充分发挥灾备中心、专业人员的效率、效能,将是每一个准备上马灾备系统建设的行业,必须提前认真考虑筹划的问题。

灾难备忘录

  • 2003年7月1日凌晨,上海市轨道交通4号线发生险情,引发地面大幅沉降和部分建筑严重倾斜,临江花苑大厦内的劳动保障局和市财税局的重要信息系统被迫中断和搬迁。
  • 2002年7月23日,北京首都国际机场离港系统出现故障停机1小时,60个航班和约6000名旅客被依次后推,造成首都机场大面积航班延误,旅客长时间滞留机场。
  • 2002年7月5日,深交所因通讯系统发生异常,导致部分营业部无法正常交易,于九时十五分暂时停市,下午十三点起恢复交易。

自然灾害、恐怖袭击、网络攻击、人为失误、疾病传播、设施故障、名誉受损……这都是灾难,它对国家、城市、企业的功能和业务将造成严重的影响。

由以上原因引起的部分或全部的计算机软硬件设备、附属设备、电子数据或机房等IT环境的损坏,以致于严重影响业务正常运行的事件,是IT业界广为关注的。

灾难恢复相关概念

灾难恢复(disaster recovery):为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。

灾难恢复规划(DRP,disaster recover planning):为了减少灾难带来的损失和保证信息系统所支持的关键业务功能灾难发生后及时恢复和继续运作所作的事前计划和安排。

业务影响分析(BIA,business simpact analysis):分析业务功能及相关信息系统资源、评估特定灾难对各种业务功能的影响的过程。

关键业务功能(critical businesss functions):如果中断一定时间,将显著影响单位运作的服务或职能。

生产系统(production system):正常情况下,支持单位日常业务运作的信息系统,包括生产数据、生产数据处理系统和生产网络。

灾难备份中心;备用场所(alternate site):用于灾难发生时接替生产系统运行进行数据处理和支持关键业务功能运作的场所,包括备用数据处理中心、备用的工作环境、备用生活设施和技术支持及运行管理人员。

灾难备份(backup for disaster recovery):为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程。

灾难备份系统(backup system for disaster recovery):用于灾难恢复目的,由数据备份系统、备用数据处理系统和备用的网络系统组成的信息系统。
以上内容摘录自《重要信息系统灾难恢复指南》


《指南》是场及时雨


行业、企业用户未来无论将采取何种建设模式、运营维护模式,他们都不可避免地会遇到,如何尽可能地满足业务连续性这一根本需求。

北京灾备 保障城市安全

记者第一次听说北京市正在规划建设大型的灾难备份项目,是在去年10月底的一次业务可持续性论坛上。当时,北京信息安全测评(服务)中心主任孟亚平发表了一个题为《浅谈业务持续性管理BCM》的演讲,引起了记者的关注。

今年5月8日,记者联系孟亚平采访时,不巧的是她在外地出差。而主任助理冷飙也因为忙于北京市灾备项目的建设,奔波于国务院信息办、北京市发改委等单位,无法接受记者的采访。

5月9日中午,记者终于在北京市信息化办公室组织的一次例行会议之后,等到了冷飙。冷飙作为北京市信息办的成员之一参与了《指南》的起草工作。除了北京之外,上海市信息委、广东省信息办也直接在国务院信息办的统一安排下,和金融、民航、铁路、海关等8大行业联合参与了的起草工作。

“按照规划的要求,北京市灾难备份项目要在2008年奥运会之前投入运行,因此,时间紧,任务重。” 冷飙表示,如果从保障整个城市安全运行的高度来认识的话,这个项目就不是一个简单意义上的灾难备份系统了,其复杂性和难度极高。

当记者问道,为什么《指南》没有直接发布为国家标准和规范,而是一个技术指导性文件时,冷飙表示,因为很多重要信息系统灾难备份建设的进程,已经急迫地需要一个站在全局高度的指导性标准出台。而如果按照国家标准走审批程序的话,有一个时间程序的要求。

实际上,《指南》只是第一步,尽管它是严格按照国家标准的模式和要求去制定的。也可以说,它是未来灾难恢复国家标准的前期基础。下一步,根据这一《指南》完善的国家标准也将适时出台。

2004年12月,正式的立项项目建议书,已经上报给了北京市发改委。在此之前,北京市各主管部门基本达成了共识,需要这样一个统一的灾难备份系统。

从北京市建设的思路来说,北京市电子政务系统需要安全保障。奥运的保障虽然自身要建一套安全保障系统。但北京市的水、电、气、暖,以及城市交通等的安全运行也是奥运安全保障的重要组成部分。因此,北京市灾备项目是2008北京奥运会的外围保障。

显然,安全的建设要与信息化建设的发展程度相适应。高度的信息化,需要高度的信息安全保障。

《指南》政策溯源

2005年4月,《指南》正式出台。一时间,《指南》成为行业用户、IT业界广泛关注的焦点。人们迫切地想知道,《指南》的推出意味着什么?对我国信息系统灾难恢复建设将起到怎样的积极作用?

实际上,这不是我国政府对灾难恢复问题的第一次关注。早在2003年8月,中办、国办下发的《国家信息化领导小组关于加强信息安全保障工作的意见》中,就对基础信息网络和重要信息系统灾难备份与恢复作了原则规定。它后来被业界广泛关注并俗称为“27号文件”。

2004年9月,国务院信息化办公室下发《关于做好重要信息系统灾难备份工作的通知》。进一步明确了灾难恢复的重要性、紧迫性。

今年4月发布的《指南》,则以标准规范的形式,对重要信息系统的灾难恢复提出了应遵循的基本要求。权威人士表示,《指南》适用于指导重要信息系统的使用和管理单位进行灾难恢复的规划和准备工作,对重要信息系统灾难恢复项目的审批和监督管理也可参照使用。

从时间脉络来看,三次内容不断递进的政府文件和规范,正是我国灾难备份与恢复建设不断走向深入的重要标志。

如今,越来越多的灾难和威胁可能造成信息系统和业务的中断:自然风险,例如地震、火灾、水灾、气象、疾病、战争、……人为风险,例如错误操作、黑客攻击、病毒发作、员工发泄不满、……技术风险,例如设备失效、软件错误、通讯中断、电力失效、……

911、SARS、大停电、网络故障……这些灾难留下的痕迹,人们不应当忘记。

对于政府、金融、电信、民航、铁路、电力等行业来说,当这些灾难发生时,造成的决不仅仅是信息系统的经济损失,业务中断的经济损失,更可能造成社会的不安定,这不是危言耸听。

亮点,灾难恢复的等级划分 

《指南》的亮点很多,其中最为引人注目的是,对灾难恢复的等级作了明确的划分。

冷飙回忆,当时大家在讨论过程中,借鉴了国际灾备协会、国际标准化组织,以及国外、国内的相关标准、文件。既参考了国外经验,又结合了我国的具体实际。同时,也参考了IBM、HP、EMC等众多国际大公司在灾难恢复方面的理念。

《指南》对灾难恢复的等级划分为6级。从低到高,依次是第1级,基本支持;第2级,备用场地支持;第3级,电子传输和部分设备支持;第4级,电子传输及完备设备支持;第5级,实时数据传输及完整设备支持;第6级,数据零丢失和远程集群支持。

而每个灾难恢复的等级都包括数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、技术支持、运行维护支持、灾难恢复预案等7个要素。

在参与《指南》的起草过程中,北京市灾备项目的规划也在不断完善之中,但基本的“统筹规划、集中建设、资源共享、等级容灾”的思想一直没有变。

建设灾难备份系统的最终目的是保持业务的连续性,使风险和灾难降低到最低限度。这一点,在记者的采访中,得到了一致的认同。无论是专家、行业用户、还是参与IT厂商都这样认为。

因为灾难备份的概念是从国外引入的,因此,《指南》的起草组在大家的倡议下,首先就《指南》中出现的术语作了清晰的定义。冷飙、郭全明等人还就名词定义发表了意见,希望首先规范定义。这些意见后来都不同程度地体现在《指南》中。

业务不能容忍中断

灾难备份和BCM(业务持续管理)是什么关系。一个形象的比喻是,灾难备份和BCM是两个个交叉的圆,两者的相同点占80%。

小概率、高风险

记者联系BSI(北京)有限公司中国区战略发展总监王二乐采访时,他不在北京,而是陪着BSI(英国标准协会)的一位副总裁在上海拜访宝刚集团。5月9日上午,记者通过网络电话,采访了王二乐。

王二乐对《指南》表示了极大地关注。他非常关心它是推荐性标准还是强制性标准?是否会很快出台配套的一系列的相关措施和指南?

王二乐关心的问题,也是记者十分关心的问题。这些问题记者在5月11日上午,采访中国人民银行科技司安全处处长郭全明时找到了答案。

郭全明也直接参与了《指南》的起草过程。他告诉记者,《指南》预计会在2006年底之前,升级为国家标准。这次之前,也不排除增加和完善其中相关内容的可能性。

王二乐认为,灾难备份与恢复是BCM的一个重要组成部分,但不是唯一的部分。BCM更着眼于从管理的角度,对风险、危机和灾难进行控制和管理。记者在对郭全明的采访中,他也认同了这样的看法。

郭全明给记者找出了一份2002年8月的文件。这份中国人民银行下发的《关于加强银行数据集中安全工作的指导意见》是为了应对银行数据大集中之后,可能带来的新的安全风险等问题,而推出的。

意见明确规定:“为保障银行业务的连续性,确保银行稳健运行,实施数据集中的银行必须建立相应的灾难备份中心。数据集中初期的灾难备份必须能支持信息通过通讯网络从生产中心到备份中心的电子传递。数据集中两年内必须实现备份中心与生产中心相互镜像,支持双向恢复,保障数据的一致性。”

数据集中了,风险也集中了。这就是一个事情的两个方面。由于金融业在信息化建设和数据大集中的道路上,走在了很多行业的前列。因此,如何在出现意外事件等灾难时,迅速地恢复信息系统,保证业务的连续运转,成为金融业面临的严峻问题。

郭全明认为:“灾备的问题是一个小概率、高风险的问题,对于金融业来说,现在已经不是建不建设灾备系统的问题,而是怎么建设,怎么运营维护的问题了。”

在建设灾备系统的思路上,金融业没有阻力,只有困难。这是记者在采访中,最深刻感受到的。

管理和流程,和灾备设施同样重要  

是不是行业和企业都充分意识到了灾难备份与恢复的重要性?记者在采访中,得到了不同的答案。

SNIA是全球网络存储工业协会,1997年在美国成立,由400多家致力于“发展网络存储,确保网络存储成为IT领域完整的、可信赖的解决方案而服务”的企业所组成, 是一个基于技术标准确立的中立性组织。

今年,是SNIA中国技术中心确定的“网络存储推广年”,其中一项重要的内容就是容灾/备份为主题,贯穿全年的免费培训活动。

北京威视瀚海数据有限公司是SNIA中国的会员单位之一,公司高级技术顾问侯海波在培训课程中的主题就是“业务连续性及数据保护”。

5月9日下午,记者在采访完冷飙后直奔威视瀚海公司。巧的是,在北京灾备项目的规划阶段,侯海波作了积极的推动工作。SINA中国的理事、威视瀚海总经理李泓和侯海波一起接受了记者的采访。

李泓介绍,今年以来的免费用户培训,已经吸引了二三百人参加。在调查了解中,用户对灾难备份、数据安全等方面的重视程度越来越高了。但在怎么建设,怎么运营管理方面还存在一些模糊的认识。严格意义上说,灾难备份中心是服务、流程,是运作的管理、专业规范的优秀工程师,而不是一个单纯的物理意义上的灾备中心。

侯海波则从业务连续性的角度进一步阐述,灾难备份中心是一个行业或企业实力的综合体现。无论是自建,还是采用第三方外包服务的形式,对用户的灾难备份思想战略、专业技术人才贮备都是一个全新的挑战。

这样的问题,记者在采访王二乐的时候也遇到过。王二乐经常拜访一些BSI的客户。他发现,客户对2003年BSI发布的《永续经营管理》标准和相关的培训越来越感兴趣了。但他也发现,很多客户在BCM方面都有很明确的规定,但有多少人真正能够明晰自己的职责呢?这是个未知数。

一些用户还是存在重硬件基础设施建设,轻管理、轻流程的问题。王二乐在给用户作企业安全环境的审核时,经常听到的一句话是“火灾,这种事情出现的概率太低了,我们企业怎么可能出这种事情呢?”

演练,时刻准备着

灾备系统的应急演练应该放到一个什么高度去认识呢?王二乐经常给用户作BCM的培训课程,他经常反复强调,BCM总体原则中,实施演练及测试方案以确保BCM的有效性是一个重要的环节。只有这样,才能尽可能地将危机、灾难出现的概率降到最低,而且一旦出现了危机,也能将损失降低到可以承受的范围内。

不仅仅是应急演练,整个BCM的过程都要形成一种机制。但是不是灾难备份中心都真正做到了应急演练呢?

模拟环境下的灾难恢复测试也许作了很多,但真正在业务运行状态下,敢于作系统切换备份演练的恐怕不多。

《指南》对灾难恢复的应急演练也有明确的规定:“预先制定演练计划,在计划中说明演练的场景。演练的整个过程应有详细的记录,并形成报告。灾难恢复演习应保证至少每年一次。”

《指南》还规定:“预案在测试、演练和灾难发生后实际执行时,其过程均应有详细的记录,并应对测试、演练和执行的效果进行评估,同时对预案进行相应的修订。”

灾备市场真的热起来了,这一次明显与以往的热度不一样。如果说,2001年“911”之后,灾备系统的建设还是一个预热的过程的话,《指南》的推出,则意味着我国电子政务、行业、大企业在灾备建设中有了一个行动的指南。

防患于未然,《指南》来的正是时候!


解读《指南》
                 -文/封面故事 舒涵

年4月,国务院信息化工作办公室(下简称国信办)下发了影响我国灾难恢复领域乃至信息安全发展的指导性文件—《重要信息系统灾难恢复指南》(下简称《指南》)。《指南》包括哪些重要内容?有怎样的特色?将如何推动各行业开展灾难恢复工作?国务院信息化工作办公室网络与信息安全协调组熊四皓处长在百忙之中接受了我刊的独家采访。

具有较强操作性

记者:据了解,中央办公厅在2003年8月下发了被称为“27号文件”的《国家信息化领导小组关于加强信息安全保障工作的意见》;此后,国信办出台了《关于做好重要信息系统灾难备份工作的通知》(下简称《通知》);今年4月,国信办再次下发了《重要信息系统灾难恢复指南》(下简称《指南》),如何理解《指南》与前两个文件的关系?

熊四皓:27号文件是国家在信息安全保障工作中,第一次提到重要信息系统要具备灾难恢复的能力。为了贯彻落实27号文件,经过近一年的调查研究,国信办组织出台了《通知》,作为27号文的配套文件,明确了开展重要信息系统灾难备份工作的目标、基本原则和当前的重要任务。

信息系统灾难恢复是一项周密的系统工程,需要按照科学的活动和流程开展规划和实施,需要制定相应的对灾难恢复具有指导意义的规范性文档,规范对信息系统灾难性故障的响应和处置。

为了进一步推动重要信息系统灾难恢复工作的切实开展,国信办牵头组织全国8个重要行业和5个政府单位的专家,编制出台了《指南》,并于今年4月下发。

记者:《指南》的核心内容是什么?

熊四皓:《指南》说明了灾备包括哪些方面和环节,不同环节又有哪些具体步骤,如何入手。如,灾难恢复从管理开始,包括组织机构的设立,内外部机构的协调管理;然后是灾难恢复的技术分析,如包括业务和风险分析,确定技术等级;再确定灾难恢复策略,包括灾难恢复资源的获取、灾难恢复等级要素等;然后是灾难恢复的实现策略、方案制订、系统开发等;最后是预案的制订、管理和落实。

《指南》还包括两个附录:分别是“灾难恢复的等级划分”和“灾难恢复预案框架”。具有较强的操作性。

推荐性采用

记者:我国的行业企业对灾备的认识情况怎样?《指南》将起到怎样的作用?

熊四皓:目前尽管一些单位很重视灾备工作,但不考虑成本、盲目建设是不可取的,需要综合考虑风险和灾难备份。也就是目前的灾备建设需要更好地规划和部署。

记者:通过《指南》,如何解决统一规划和布署的问题?

熊四皓:《指南》是技术操作层面的问题,即如何去开展灾难恢复工作;对于政策性的要求,如建设规划的方式方法,在《通知》中有体现。

面对统一规划的问题,需要区别对待,不能简单一刀切—建或不建。对于财政支持的项目,可以在项目审批方面统筹考虑;对于商业化运作的项目,如商业银行、保险公司等有关项目,政府只提要求,具体的实施方式由企业自行决定。

记者:灾备中心的建设,对不同的企业有不的方式方法进行引导,那么在标准方面(尤其《指南》成为明年国家标准的蓝本),又该采用怎样不同的原则?是否允许采用不同的标准?对于已经建设的灾备中心,如果他们采用的标准与《指南》的“标准”不同,应该如何处理?

熊四皓:这个标准应该是推荐性的。不少人认为国标就是强制性标准,其实不然,比如标准的标示GB/T,GB指国家标准,T就是推荐,大多数标准都是推荐性标准。

记者:此次《指南》的公布,对重点行业的影响将会是怎样的?《指南》与其他行业企业规范之间的关系是怎样的?

熊四皓:重点行业的主管部门将会在《指南》推出之后,结合自身的情况,制订有关工作计划,有的行业主管部门还准备出台有关行业标准。

《指南》属于通用的标准,不可能细化到方方面面,行业以及企业的标准规范,将是很好的补充。

记者:由于灾备中心的投入较大,国家对于跨行业的灾备中心的建设和管理思路是怎样的?是否会支持建设统一的灾备中心?

熊四皓:灾备中心的建设一般有三种模式,自建、联合共建和社会化第三方服务(即通常所说的外包)。自建方式的投入较大,一般多为特大型信息系统或有特殊需求的信息系统采用;联合共建就是两方组织(部门)或几方组织(部门)共同分担建设、运维管理的投入;外包,也就是由专业的服务公司承担企业、行业的灾备服务、设施、保障等。国家鼓励采取共建或外包的模式,开展灾备建设。

两个特色

记者:国际上信息安全领域有很多标准,仅在ISO领域中就有ISO17799、ISO1335、ISO15408,我国的《指南》对众多国际标准有哪些参照,有怎样的特色?

熊四皓:《指南》更主要的是结合国内的特色,较少的内容结合了国外的情况。国外的行业化标准规范较多,因此在《指南》制订讨论过程中,也曾考虑从灾备的行业(部门)标准建设开始,但来自行业部门的意见是希望国家有一个哪怕即使是粗些的标准,然后再由行业(部门)来细化,工作好开展,因此最终出台了一个通用的标准。

《指南》的特色,就是确定了首先对重要信息系统进行分等级的灾备,而不是不分等级、不计成本的灾备;其次,就是分级标准,这个分级标准考虑了我国信息化的实际情况和信息安全保障实际需求。

记者:此次《指南》涉及的灾备建设,覆盖电信网、广电网和互联网?

熊四皓:《指南》的一个特色是确定了对重要信息系统的灾备要求。《指南》将基础信息网络(电信网、广电网)中的网管系统、计费系统,互联网的域名解析系统等,都列为重要信息系统。

记者:对于小概率事件,无论国家还是企业到底应该持怎样的态度?

熊四皓:在社会日益依赖信息系统的环境下,首先要有灾难防范的意识,因为一旦灾害发生,后果难料。其次,面对这一问题,要有一定的思路和原则。切忌一哄而上,特别强调“统筹规划,资源共享,平战结合”,即,既要思想上重视,又要结合实际情况,充分利用现有资源,开展建设。

记者:明年即将推出的标准和当前的《指南》,会有哪些差别?或者会有哪些补充?

熊四皓:正常情况不会有太多新的变化,因此不会有太大差别。

记者:目前如灾难备份等信息安全领域在国家重视、政策推动的情势下,正在成为发展前景诱人的市场领域,无论产品技术还是服务支持提供,各方面不可避免地或抢占、或跃跃欲试,难免不出现某种混杂的情况,同时,《指南》也还是个相对较粗的框架,在落实实施中,也可能会出现不同的问题,那么政府部门对此有怎样的管理思路?

熊四皓:要坚持“边发展,边规范”的原则。灾难备份和灾难恢复还是个新兴领域,需要发展与摸索,不能在没有发展起来就限制管理,这样的结果往往是一管就死。因此要到一定发展阶段再出台管理办法,现在还难以预计具体的时间。

《指南》的诞生

  •  2004年9月下旬始,前期调研,起草《指南》 初稿。
  • 2004年10月22日成立了由8大重点行业和5个政府单位专家组成的工作组(国务院信息 化工作办公室、中央办公厅、中国人民银行、 信息产业部电信管理局、国家税务总局、铁道 部、海关总署、国家电网公司、中国民航信息 网络股份公司、中国证监会、中国保监会、北 京市信息安全服务中心、上海市信息办、广东省信息中心、GDS万国数据服务(深圳)有限 公司)。
    确定编制内容:
    灾难恢复规划的管理;
    灾难恢复需求的确定;
    灾难恢复策略的制订;
    灾难恢复策略的实现;
    灾难恢复预案的制订、落实和管理;
    灾难恢复的等级划分;
     灾难恢复预案框架。
  • 2004年11月26日完成第二稿编制。
  • 2005年1月21日完成第三稿的编写。
  • 2005年4月下发。

误区、差距与希望
              -文/封面故事 舒涵


IT依赖程度的提高,信息安全的需要,政府政策的推动,让灾难恢复领域如众人拾柴般窜出市场的火苗,尽管是个需要花大钱的领域,但很多行业、企业在积极地规划着这方面的投入。从众多厂商要投身这一领域开展支持服务也可以嗅出些味道来。但专家认为,我国目前在灾难恢复建设方面存在着四大误区:

第一,灾备中心建成营运中心:GDS万国数据服务(深圳)有限公司参与了《指南》制定工作。该公司政府关系总经理何政认为,目前我国已建成的一些灾备中心,无论选址,还是运营管理制度或网络应用模式都针对性不强,很多灾备中心建成之后,离真正投入应用还有一段距离。

出现这种情况的原因,何总认为,一方面IT产品技术提供商从商业利益的角度考虑,希望多买产品、扩大业绩;一方面,一些用户实际上并没有建设灾备中心的能力,但为了要建设“灾备中心”,厂商也只好建成计算中心的模式;当然,用户对灾备的知识和认识还不太多,又缺乏专业的第三方服务机构的支持也是其中的因素。

第二,需求分析不充分。“我国一家保险公司准备建设灾备中心,但认为建设灾备就是设备招标,而忽略了最需要扎实做的是需求分析”,何政谈到,灾备的目的是为了保障业务连续性,需要进行详细的风险分析、业务冲击分析进而得出需求依据。即要首先分析当前面临的哪些风险可以通过管理等手段避免,哪些是难以避免的,必须依靠灾备中心来保障;哪些系统非常重要,需要放到灾备中心中,哪些是不必的。

第三,忽略运营维护。从企业所做的预算中可以看出,申请的资金只是建设的预算,而实际上灾备中心前期建设是一次性投入,后期的运营和维护是持续的并且更为关键。“比较全面的如我国一家上市公司,自建灾备中心的投入预算是6亿元,运营维护的费用6000万元/年”。

第四,灾难恢复预案简单,演练缺乏。何总谈到,目前我国的灾备恢复预案基本相对比较简单,而国外的预案往往很厚,并且傻瓜化。因为人在灾难来临环境下,大脑的反应和判断效率大大减低,只有很简单而明确的指令,才容易被执行。预案难免会有很多漏洞,弥补不足的方式就是不断演练。因此“911”之后幸存的一些大公司的经验总结中,最重要一条就是“一定要定期演练”。而且这个演练的“脚本”必须能够测出灾备体系中存在的问题,同时在演练中不能影响正常的业务运营。央行专家称,我国目前建设了灾备中心的企业,在演练方面做得不够。

“认识不够和组织难度高是重要原因”,何总说,GDS为深圳发展银行的灾备恢复支持中,每次要用几个月的时间准备预案,并且每年设计不同的场景,设计系统的不同切换,并进行数据比对。

“在灾难恢复方面,我们与国外的差距不仅仅表现在上述方面”。从今年四月份在新加坡举办的DIR Aisa 2005年会归来,GDS公司市场总监刘成禹最感慨的就是,“在中国谈灾难备份基本都以技术为核心,而在大会上,参会的人员不仅不是什么技术专家,谈论的内容也不是技术话题,是管理。即如何让公司的高层能认可灾备计划,怎样在企业内部平衡各方面的利益,形成切实有效的计划”。

安全备份、业务连续性保障的“看得着”的部分是技术与设备,但仅认为建设一个物理的灾备中心或建设一两个备份系统就可以“无忧”了,实在简单化了。因为企业会在真正面对问题的时候,发现两个系统无法切换—没有一个长期有效的管理制度保障技术和业务的灾难恢复完成。国外多年来的经验教训就是,要有一套管理制度。那么中国企业是否也一定要经历技术推崇期才能走向管理重视期呢?刘成禹认为,当前国家至上而下的重视和各方面交流讨论互动的广泛开展,将有助于我国企业少走弯路,中国灾难恢复和业务连续性领域的发展,充满希望!


(信息来源:封面故事)

打印该页面

联系BSI

联系我们

BSI HOT-LINE全国免费热线:800 810 0045