您现在的位置是:首页 > 数字化转型 >

灾难恢复:从理论到实践

2009-11-06 22:54:00作者:牛林海来源:

摘要今天很有幸给各位从理论到实践来分享一下惠普在灾难恢复领域的一些经验。首先我们来看谈的很多的容灾,谈到很多的业务连续性规划以及计划。具体这些规划、计划,这些项目在我们企业里面到底是什么样一个位置,从这个图上可以看到这是一个企业的模型,从最说面我们企业的战略...

今天很有幸给各位从理论到实践来分享一下惠普在灾难恢复领域的一些经验。首先我们来看谈的很多的容灾,谈到很多的业务连续性规划以及计划。具体这些规划、计划,这些项目在我们企业里面到底是什么样一个位置,从这个图上可以看到这是一个企业的模型,从最说面我们企业的战略到最底层我们基础架构,服务器、存储,网络、数据库等等,之间包含了很多业务、流程,业务的信息,不同的应用种类,这是我们企业一个模型。BCP在那儿呢?在满足了业务策略以后之下所有的模块,所有的部分其实都和业务持续计划有关系。业务持续计划最终目标就像这样一样,保证业务安全运行,保证业务持续运行,所以在这个企业各个模块里面都有相应的组成部分,并不仅仅是IT本身,IT部门自己能够做得到的事情。

在这里面管理里面有三个主要部分,第一在业务连续性规划,涉及到企业所有部门。第二是业务与办公环境的连续规划,比如说我们在发生了灾难以后,我们到备点,我们到备点可以用那些技术设计提供服务。

第三,IT的连续管理,也就是说灾难恢复的管理。

不管是业务连续性管理还是灾难恢复管理,其实在惠普的主要实施做咨询,做服务,做管理,做运维,按照这样方法论有五个步骤,第一是说在灾难风险的一个评估,以及业务影响的分析。当然根据国际的一些经验,国际的一些实例,有两家不同的协会,在两个不同地方会有不同做的方法,也就是做的步骤。可能我们在某一些企业先去做风险分析,而在某一些企业先做业务影响分析,其实这并不冲突,因为最终的目的只是想确定如何来保证我们的关键业务,如何识别我们的关键业务,再发生灾难以后能够最大的得到保护,最短时间内能够恢复起来,因此惠普沿用国际惯例。之后作相应灾难恢复技术方案设计,具体会设计出东西。

对于企业和应用系统来讲,惠普在中国做业务连续十多年的经验,并不是一个企业只有一个RTO或者RPO,具体做的时候有若干不同子项,有很多灾难恢复点和时间的要求。根据这些点我们来对不同的环节设定适合的一些方案并且最终实施出来。

在设计完方案以后我们进行灾难恢复计划或者叫做业务执行性计划开发过程,这里面可以看到包括灾备组织的结构,响应流程,具体如何来做技术恢复,以及如何做演练,这四个部分会在业务连续计划或者灾难恢复计划里面逐步做出来,之所以会涉及到这些部分,是因为这并不仅仅与IT或者仅仅与IT相关的事情。最后在灾备中心,在我们的容灾恢复中心其实也是我们一个生产,可以把它视为我们生产系统。因为从过去的若干年来看,比如说我们的移动,比如说我们一些大的客户,他们其实在若干年过去,从05年到08、09年做了很多关于容灾、灾难恢复的建设,可是真正在灾备中心有多少利用率呢,有多少系统在灾备中心能够活着,答案其实非常少。而我们可能有幸,我们管理员,我们在座的专家或者经理,他就恰巧在灾备中心,在这里面的人平常要做那些业务呢?他的发展是什么?其实这都是给企业的一些问号。我们在运营管理方面也要加强运行维护,使这支团队更坚强,使灾难恢复是一种常态,类似于生产一样的工作状态,这是惠普结合国际惯例,以及自己方法论有五个主要的过程。

下面我会简单的过一下,在每一个环节我们会做那些事情。首先在做风险分析,在这里面要看那些点,可能各位这张片子看的比较多,各位具体做项目的时候也碰到过类似的问题,不管是人为问题还是自然灾害,还是天灾人祸,这都是我们的风险,我们如何应对这些风险呢?首先对不同的风险来作相应的分析。首先识别企业有哪些固定的资产,那些关键资产。像我们这个楼一样,他能够防地震级别有多少,我们不做不知道。这个楼有什么样威胁我们不清楚,包括我们在这个楼里面机房包括客户机房里面有那些威胁我们是需要通过具体的调研才能知道。

以下就是一个表,通过三方面权重,最后给我们风险加一个权重,比如说很有可能发生停电,很有可能发生漏水,这些都是我们实施后一些结果。这些东西对我们预防风险有很大指导作用,不管是业务持续管理还是灾难恢复管理,从最开始点来看都是在做风险方面管理。当我们上一个业务连续或者灾难恢复的项目,可能领导会说我希望通过灾备项目解决现有的所有问题,我现有系统跑的慢,我想通过灾难恢复项目解决掉,这是不可能的。

做灾难恢复有很多点,现在谈的比较多,有一些事情,包括像单点故障,包括机房内一些漏水等等事件,其实都可以规范为一个机房类的事件,我们可以用高可用方式解决好。举一个例子,我们现在身体并不是很健康,我们通过备份方式能把身体变得健康吗,我们IT系统和环境依然是这样。首先解决本地高可用问题,之后谈同城容灾或者异地容灾,这种部署和规划完全取决于你最终想避免什么灾难。前面分析出来的结果,我们要看到那些风险想通过灾备项目解决掉,我们能够避免掉的。而那些东西也无能为力。

有了风险,风险必然对业务产生相应的冲击。这就是我们来分析一个灾难,一个风险对可能产生的业务影响。包括潜在的影响,包括看得见的,看不见的这些东西看起来很难量化出来,但是惠普在做的时候会与客户一起,把这些难以量化的东西最终量化出来,形成一个数,到底这样一个风险会对业务产生多大影响,每个小时或者每分钟到底损失几百万,甚至更大,这些东西要列出来。

此后如何能保证列出来这些动是准的,大家做这样项目,大家在构建容灾项目的时候灾难恢复计划都会碰到问题。比如说领导说我们的RTO等于零,我们的RPO也等于零,也是RPO有可能,RTO等于零有可能吗,他取决于很多业务环境,之所以能够把这个期待降下来变成一个可以实现的东西,其实做这样分析的过程中要与多个部门进行访谈,与多个部门进行沟通,并不仅仅是IT部门自己的事情,往往因为IT部门在企业内部是服务于其他业务部门的,因此在碰到一些事件的时候可能首当其冲提出IT部门IT为什么没有做好。我们真正了解一套企业资源计划,在ERP项目里面真正生产能够停产多长时间呢?也许并不是几个小时或者几分钟,我们可以以天来计算。

这样下来拿到一个值,拿到一个恢复的目标,这个东西是可以来实现的,并且也是比较合理的。通过分析我们来给我们的业务带出一些不同的等级,比如说举了这几个例子,可能有一些业务。比如说现在说的3G业务,现在推很多3G,我们想通过3G看一些电影,可能上班路上想看到,但是就看不了,可能是信号不好。这就属于客户的影响,给我投诉直接上来,这些东西也会对企业形象有很大损失,这是一方面。

另一方面对企业直接影响和间接影响,我们把这些原则定出来,根据这些部署关键业务和那些是非关键业务,因此我们通过一些结果,在不同的业务之间有一些区别,符合不同的级别,不同的业务恢复级别。

这里面举一个例子,可能会碰到一些业务中的投诉上来最高的,可能跟营业系统有关系。而我们内部的系统,内部管理系统可能业务中断可能没有什么影响,这样结果就出来了。这些系统灾难恢复的时候,做业务规划的时候是属于一个什么样的投资比例?是属于什么样恢复策略?这都是截然不同的。

当然前面各位也提到很多关于RTO和RPO问题,我就不说了。真正做灾难恢复的项目,我们做真正恢复系统或者业务持续系统,真的会因为短短的停半个小时的电,就会被切到灾备中心吗?很有可能切过去所要花的时间,是你中断半个小时电要长很多,他所付出代价也要高很多,我停半个小时可能是二、三十万,我真正切一次损失可能两三百万,你觉得客户CEO会让你切吗。通常来讲做这样演习和实际操作的时候,往往我们并不轻易来做这样切换。

有了前面指标,有了前面这些输入、输出的项,我们来具体设计我们的灾难恢复的一些策略,这里面我们也完全可以来引用国家的GB20988这个标准,这里面有六个级别,根据每一些系统,根据每一些应用或者说从业务部门的要求到底要实现哪个步骤,这完全取决于每个系统看到结果来定的,而不是说在我们设计之前,在我们招投标之前把这个事想清楚,这个很难。当然右面有一列,可以看到我们做灾难恢复策略,制定这样一个计划会有很多要素了,其实可以看到不管从备份,还是从基础设施,运维都要考虑在里面。

我看今天主题跟灾备中心规划有关系,其实我们做灾备中心的管理,做灾备中心部署的时候也要考虑以下四个主要点:第一,我们本身这套系统是一个活的站点,意味着我的生产中心和灾备中心是双核的。现在有哪些客户,大的客户做到这一点,大家心里也有数,某些银行,某些电信客户。这些系统意味着什么?意味着生产中心和灾备中心是对等的,他可以最快的来做灾难的恢复,往下一点是我们的热站点,这里面只是有一些环境,环境上面会有一些24小时职守人员和应急系统,下面温站点包括简单软硬件,包括电源等等这些,其实在这里面没有太多的IT设备,有点像冷站点,并没有太多IT设备,只是说当发生灾难的时候把东西拿过去而已,所以说不同得计别,当我们建灾难恢复中心的时候,我们考虑灾难恢复中心的时候到什么样级别,我们要租赁,我们还是要自建,还是跟人家合作甚至外包这样服务,这是需要着重来考虑的。

前面谈了很多,可能各位做项目的时候我们真正去部署项目做的还不错,可是有多少执行好了呢?没有行动的一个计划是个做梦,其实做梦还是很好的,至少没有什么风险。当我们容灾系统建好了,并没有相应的流程,没有相应的计划,要发生灾难想切这时候怎么切,如果没有这样计划就是一个恶梦,可能现有灾难只是停半个小时,我现在一切换永远系统起不来了,这就是恶梦,从国际,从惠普等等公司得的信息来看,有90%的公司并没有全员灾难恢复业务连续计划的培训,并不是说所有公司人员都清楚,当发生灾难的时候我们应该干什么。平时如何去演练这些东西都是没有的,没有这些演练,没有这些流程,没有这些相应操作步骤,如何来保证我们在发生灾难的时候灾备中心可以接管我们的业务,这个非常难。因此,这个计划是对前面所有实施的一个认证的过程,它也是一个最好的保障,保障我们发生灾难灾备中心可以启动我们的业务,这个非常之关键。

就像我们平时各个公司都有火警演习,我上楼的时候也看到一些紧急路线。从我们基于桌面,惠普可以提供基于桌面,以及到你实际系统,到你全业务系统的演练,甚至是实际的操作,保证在发生灾难之后我们是有步骤可以走的,一步一步完成我们灾难或者业务中断的恢复。

这样一个过程还有客户,还有很多专家认为这是在非常短的时间可以恢复的事情,不是不可以,也许可以,但是付出的代价非常大。并且做切换的时候并不是想切一个就能切一个,也许给客户推,我们每个月可以做一次灾难恢复演习,确实没有什么不可以,但代价太大了。

最后介绍一下惠普在业务连续管理方面的资力,首先在全球有五千多人的团队来进行技术支持,并且在中国来讲有很多通过DRI方面资质认证的业务专家,这些都可以保障客户所实施的灾难恢复计划,所实施的业务连续性规划是可以执行的。

回到刚才最重要一点,如果大家不做计划,没有计划的好处就是说灾难突然降临前你现在什么也不需要做。谢谢各位。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们