您现在的位置是:首页 > IT基础架构 > 计算存储 >
分支机构的灾难恢复计划:五层冗余
摘要对某些机构而言,唯有天灾才能让它们认真审视针对远程办公及分支机构的灾难恢复计划。美国癌症治疗中心(CTCA)CIO Chad Eckes认为,在他的机构中,视患者为亲人远远不够,还需要确保信息技术实施到位。促使他发表这一看法的直接原因是治疗中心的健康记录从最初的纸质病历发...
对某些机构而言,唯有天灾才能让它们认真审视针对远程办公及分支机构的灾难恢复计划。美国癌症治疗中心(CTCA)CIO Chad Eckes认为,在他的机构中,视患者为亲人远远不够,还需要确保信息技术实施到位。促使他发表这一看法的直接原因是治疗中心的健康记录从最初的纸质病历发展到电子病历。
Ecke说:“我们对患者的承诺是,可以确保向患者提供其在我中心接受复杂、快速治疗过程中的全部适当记录。实际的操作速度快于任何一家我所知道的医疗机构。” Eckes2005年12月进入美国癌症治疗中心,负责该营利性机构的数字改造项目。该中心在芝加哥近郊、费城等一些地区设有医院。
患者从500英里外的地方赶来,在中心接受治疗。治疗过程中,患者可能会在一家医院的多个部门接受诊治,甚至会在不止一家癌症治疗中心就诊。”Eckes补充说:“纸张世界赶不上患者的移动速度。”
迈向无纸化进程中,缺乏技术基础架构的必要支持可能带来巨大风险。“母亲标准”的护理——一项视患者为亲人的商标性使命是美国癌症治疗中心享有声望的根基所在。电子病历的管理要求做到安全可靠、方便信息输入及输出,并且能够与医院的治疗设备相连接。
在Eckes看来,这些正是他们踏上建立高冗余基础架构之路的原因所在。这些冗余基础架构主要集中在灾难恢复方面。
偏远地区灾难恢复的分层方法
由于地理位置分布广泛的CTCA下属各医院需要共享电子病历内容,要求CTCA必须有集中的数据中心。这一要求影响到灾难恢复计划需要管控的全部三种风险:电力、应用及数据和网络。
偏远地区的电力管理与当地状况差异不大。Eckes表示:“我们总想全力确保拥有双电网、不间断的电力供应以及能带动全部系统的备用发电机。”
Eckes详述道,凤凰城的CTCA更多考虑了上述问题,整个医院以不间断电源设备(UPS)系统为支撑,确保医疗设备不停电,较依靠不间断电源设备系统单一支撑IT系统更具优势。同样道理,至少就概念而言,当地及偏远地区处理应用及数据冗余不存在差别;但由于数据库较为集中,对治疗中心的风险影响将有所提高。如某一应用降低,不仅会影响一家医院提供的服务,而且将危及我们四套设施。
CTCA已为其系统数据创建了四层冗余,并且一旦出现最坏状况,将有第五层冗余作为保障,Eckes称赞这一做法在医疗机构中“不同寻常”。
--群集各生产系统,一旦集群内某一部分瘫痪,系统仍能继续运行。
--来自不同地区的各条数据可迅速反映到备用数据中心,一旦停电,CTCA可将进程切换至冗余中心而不会损失任何数据。治疗中心的备用数据中心距离位于Schaumburg的主中心59英里。做出这一战略决定完全基于数据传输速度的考虑。“之所以选择将备用数据中心建在离主中心不远的地方是因为信息传输速度的限制,距离太远无法复制数据。”
--数据备份存储在磁盘中。“磁盘可以快速进行恢复,我们的数据中心很快就能获得恢复后的数据。磁盘存储着一周七天的备份内容。” CTCA每天夜里都要备份将近4兆兆字节的数据。
--标准磁带备份储存在数据中心之外位于芝加哥市中心的保管库设施中。“从成本角度而言,磁盘备份不能想存多久就存多久,而且这是种不谨慎的行为。我们也做好了应对两个数据中心同时瘫痪的情况准备。”
--数据采用PDF格式。为防止全部冗余失效,CTCA写入了大规模转储数据,并将这些数据分散至各独立网站。这些数据囊括了所有需要看护的重要病人的信息,信息每四小时取出一次,以PDF格式存储在每家医院的服务器上。一旦出现最差状况,医院工作人员可以访问服务器,打印相关数据,从而避免疏忽患者护理。
Eckes称,上述措施的结果表明:如果CTCA主数据中心出现瘫痪,每个系统都可在两小时内开始运行。实时复制确保了零数据损失情况的发生。
控制不可控制因素:两个广域网内的网络冗余
Eckes表示,建设能完全支持实现无纸化基础架构的最大难题在于实现网络冗余——不完全受控的灾难恢复梯级;而最简单的部分则是CTCA设施中的局域网网络。“我们有思科这个强大的合作伙伴,已经在相关设施的各个方面建立了高冗余。”
相对困难的是在大城市层次和广域网层面设计某一结构。
Eckes说:“我们设计了两个能满负荷工作的广域网,这项设计被称为大芝加哥地区最复杂的设计之一。其中一个广域网由AT&T公司负责搭建,另一个交由Qwest公司负责。这两个广域网可同步运行,在某一点处进行估算,估算能够让使用者在两套系统中相互转换并留出足够的带宽用以运行我们的设施。”广域网可以每秒20兆字节的速度传输数据。此外,如果其中任何一个网络出现问题,所有思科装置都能立即自动转换进程。Eckes也已与两家电信供应商就采用独立光纤构建CTCA网络进行协商,防止在某一节点处发生故障。
任务指定DR计划
比灾难恢复具体细节更为重要的是用CTCA的任务校正相关计划。Eckes带领一个84人的团队负责项目的IT运行。团队成员参与该项目的出发点是看重治疗中心这一关爱患者的善举,而非那些可以学会的技术细节。
在Forrester Research Inc.从事灾难恢复和业务持续性研究的分析人士Stephanie Balaouras指出,这一项目对不同组织的CIO在精心策划某一灾难恢复计划前退步审视业务影响颇有助益。她表示, IT从业者容易关注个别应用,忽视业务流程全局。此外,将偏远地区机构的备份和恢复整合为一种集中模式对技术和技能两方面都富有意义。
Eckes称,企业任务应当经常告知信息技术的DR战略。“从IT视角而言,DR战略转化结果如何是个难题。我经常询问团队成员:‘如果你的父亲或母亲在CTCA接受治疗,使用连接到我们EHR上的医疗设备,你希望这一系统如何冗余?’”
“坦白地说,我们会将冗余执行到第N层。这也是我们的目标驱动力——百分之百的系统运行时间。”Eckes承认,许多IT从业人员会驳斥这一论调,认为这是“不可能”的。“但为什么不可能呢?我们将继续关注冗余,直至实现这一标准。”
(本文不涉密)
责任编辑: