您现在的位置是:首页 > 数字化转型 >
Amazon雷击断线事件启示录
摘要没有什么是100%可靠的,最稳定的服务也可能因天灾人祸等不可抗力而中断。而IT经理人的职责则是使公司在任何环境中都营运不缀。 ...
没有什么是100%可靠的,最稳定的服务也可能因天灾人祸等不可抗力而中断。而IT经理人的职责则是使公司在任何环境中都营运不缀。
此次事件的主角是大名鼎鼎的亚马逊(Amazon)——世界最大的网上商店。亚马逊数据中心承担Amazon各项应用交付的支撑。一般情况下,数据中心都会建有备份、容错备援机制,以确保遭遇意外情况,数据中心能够持续运作。但是,在此次雷击事件中,这些备份机制丝毫没有发挥作用。
针对雷击导致数据中心运营中断的事件,亚马逊在Service Health Dashboard网站上作出解释:“正常而言,当变电站提供的公用电力下降时,就会马上由备份发电机接手发电。但此次雷击所引起的瞬间电力偏移太大,使得负责同步背援发电机的某部分相位控制系统失灵。由于来源电力必须经过相位同步才能发送出去,因而当系统失灵时,只能依靠手动方式将发电机接上供电系统。”
简单地说,正因为闪电太大、太强,使得变电站及启动备援发电机所需的相位控制系统同时间被破坏。而亚马逊致力于恢复服务及资料的过程时间远超预期,使得该公司需要增加服务器容量才能应付负载量。
那么,这一时间给予我们什么启示?亚马逊服务完全恢复后,或许应该进行下列检讨:第一,亚马逊应该分析主电源及备援电力何以同时遭到波及,它应该判断同样情况再发生的可能性,提出解决方案。或许备援发电机应该要和主发电机位于不同电力网上;又或者这种情形发生机率太小,此类投资实在划不来。
亚马逊接下来应该要检讨:在其回复及重置的流程中所遇到的种种阻碍——像是必须扩增服务器容量,才能更有效应付负载所需——因而,它也应该修改事件回应流程和程序,以便确保未来灾难复原运作的效率及效果。
如果你是亚马逊或微软——它们也是都柏林雷击事件的受害者,任何其他提供/使用云端资料及服务的厂商,也应该要小心。诚如我几个月前在亚马逊美国发生云端服务断线时指出的——除非你能很有信心回答“如果云端服务无法存取,我公司应该怎么办?”否则千万别使用云端服务。
你应该要有自己的备援及灾难回复系统,并且要至少与两家以上的云端服务供应商签约,千万不要把鸡蛋放在同一个篮子中,以免因一家供应商停机而拖垮你所有运作。你也应确实了解云端供应商的容错备援机制,如亚马逊提供Availability Zones,使客户可以在云端上架设自己的备援系统。
不过最重要的教训是:没有什麽是100%可靠的,就连现今最稳的服务,都可能因天灾人祸而断线。IT经理人的任务是建立一套机制,并使公司在何种情形下都能营运不辍。
(本文不涉密)
责任编辑:
上一篇:ESG:云计算将进入快速发展期
下一篇:未来五年电子医疗发展预测