您现在的位置是：首页 > 数字化转型 >

Amazon雷击断线事件启示录

2011-12-06 21:17:00作者：来源：

摘要没有什么是100%可靠的，最稳定的服务也可能因天灾人祸等不可抗力而中断。而IT经理人的职责则是使公司在任何环境中都营运不缀。 ...

没有什么是100%可靠的，最稳定的服务也可能因天灾人祸等不可抗力而中断。而IT经理人的职责则是使公司在任何环境中都营运不缀。

此次事件的主角是大名鼎鼎的亚马逊（Amazon）——世界最大的网上商店。亚马逊数据中心承担Amazon各项应用交付的支撑。一般情况下，数据中心都会建有备份、容错备援机制，以确保遭遇意外情况，数据中心能够持续运作。但是，在此次雷击事件中，这些备份机制丝毫没有发挥作用。

针对雷击导致数据中心运营中断的事件，亚马逊在Service Health Dashboard网站上作出解释：“正常而言，当变电站提供的公用电力下降时，就会马上由备份发电机接手发电。但此次雷击所引起的瞬间电力偏移太大，使得负责同步背援发电机的某部分相位控制系统失灵。由于来源电力必须经过相位同步才能发送出去，因而当系统失灵时，只能依靠手动方式将发电机接上供电系统。”

简单地说，正因为闪电太大、太强，使得变电站及启动备援发电机所需的相位控制系统同时间被破坏。而亚马逊致力于恢复服务及资料的过程时间远超预期，使得该公司需要增加服务器容量才能应付负载量。

那么，这一时间给予我们什么启示？亚马逊服务完全恢复后，或许应该进行下列检讨：第一，亚马逊应该分析主电源及备援电力何以同时遭到波及，它应该判断同样情况再发生的可能性，提出解决方案。或许备援发电机应该要和主发电机位于不同电力网上；又或者这种情形发生机率太小，此类投资实在划不来。

亚马逊接下来应该要检讨：在其回复及重置的流程中所遇到的种种阻碍——像是必须扩增服务器容量，才能更有效应付负载所需——因而，它也应该修改事件回应流程和程序，以便确保未来灾难复原运作的效率及效果。

如果你是亚马逊或微软——它们也是都柏林雷击事件的受害者，任何其他提供/使用云端资料及服务的厂商，也应该要小心。诚如我几个月前在亚马逊美国发生云端服务断线时指出的——除非你能很有信心回答“如果云端服务无法存取，我公司应该怎么办？”否则千万别使用云端服务。

你应该要有自己的备援及灾难回复系统，并且要至少与两家以上的云端服务供应商签约，千万不要把鸡蛋放在同一个篮子中，以免因一家供应商停机而拖垮你所有运作。你也应确实了解云端供应商的容错备援机制，如亚马逊提供Availability Zones，使客户可以在云端上架设自己的备援系统。

不过最重要的教训是：没有什麽是100%可靠的，就连现今最稳的服务，都可能因天灾人祸而断线。IT经理人的任务是建立一套机制，并使公司在何种情形下都能营运不辍。

(本文不涉密)
责任编辑：

上一篇：ESG：云计算将进入快速发展期

下一篇：未来五年电子医疗发展预测