您现在的位置是：首页 > 数字化转型 >

VMware虚拟化与容灾

2009-11-06 22:56:00作者：石峰来源：

摘要刚才听了前面几位同仁的介绍，如果我作为一个客户，我首先感受到一个字，什么呀？“难”，而且两个子，太难。容灾真是不容易，需要特别复杂的规划，设计，以及方方面面，不仅是IT技术的问题，根据部门、领导、决策，方方面面，而且需要很高的，像惠普公司或者其他公司的顾问...

各位领导大家下午好，我是最后一个，大家可以不用拖太久的时间了，我是石峰，今天非常高兴有这个机会跟大家分享关于容灾的话题。

刚才听了前面几位同仁的介绍，如果我作为一个客户，我首先感受到一个字，什么呀？“难”，而且两个子，太难。容灾真是不容易，需要特别复杂的规划，设计，以及方方面面，不仅是IT技术的问题，根据部门、领导、决策，方方面面，而且需要很高的，像惠普公司或者其他公司的顾问，很高级的人员。但是因为难我们就不做容灾了吗？肯定不行，因为容灾是我们大家今后必须要做的事情，但是由于它很难，意味着什么？意味着成本会很高，你必须花大价钱，大的经历和很长时间做一个真正可以实施，可以达到你要求和效果的容灾系统。

我们能不能找到另外一种解决方案，从另一个角度来把这种难度降低下来，让容灾不在成为一个非常难，技术条件要求非常高，花钱非常多，耗时非常长的一个项目。如果说大家依然采用现有的IT基础架构的模式，至少我看不到什么其他的改进方式。因为大家都知道你看一看真正大型数据中心，他里面都有什么，不同品牌的主机、服务器，不同品牌的存储、网络设备，不同品牌的操作系统，不同项数据库、中间件、应用软件，不同的数据备份，形成了一个一个独立的业务系统。所以说这是真正造成容灾为什么那么困难，成本那么高，需要那么高技术条件才能实现的根本问题。

前面很多同仁已经介绍到了，在这种状态下你逃脱不掉刚才提到这些问题。我们现在讲了业务恢复过程当中，前面很多的同仁讲到了我们前瞻怎么去规划，怎么去设计，然后要注意什么条件，才能够实现比较完美的容灾解决方案。我们在座的有真正实施过容灾，并且去操作国容在整个解决方案，他就会切实感觉多实际上容灾在是灾备测试当中，以及真正进行切换的过程当中会面临非常多的问题，非常多的风险点，我会在PPT当中介绍。

有了这些实际难度，大家可以看到实际上真正用户要做容灾的切换，它的切换时间以及损失的数据，也就是RTO，RPO比他所想象的要长的多，要多的多，往往是这种状态。像刚才惠普同仁讲的，实际上有的时候哪怕停机半个小时甚至半天的时间也比你做一次切换造成的损失要小，因为一旦切换不成功，切换很复杂，由于人为各个组织方面原因，可能不是IT技术方面原因会导致你切换一天两天才能成功甚至完全失败都是有可能的，这样风险是非常大。

当你建成一个真正灾备系统的话，灾备系统是为了实时当灾难发生的时候把生产系统切换到灾备站点当中。大家有没有想过，你的生产系统是一层不变的吗，现在业务变化那么快，随时会有新的设备加进来，买一台新的服务器，新的存储，新的软件，而且服务器应用软件会不断变化配置，增加硬盘，增加内存条。一旦这些东西被改变了以后，你在灾备中心的地方会自动随着生产中心改变吗？这边加了一台内存条，那边马上有一个同样存储，能够实施反映出来吗，如果在这个阶段之后发生灾难，你在灾备计划恢复系统能不能实施反映出新的变化，实际上这都是问题。因为我们现在的计算中心不在是固定的，而是一个动态的计算中心，世界发展非常快，我们的业务变化也非常快，大家一定要考虑这些问题。

如果没有一个很好的解决方案，我们会面临很多想象不到的问题。如果说我们采用另外一种技术架构，我们可以考虑另外一个解决方案，这是什么呢？我们能不能找到一个统一的IT基础架构，让这个架构能怎么讲呢？屏蔽掉底层不同的硬件系统，操作系统独立起来。让我们上面真正的关键业务应用或者说哪怕是所谓次关键所有周边应用，跟底层设备不管是什么存储，什么网络设备都跟他无关。这样子所有的应用就像数据一样，全是数据，这样大家都知道如果我的系统都以数据的方式存在，我进行拷贝、复制，以及进行所谓的快照，科隆工作变成一瞬间的事情。而且我可以不依赖与具体的硬件，我的数据可以存在光盘上，可以存在磁盘上，可以存在U盘上，你一个数据我可以装在任何平台上跑，这个时候你们就会发现我在这个基础上做这些容灾，它的难度就会大大降低，成本就会大大的节省，而且变成你在做灾难恢复，做灾难灾备的测试过程当中，你就会发现变得非常简单，非常容易，风险非常低。

我一旦系统进行某些变化，增加新的应用，增加新的硬件，我这些东西很容易，很快以数据的方式复制到远端站点，而且在这个过程当中可以科隆，科隆出来之后在远端进行测试，根本不涉及到生产站点。这样在灾备站点当中实时进行灾备恢复测试，而不用影响生产站点，这是不是能解决目前面临很多难题。

要想实现这些方方面面东西，就要虚拟化，就是说把传统的，把应用和整个硬件操作系统或者灾备架构变成一个横向的分层次化的系统，也就是说我们把硬件和你的应用，和你灾备架构层次化，这样变成一个非常灵活的架构，你才能够进行灾难系统恢复设计的过程当中难度和成本降低下来。

为什么说虚拟化能够达到现有物理环境当中做不到的特点，我们总结出四个方面的情况给大家做一下介绍。首先我刚才前面提到了独立的硬件，这是非常重要的。大家都知道在我们现在做所谓的灾备情况下，当你选定一个硬件的时候，意味着在你的灾备中心硬件也基本上确定了，因为这个硬件品牌、配置，上面的操作系统，哪怕他某个硬件当中某块板卡版本都已经确定了，更不要说操作系统版本号等等，都要确定。实际上体在进行灾备设计的时候，实际上硬件的消耗基本上是两倍需求，除非有个别解决方案可以降低，但是会牺牲其他方面的一些好处。

有了虚拟化以后，把你所有应用系统变成一个虚拟机，虚拟机后面会介绍到，这完全是以数据的方式存在，由于他是数据，可以跟硬件完全脱离，因此你生产环节当中硬件和灾备当中硬件会是完全不一样的，只要这些应用运行在同一个虚拟层面上，对呢的硬件没有绝对性的要求，这个灵活性就展现出来了。

第二，虚拟机最大的特点是分装，把你整个硬件，你这台服务器，主机硬件和上面装的操作系统、应用软件，上面的数据完全分装一个或多个数据文件。当你的一台主机变成一个文件的时候，你是不是对他移动性就变得非常强了，你可以把机房服务器拷到硬盘里面随身带着走，我可以通过高速互联网从北京复制到广州去，我想把这台机器做一个备份，我只要做一个拷贝就行了，因为服务器当时状态，操作系统，应用状态都一次复制，全都解决。如果让你在物理环境当中做一台一样一样硬件，你会花多少时间多少钱，这是第二点。

第三，分区和整合。由于你的应用主机做成了虚拟机以后，你可以怎么样？可以大大降低你在数据中心或者生产灾备中心硬件数量。也就是说虚拟化可以根据你应用主机运行应用特点，以及硬件资源情况，可以动态的在少量的服务器主机上面运行很多个虚拟机，而且这个虚拟机根据对资源使用可以动态的移动运行位置，这样可以大大降低你数据中心需要的硬件数量。在传统情况下可能有一百台服务器需要，你必须有一百台服务器，如果虚拟化的情况下，这些就需要十到二十太物理服务器就可以了，这意味着你的网络端口减少了，因为一百台服务器，每块服务器是两块网卡，这需要200个网络交换机端口，如果每台服务器要两块HB1卡，这意味着需要另外200根线，如果整合成十台或者二十台各方面的线缆减少了。更不要说运维当中的东西，这样会节省很多，虚拟化给我们大家带来很多全新的概念。

由于有了虚拟化平台，我们把底层硬件评出来以后，我们可以做出来一个虚拟资源池，可以根据对实际资源需求动态调整运行位置。在夜晚工作量很小的时候，他可以到一个资源小的地方或者把一些虚拟主机放在一个机器上运行，让一个机器工作。当业务变得很高，我们到中午的时候一个业务变得很繁忙，这个机器需要很多CPU，内存资源，这个系统会根据资源放在满足硬件资源平台上去跑，这样完全是自动调配，会大大提高你的资源利用率，降低你对硬件的成本。

这四个方面如果应用在灾难恢复，也就是灾备解决方案当中提供了现在所有思路不具备的一些条件。我们公司致力于推广虚拟化平台方面，我们也在着手帮助大家解决现在建设灾备中心，容灾中心所面临的一系列困难和难题。

我希望去建立一个基于虚拟化的容灾解决方案，我们从哪里开始考虑，我们先不讲容灾各种计划，设计、规划、人员，我们首先要从基础架构做起。如果我们基础架构不改变，依然保留现在这种状态说什么都是白说。因此首先一点我们要把基础架构，从现在的物理环境转化成虚拟环境，这是第一点。

第二，当你的架构变成虚拟架构以后，再在上面进行数据的保护，你的应用保护，你的业务连续性，才能摆脱现有状态的束缚，达到新的境界，让你更灵活，成本效益更高的设计方式。

最后就是管理。刚才很多同仁也提到了，实际上灾备设计，建设当中由于这套系统还没有成立，你真的不知道真正转起来，使用起来，管理起来的难度有多大，真正灾备系统管理起来是非常难的，而有了虚拟化架构以后，有了虚拟化架构容灾系统之后，其实它的管理也要比现在环境管理难度减少很多，而且可以把很多管理工作变成自动化，而不需要人工、手工做一些事。一旦发生灾难的以后，是不是一定需要像惠普公司那样特别有知识的经过培训的专业人员过来帮助你实施一系列灾备恢复的步骤。我们普通IT管理员没有那么多知识和培训，我难道不能按照要求进行灾难恢复操作码？如果有了虚拟化的灾难恢复计划，这个管理的难度、操作的难度也会大幅度降低。原来灾难恢复往往都是大企业，大公司，像四大行，三大运营商才能玩得起的东西，一般的国内大企业都很难玩得起或者说支撑得起真正的容灾系统。但是如果你把虚拟架构改变了以后，上了虚拟化容灾解决方案，这些难度都会大大降低，而且真正的能够落地，实施的系统。

你的灾备站点的利用效率问题。因为在目前的物理环境当中你想要实现高效的切换，往往意味着你在灾备中心的设备主机、存储、网络都要闲置，随时准备你的生产站点出现灾难切换过来，如果这个装了其他软件，跑别的东西的时候，那边生产站点发生障碍，你把这些东西重新清零，重新弄很慢的，大家知道真正发生洪水、海啸，这种机率一年都不会有一次，你这些设备花那么多钱放在那全是浪费，这一点大家一定要注意。

但是，如果你采用了虚拟化架构，当你所有的机器，你的应用系统以虚拟机模式进行运行的时候，这变成了什么呢？你灾备站点的机器完全可以利用起来，因为这些站点机器设备都是跟你的应用、虚拟主机无关，这只是一个运算资源，在平时可以跑你的开发系统，你的测试系统，或者说跟其他生产系统无关的一些其他的应用，把你的灾备生产系统充分的利用起来。当灾难一旦发生的时候，系统解决方案可以自动的把运行在灾备系统上的硬件平台上虚拟机的应用全部自动停下来，然后转成生产环节当中虚拟应用系统。这样可以充分的发挥和利用你对灾备站点的硬件控制，这是效率问题。

其次，你灾备站点当中的硬件设备，特别是服务器主机这些方面可以和你生产环节完全不一样，当你做生产环节当中的P2V，从物理环境转到虚拟环境当中，你一定是一个整合过程，你原来一百台服务器，新的20台服务器就够了，我节省下来的80台甚至淘汰下来老服务器怎么办呢？是不是扔掉呢？没有必要，完全可以放到灾备中心，作为灾备中心平台，新机器和老机器装上我们公司平台以后，你上面的应用跟新老硬件无关，你应用灾备中心的时候服务器这的钱会省下来。加上其他的网络存储设备的节省，可能你花的钱是非常少的，就可以建立起来比较完美的灾难恢复中心。

我们虚拟化平台基础之上提供了一个所谓SRM，灾难恢复的解决方案。就是帮助广大用户在虚拟化平台上建立起来一个简单实用，而且低成本的容灾解决方案产品。

我们在进行灾难恢复操作和测试的过程当中，在物理环境当中遇到的风险、难度是非常大的，但是刚才说了如果建成虚拟平台，我所有的应用，从硬件开始，从虚拟硬件开始都是以数据的方式复制过来，这时候可以在灾备站点保持完整的系统配置，状态各个方面。因此可以做灾难恢复的演练，我可以在灾备中心去测，不动生产中心，这样风险会降低。

另外进行灾备的时候要进行一系列分析和判断，有的时候是偶尔一些网络临时中断，并不是真正发生灾难了，你这个判断怎么样，你的应用要中断多长时间才能切换，以及切换的一系列步骤是什么。比如说你的基础架构切换，你的DNS怎么切换过来，你的一系列基础架构服务的东西怎么平移转换过来，这些都考虑过吗，这些即使不够的情况下，你光数据库服务器跑起来，你中间件服务器跑起来，但是你的应用能上来吗，这些东西有没有一个完整的自动化的系统帮助你去检查，不要你人工去做，而是系统自己去做了，这都是我们产品帮助你做，我们基于虚拟化之后，你的继续操作、测试，这一系列动作都会变得非常简单，而且非常自动化，只是点一下鼠标就OK了，这样的话我们没有必要要求付很多钱请非常高级专家帮你做这些事情。

你SRM能够支持现在这个版本，你能做到什么？我们现在能够做到几种场景，第一像传统的物理环境，一个生产站点，然后一个灾备站点，灾备站点平时不用，随时等着生产站点灾难发生，然后切换，这个当然是没有问题的，但是大家都知道，这是很不经济的解决方案。

第二，我前面介绍的，双活，也就是说生产站点没有问题是活的，灾备站点也是活的，但是这个灾备站点设备在平时的时候可以跑其他应用，测试、开发方面都可以做，一旦发生了灾难，生产站点发生灾难之后会自动把上面所有其他跟生产站点无关的系统停下来，启动实施复制过来生产站点的虚拟机，这样迅速来恢复生产，是这么一个解决方案。

第三，所谓的互为备份，也就是说这两个地方，两个站点全都是生产站点，他们都有预留富裕的资源，互为灾难恢复，一旦其中一个站点发生灾难，他可以迅速的切换到另一个地点，继续提供生产服务。

第四，我们可以做到对一些系统要求比较高，但是他又没有一些远程的设计规划，他为了解决校园大楼失火或者垮台怎么办，在本地两个楼之间也可以做解决方案，但是这种情况通常来说比较少见。

现在SRM这套系统不仅仅支持一对一灾难恢复解决方案，我们还支持多对一，也就是说我们可以建立一个公共的灾备站点，然后让其他的各个生产站点把应用虚拟机数据实时的复制到共享灾备站点，一旦某一个站点发生灾难，这个会迅速起来。这对大的公司，有总部，有分支机构，他在总部可以建立或者在什么其他地方建立统一灾备站点，这样把小的分支机构，以及总部内部关键应用和数据复制过来，这样成本效益是最好的。

如果你是作为灾难恢复的服务供应商，这就是一个很好的解决方案，像电信IDC运营商，我通过虚拟容灾解决方案，可以提供容灾服务，让各个中小企业甚至大企业把现有的应用，如果你上了虚拟化以后不用自己建立灾备中心，你就租用我灾备中心服务，我来给你提供灾备中心的资源、设备，降低你的建设和使用成本。

我们除了提供大规模的灾难恢复解决方案，我们还内置了数据备份解决方案。大家知道既然虚拟机本身都成为数据，他备份其他非常容易，我们本身就内置虚拟机整机备份，一次性快招之后复制到远端磁盘上进行灾难保护，一旦发生灾难虚拟机一拷贝出来就OK了，这对于资金有限，没有长距离高带宽通信线路的用户，采用这种备份的解决方案是非常经济实用的方式，而且这也是目前大中小企业普遍采用的方式。

如果你实现了虚拟化平台之后，这个东西是能够自动提供给大家的解决方案。这个解决方案最大的好处是什么呢？一个是快，一个是简单，一个是成本低。因为我们不妨跟传统的数据备份方式，物理环境当中备份比较一下。如果发生灾难我们进行恢复的时候，我首先要找到一个几乎是一模一样的硬件，如果我在一台服务器当中，比如说惠普服务器是我生产服务器，这时候突然机器宕了，我可能要采购一批，或者在库存当中拿一批服务器来，可能没有这个配置的服务器了，是别的配置服务器甚至只有别的品牌服务器，整个机器操作系统驱动程序完全变了，这需要一台一台重新装操作系统，重新装应用软件，装完还要重新打补丁，打完补丁从备份介质当中恢复数据，这个过程是非常漫长的，而且风险非常大，一旦中间有环节出现问题会导致恢复过程变长甚至不可恢复。

如果你做了虚拟化平台，你整个机器本身就是一个文件，我不是说备份多么简单，我恢复起来非常容易，因为我本身对硬件没有依赖，我随便找一台服务器装上以后，我只要拷贝回来，虚拟机一上线马上可以应用，因为这些在做快照和备份的时候保留下来了，你没有必要对软件数据进行修补和改动，当时做快照状态可以实时恢复起来，这个时间和速度变得非常的快，我们很多用户比他在物理环境当中的恢复速度快一个数量级，也就是说相同规模机器出现问题进行恢复，在以前是花40个小时，现在花4个小时，这个效果是非常显著的。

我最后总结一下，灾备系统的建设是非常复杂，难度非常高，而且是一个花费很大，耗时很长的工程，我们能不能找到另外一种解决方案来简化这个难度，降低这个成本，然后将来在以后的运维过程当中也能够得到好处，我们必须从基础架构的改变开始，你才能够真正解决这些问题，如果你不改变基础架构模式，你将来面临的这一系列问题都躲避不开，逃避不掉，而且我在跟大家说一些题外话，你从今天开始做虚拟化意味着什么？大家知道现在IT行业正在迈向第二代数据中心阶段，第二代数据中心特点就是以云计算为特征的数据中心，不管备份，灾备都是在云计算平台上去做，而云计算的基础是什么呢？虚拟化，没有虚拟化没有云计算，这是业界的共识。所以说今天去开始在基础架构层面做虚拟化的工作不仅可以帮助你容易解决灾备建设所面临的问题，而且为你未来第二代数据中心，基于云计算平台打下很好基础。谢谢大家。

(本文不涉密)
责任编辑：

上一篇：王建宙：不进入谷歌地盘迟早会被对方干掉

下一篇：灾难恢复：从理论到实践